9.5 Case Studies

์ด๋ฒˆ chapter์˜ ๊ฐ€์žฅ ํฐ contribution์€ SCG์—์„œ ์–ด๋Š ์ฐจ์ˆ˜์˜ gradient๋ฅผ ์–ป๋“  ์ •ํ™•ํ•œ ์ถ”์ •์„ ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์— ๋Œ€ํ•œ ๊ฒƒ ์ด์ง€๋งŒ, ์—ฌ๊ธฐ์„œ ๋ช‡ ๊ฐœ์˜ ์‹คํ—˜์„ ํ†ตํ•ด ์ด๋ฅผ ์ฆ๋ช…ํ•˜๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด์ „ chapter์—์„œ ์‹คํ—˜ํ–ˆ๋˜ IPDํ™˜๊ฒฝ์„ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, ์ด๋Š” nontrivialํ•˜์ง€๋งŒ, value function์„ analyticํ•˜๊ฒŒ ๊ณ„์‚ฐ๋„ ๊ฐ€๋Šฅํ•œ(gradient estimation์— ๋Œ€ํ•œ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋ฏ€๋กœ) ์žฅ์ ์ด์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋‹ค๋ฅธ agent์˜ learning step์„ ์ž์‹ ์˜ optimization term์— ๋„ฃ์–ด์„œ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ์ค‘์— ํ•˜๋‚˜์ด๊ธฐ ๋•Œ๋ฌธ์— ์ผ๋ฆฌ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

Last updated