9.5 Case Studies
์ด๋ฒ chapter์ ๊ฐ์ฅ ํฐ contribution์ SCG์์ ์ด๋ ์ฐจ์์ gradient๋ฅผ ์ป๋ ์ ํํ ์ถ์ ์ ํ ์ ์๋๋ก ํ๋ ๋ฐฉ๋ฒ๋ก ์ ๋ํ ๊ฒ ์ด์ง๋ง, ์ฌ๊ธฐ์ ๋ช ๊ฐ์ ์คํ์ ํตํด ์ด๋ฅผ ์ฆ๋ช ํ๋ ค๊ณ ํฉ๋๋ค. ์ด์ chapter์์ ์คํํ๋ IPDํ๊ฒฝ์ ๊ทธ๋๋ก ์ฌ์ฉํ๋๋ฐ, ์ด๋ nontrivialํ์ง๋ง, value function์ analyticํ๊ฒ ๊ณ์ฐ๋ ๊ฐ๋ฅํ(gradient estimation์ ๋ํ ๊ฒ์ฆ์ด ํ์ํ๋ฏ๋ก) ์ฅ์ ์ด์์ต๋๋ค. ๋ํ, ๋ค๋ฅธ agent์ learning step์ ์์ ์ optimization term์ ๋ฃ์ด์ ํด๊ฒฐํ ์ ์๋ ๋ฌธ์ ์ค์ ํ๋์ด๊ธฐ ๋๋ฌธ์ ์ผ๋ฆฌ๊ฐ ์์ต๋๋ค.
Last updated