9.5 Case Studies
์ด๋ฒ chapter์ ๊ฐ์ฅ ํฐ contribution์ SCG์์ ์ด๋ ์ฐจ์์ gradient๋ฅผ ์ป๋ ์ ํํ ์ถ์ ์ ํ ์ ์๋๋ก ํ๋ ๋ฐฉ๋ฒ๋ก ์ ๋ํ ๊ฒ ์ด์ง๋ง, ์ฌ๊ธฐ์ ๋ช ๊ฐ์ ์คํ์ ํตํด ์ด๋ฅผ ์ฆ๋ช ํ๋ ค๊ณ ํฉ๋๋ค. ์ด์ chapter์์ ์คํํ๋ IPDํ๊ฒฝ์ ๊ทธ๋๋ก ์ฌ์ฉํ๋๋ฐ, ์ด๋ nontrivialํ์ง๋ง, value function์ analyticํ๊ฒ ๊ณ์ฐ๋ ๊ฐ๋ฅํ(gradient estimation์ ๋ํ ๊ฒ์ฆ์ด ํ์ํ๋ฏ๋ก) ์ฅ์ ์ด์์ต๋๋ค. ๋ํ, ๋ค๋ฅธ agent์ learning step์ ์์ ์ optimization term์ ๋ฃ์ด์ ํด๊ฒฐํ ์ ์๋ ๋ฌธ์ ์ค์ ํ๋์ด๊ธฐ ๋๋ฌธ์ ์ผ๋ฆฌ๊ฐ ์์ต๋๋ค.
Last updated
Was this helpful?