9.5.1 Empirical Verification
Last updated
Last updated
์ฒซ๋ฒ์งธ๋ก ์คํํ ๊ฒ์ DiCE๊ฐ SCG์์ gradient์ hessian์ ์ ์ฐพ์๋ด๋๊ฐ์ ๋ํ ์คํ์ด์์ต๋๋ค. ์ด๋ฅผ ์คํํ๊ธฐ ์ํด์ IPDํ๊ฒฝ์์ fixed policies๋ฅผ ๊ฐ์ง๊ณ ์งํ์ ํ์์ต๋๋ค.
์์ ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด, (a)๋ gradient, (b)๋ hessian ์ ๋๋ค. red๊ฐ true value, green์ด estimated value์ธ๋ฐ, ๊ฑฐ์ ์ผ์นํ๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
๋ํ ์์ (a)๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด, value function์ด ์ ๋ฐํด์ง์๋ก gradient ์ถ์ ๊ฐ์ด ์ด๋ป๊ฒ ์ ํํด์ง๋์ง ๋ณด์ ๋๋ค. value function์ variance์ด ์์์ง์๋ก, baseline ์ถ์ ์ค์ฐจ์ ๋ํ ํจ์๋ก์จ gradient estimator์ correlation์ด ๋์์ง๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. (b)์์ sample size์ baseline์ ๋ํด ์คํํ๋๋ฐ, baseline์ ์ ์ฉํ ๊ฒ์ด sample size๊ฐ ์ ์ด๋ ๊ต์ฅํ ํจ์จ์ ์์ ๋ณผ ์ ์์ต๋๋ค. ์ด ๋ ์คํ ๋ชจ๋ baseline์ด DiCE์ ์์ฃผ ์ค์ํ ์์์์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.