9.6 Related Work
gradient ์ถ์ ์ ๋ํ ์ฐ๊ตฌ๋ ์ ์ด๋ฃจ์ด์ก์ง๋ง, ๋ง์ ๋ฐฉ๋ฒ๋ค์ด ์๋ก ๋ ๋ฆฝ์ ์ผ๋ก ๋ค๋ฅธ ํ๋์์ ๋ช ๋ช ๋๊ณ ์ฐ๊ตฌ๋์ด์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ 1์ฐจ gradient์๋ง ๋ง์ด ์น์ฐ์ณ์ ธ์์ต๋๋ค. Fu์ ์ฐ๊ตฌ์์๋ simulation optimization๊ด์ ์์ ์ ์ฒด์ ์ธ ๋ฐฉ๋ฒ์ ๋ํด ์ค๋ช ํฉ๋๋ค. ์ฌ๊ธฐ์์ Score function estimator๋ likelihood ratio estimator๋ REINFORCE๋ผ๋ ์ด๋ฆ์ผ๋ก ๋ง์ ๋ถ์์ ์ฃผ๋ชฉ์ ๋ฐ์์ต๋๋ค. RL์์ policy gradient method๋ ์์ฃผ ์ฑ๊ณต์ ์ด์๊ณ ์ด๋ variance๋ฅผ ์ค์ด๋ ํ ํฌ๋๊ณผ ํจ๊ป ์ ์ฌ์ฉ๋์์ต๋๋ค. SF estimator๋ stochastic system์ ๋ถ์ํ๋๋ฐ ๋ง์ด ์ด์ฉ๋์์ต๋๋ค.
์ด๋ฌํ ์ ๊ทผ์ Schulman์ ์ฐ๊ตฌ์์ ๊ณต์ํ๋์์ผ๋, ์ด๋ฅผ ์ค์ฉ์ ์ด๊ณ ์ ํํ ๋์ ์ฐจ์์ gradient๋ฅผ ๊ตฌํ๊ธฐ ์ํด ์ฌ์ฉํ ๊ฒฝ์ฐ๋ ์ฒ์์ผ ๊ฒ์ด๋ผ๊ณ ํฉ๋๋ค. ์ด ์ฐ๊ตฌ๋ ์ด๋ฐ ๋์ ์ฐจ์์ gradient ๊ณ์ฐ์ ํ์๋กํ๋ meta learning๋ฑ์ ์๊ธดํ๊ฒ ์ฐ์ผ ๊ฒ์ผ๋ก ์์ํฉ๋๋ค.
Last updated