9.6 Related Work

gradient ์ถ”์ •์— ๋Œ€ํ•œ ์—ฐ๊ตฌ๋Š” ์ž˜ ์ด๋ฃจ์–ด์กŒ์ง€๋งŒ, ๋งŽ์€ ๋ฐฉ๋ฒ•๋“ค์ด ์„œ๋กœ ๋…๋ฆฝ์ ์œผ๋กœ ๋‹ค๋ฅธ ํ•„๋“œ์—์„œ ๋ช…๋ช…๋˜๊ณ  ์—ฐ๊ตฌ๋˜์–ด์™”์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  1์ฐจ gradient์—๋งŒ ๋งŽ์ด ์น˜์šฐ์ณ์ ธ์žˆ์Šต๋‹ˆ๋‹ค. Fu์˜ ์—ฐ๊ตฌ์—์„œ๋Š” simulation optimization๊ด€์ ์—์„œ ์ „์ฒด์ ์ธ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ์˜ Score function estimator๋Š” likelihood ratio estimator๋‚˜ REINFORCE๋ผ๋Š” ์ด๋ฆ„์œผ๋กœ ๋งŽ์€ ๋ถ„์—์„œ ์ฃผ๋ชฉ์„ ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค. RL์—์„œ policy gradient method๋Š” ์•„์ฃผ ์„ฑ๊ณต์ ์ด์—ˆ๊ณ  ์ด๋Š” variance๋ฅผ ์ค„์ด๋Š” ํ…Œํฌ๋‹‰๊ณผ ํ•จ๊ป˜ ์ž˜ ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. SF estimator๋Š” stochastic system์„ ๋ถ„์„ํ•˜๋Š”๋ฐ ๋งŽ์ด ์ด์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์ ‘๊ทผ์€ Schulman์˜ ์—ฐ๊ตฌ์—์„œ ๊ณต์‹ํ™”๋˜์—ˆ์œผ๋‚˜, ์ด๋ฅผ ์‹ค์šฉ์ ์ด๊ณ  ์ •ํ™•ํ•œ ๋†’์€ ์ฐจ์ˆ˜์˜ gradient๋ฅผ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•œ ๊ฒฝ์šฐ๋Š” ์ฒ˜์Œ์ผ ๊ฒƒ์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ์ด๋Ÿฐ ๋†’์€ ์ฐจ์ˆ˜์˜ gradient ๊ณ„์‚ฐ์„ ํ•„์š”๋กœํ•˜๋Š” meta learning๋“ฑ์— ์š”๊ธดํ•˜๊ฒŒ ์“ฐ์ผ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒํ•ฉ๋‹ˆ๋‹ค.

Last updated