9.4.2 Casuality

์ด์ „๊นŒ์ง€ gradient estimator๋Š” ๋‘๊ฐ€์ง€ ๋ฐฉ์‹์œผ๋กœ ๋‚˜ํƒ€๋‚˜์กŒ์Šต๋‹ˆ๋‹ค.

  1. ์ฒซ์งธ term์— ๋Œ€ํ•œ ์„ค๋ช…์ด ์ข€ ๋‹ค๋ฅธ๋ฐ ์ž˜๋ชป ํ‘œ๊ธฐ๋˜์—ˆ๋‹ค ์ƒ๊ฐํ•˜๊ณ  ์ œ ์ƒ๊ฐ๋Œ€๋กœ ์“ฐ๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. sampled cost c^\hat{c}์˜ ํ•ฉ์— โˆ‡logโก(p(w))\nabla\log(p(w))๋ฅผ ๊ณฑํ•ด ํ•ฉ์„ ๊ตฌํ•˜๋Š” ํ˜•์‹์œผ๋กœ ์–ป์–ด์ง‘๋‹ˆ๋‹ค.

  2. ๋‘˜์งธ term์€, ๊ฐ cost์— ๋Œ€ํ•ด log prob gradientํ•ฉ์ด ๊ณฑํ•ด์ง‘๋‹ˆ๋‹ค.

๋‘ gradient estimator ๋ชจ๋‘ ์ผ๋ฐ˜์ ์ธ ๋ชจ๋“  cost์˜ ํ•ฉ์„ ๊ณฑํ•˜๋Š” ๋ฐฉ์‹๋ณด๋‹ค variance๊ฐ€ ์ค„์–ด๋“œ๋Š” ํšจ๊ณผ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. SL์˜ ์ ‘๊ทผ์€ ์ฒซ๋ฒˆ์งธ ํ‘œํ˜„์‹์„, DiCE๋Š” ๋‘๋ฒˆ์งธ ํ‘œํ˜„์‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‘์—ˆ์Šต๋‹ˆ๋‹ค. Schulman์€ ๋‘ ํ‘œํ˜„์‹์ด ๊ฒฐ๊ณผ์ ์œผ๋กœ ๊ฐ™์€ term์„ ๊ฐ€์ ธ์˜จ๋‹ค๊ณ  ํ–ˆ์œผ๋‚˜, ๋‘๋ฒˆ์งธ ํ‘œํ˜„์‹์ด ๋†’์€ ์ฐจ์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•  ๋•Œ ํ›จ์”ฌ ๋งŽ์ด ๋ณต์žก์„ฑ์ด ๋‚ฎ์•„์ง‘๋‹ˆ๋‹ค. ๊ทธ ์ด์œ ๋Š” gradient estimator๊ฐ€ Wcn=Wcn+1\mathcal{W}_{c^n} = \mathcal{W}_{c^{n+1}} ๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ฒซ๋ฒˆ์งธ๋Š” ๊ณ„์† sampling์„ ํ†ตํ•ด Q^\hat{Q}๋ฅผ ๊ตฌํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด์— SL์€ ๋ฏธ๋ถ„๋์„ ๋•Œ, ๊ทธ์— ์˜์กด์„ฑ์ด ์žˆ๋Š” stochastic nodes๊ฐ€ ๊ณ„์† ๊ด€๋ จ๋˜๋ฉด์„œ ๋ณต์žก์„ฑ์ด ์ปค์ง‘๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด์— DiCE๋Š” ๋ฐ˜๋ณตํ•ด ๋ฏธ๋ถ„ํ•ด๋„ ์›๋ž˜ objective๋ฅผ ์ง‘์ค‘ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ข€๋” ์ง๊ด€์ ์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

Last updated