9.4.2 Casuality
์ด์ ๊น์ง gradient estimator๋ ๋๊ฐ์ง ๋ฐฉ์์ผ๋ก ๋ํ๋์ก์ต๋๋ค.
์ฒซ์งธ term์ ๋ํ ์ค๋ช ์ด ์ข ๋ค๋ฅธ๋ฐ ์๋ชป ํ๊ธฐ๋์๋ค ์๊ฐํ๊ณ ์ ์๊ฐ๋๋ก ์ฐ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค. sampled cost c^์ ํฉ์ โlog(p(w))๋ฅผ ๊ณฑํด ํฉ์ ๊ตฌํ๋ ํ์์ผ๋ก ์ป์ด์ง๋๋ค.
๋์งธ term์, ๊ฐ cost์ ๋ํด log prob gradientํฉ์ด ๊ณฑํด์ง๋๋ค.
๋ gradient estimator ๋ชจ๋ ์ผ๋ฐ์ ์ธ ๋ชจ๋ cost์ ํฉ์ ๊ณฑํ๋ ๋ฐฉ์๋ณด๋ค variance๊ฐ ์ค์ด๋๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค. SL์ ์ ๊ทผ์ ์ฒซ๋ฒ์งธ ํํ์์, DiCE๋ ๋๋ฒ์งธ ํํ์์ ๊ธฐ๋ฐ์ผ๋ก ๋์์ต๋๋ค. Schulman์ ๋ ํํ์์ด ๊ฒฐ๊ณผ์ ์ผ๋ก ๊ฐ์ term์ ๊ฐ์ ธ์จ๋ค๊ณ ํ์ผ๋, ๋๋ฒ์งธ ํํ์์ด ๋์ ์ฐจ์๋ฅผ ๊ณ์ฐํ ๋ ํจ์ฌ ๋ง์ด ๋ณต์ก์ฑ์ด ๋ฎ์์ง๋๋ค. ๊ทธ ์ด์ ๋ gradient estimator๊ฐ Wcnโ=Wcn+1โ๋ฅผ ํ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ฒซ๋ฒ์งธ๋ ๊ณ์ sampling์ ํตํด Q^โ๋ฅผ ๊ตฌํด์ผ ํฉ๋๋ค. ๋ฐ๋ฉด์ SL์ ๋ฏธ๋ถ๋์ ๋, ๊ทธ์ ์์กด์ฑ์ด ์๋ stochastic nodes๊ฐ ๊ณ์ ๊ด๋ จ๋๋ฉด์ ๋ณต์ก์ฑ์ด ์ปค์ง๋๋ค. ๋ฐ๋ฉด์ DiCE๋ ๋ฐ๋ณตํด ๋ฏธ๋ถํด๋ ์๋ objective๋ฅผ ์ง์คํ๊ธฐ ๋๋ฌธ์ ์ข๋ ์ง๊ด์ ์ด๋ผ๊ณ ํฉ๋๋ค.
Last updated