9.4.2 Casuality
์ด์ ๊น์ง gradient estimator๋ ๋๊ฐ์ง ๋ฐฉ์์ผ๋ก ๋ํ๋์ก์ต๋๋ค.
์ฒซ์งธ term์ ๋ํ ์ค๋ช ์ด ์ข ๋ค๋ฅธ๋ฐ ์๋ชป ํ๊ธฐ๋์๋ค ์๊ฐํ๊ณ ์ ์๊ฐ๋๋ก ์ฐ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค. sampled cost ์ ํฉ์ ๋ฅผ ๊ณฑํด ํฉ์ ๊ตฌํ๋ ํ์์ผ๋ก ์ป์ด์ง๋๋ค.
๋์งธ term์, ๊ฐ cost์ ๋ํด log prob gradientํฉ์ด ๊ณฑํด์ง๋๋ค.
๋ gradient estimator ๋ชจ๋ ์ผ๋ฐ์ ์ธ ๋ชจ๋ cost์ ํฉ์ ๊ณฑํ๋ ๋ฐฉ์๋ณด๋ค variance๊ฐ ์ค์ด๋๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค. SL์ ์ ๊ทผ์ ์ฒซ๋ฒ์งธ ํํ์์, DiCE๋ ๋๋ฒ์งธ ํํ์์ ๊ธฐ๋ฐ์ผ๋ก ๋์์ต๋๋ค. Schulman์ ๋ ํํ์์ด ๊ฒฐ๊ณผ์ ์ผ๋ก ๊ฐ์ term์ ๊ฐ์ ธ์จ๋ค๊ณ ํ์ผ๋, ๋๋ฒ์งธ ํํ์์ด ๋์ ์ฐจ์๋ฅผ ๊ณ์ฐํ ๋ ํจ์ฌ ๋ง์ด ๋ณต์ก์ฑ์ด ๋ฎ์์ง๋๋ค. ๊ทธ ์ด์ ๋ gradient estimator๊ฐ ๋ฅผ ํ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ฒซ๋ฒ์งธ๋ ๊ณ์ sampling์ ํตํด ๋ฅผ ๊ตฌํด์ผ ํฉ๋๋ค. ๋ฐ๋ฉด์ SL์ ๋ฏธ๋ถ๋์ ๋, ๊ทธ์ ์์กด์ฑ์ด ์๋ stochastic nodes๊ฐ ๊ณ์ ๊ด๋ จ๋๋ฉด์ ๋ณต์ก์ฑ์ด ์ปค์ง๋๋ค. ๋ฐ๋ฉด์ DiCE๋ ๋ฐ๋ณตํด ๋ฏธ๋ถํด๋ ์๋ objective๋ฅผ ์ง์คํ๊ธฐ ๋๋ฌธ์ ์ข๋ ์ง๊ด์ ์ด๋ผ๊ณ ํฉ๋๋ค.
Last updated