9.4.2 Casuality
Last updated
Last updated
์ด์ ๊น์ง gradient estimator๋ ๋๊ฐ์ง ๋ฐฉ์์ผ๋ก ๋ํ๋์ก์ต๋๋ค.
์ฒซ์งธ term์ ๋ํ ์ค๋ช ์ด ์ข ๋ค๋ฅธ๋ฐ ์๋ชป ํ๊ธฐ๋์๋ค ์๊ฐํ๊ณ ์ ์๊ฐ๋๋ก ์ฐ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค. sampled cost ์ ํฉ์ ๋ฅผ ๊ณฑํด ํฉ์ ๊ตฌํ๋ ํ์์ผ๋ก ์ป์ด์ง๋๋ค.
๋์งธ term์, ๊ฐ cost์ ๋ํด log prob gradientํฉ์ด ๊ณฑํด์ง๋๋ค.
๋ gradient estimator ๋ชจ๋ ์ผ๋ฐ์ ์ธ ๋ชจ๋ cost์ ํฉ์ ๊ณฑํ๋ ๋ฐฉ์๋ณด๋ค variance๊ฐ ์ค์ด๋๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค. SL์ ์ ๊ทผ์ ์ฒซ๋ฒ์งธ ํํ์์, DiCE๋ ๋๋ฒ์งธ ํํ์์ ๊ธฐ๋ฐ์ผ๋ก ๋์์ต๋๋ค. Schulman์ ๋ ํํ์์ด ๊ฒฐ๊ณผ์ ์ผ๋ก ๊ฐ์ term์ ๊ฐ์ ธ์จ๋ค๊ณ ํ์ผ๋, ๋๋ฒ์งธ ํํ์์ด ๋์ ์ฐจ์๋ฅผ ๊ณ์ฐํ ๋ ํจ์ฌ ๋ง์ด ๋ณต์ก์ฑ์ด ๋ฎ์์ง๋๋ค. ๊ทธ ์ด์ ๋ gradient estimator๊ฐ ๋ฅผ ํ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ฒซ๋ฒ์งธ๋ ๊ณ์ sampling์ ํตํด ๋ฅผ ๊ตฌํด์ผ ํฉ๋๋ค. ๋ฐ๋ฉด์ SL์ ๋ฏธ๋ถ๋์ ๋, ๊ทธ์ ์์กด์ฑ์ด ์๋ stochastic nodes๊ฐ ๊ณ์ ๊ด๋ จ๋๋ฉด์ ๋ณต์ก์ฑ์ด ์ปค์ง๋๋ค. ๋ฐ๋ฉด์ DiCE๋ ๋ฐ๋ณตํด ๋ฏธ๋ถํด๋ ์๋ objective๋ฅผ ์ง์คํ๊ธฐ ๋๋ฌธ์ ์ข๋ ์ง๊ด์ ์ด๋ผ๊ณ ํฉ๋๋ค.