9.4.2 Casuality
Last updated
Was this helpful?
Last updated
Was this helpful?
์ด์ ๊น์ง gradient estimator๋ ๋๊ฐ์ง ๋ฐฉ์์ผ๋ก ๋ํ๋์ก์ต๋๋ค.
์ฒซ์งธ term์ ๋ํ ์ค๋ช ์ด ์ข ๋ค๋ฅธ๋ฐ ์๋ชป ํ๊ธฐ๋์๋ค ์๊ฐํ๊ณ ์ ์๊ฐ๋๋ก ์ฐ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค. sampled cost ์ ํฉ์ ๋ฅผ ๊ณฑํด ํฉ์ ๊ตฌํ๋ ํ์์ผ๋ก ์ป์ด์ง๋๋ค.
๋์งธ term์, ๊ฐ cost์ ๋ํด log prob gradientํฉ์ด ๊ณฑํด์ง๋๋ค.
๋ gradient estimator ๋ชจ๋ ์ผ๋ฐ์ ์ธ ๋ชจ๋ cost์ ํฉ์ ๊ณฑํ๋ ๋ฐฉ์๋ณด๋ค variance๊ฐ ์ค์ด๋๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค. SL์ ์ ๊ทผ์ ์ฒซ๋ฒ์งธ ํํ์์, DiCE๋ ๋๋ฒ์งธ ํํ์์ ๊ธฐ๋ฐ์ผ๋ก ๋์์ต๋๋ค. Schulman์ ๋ ํํ์์ด ๊ฒฐ๊ณผ์ ์ผ๋ก ๊ฐ์ term์ ๊ฐ์ ธ์จ๋ค๊ณ ํ์ผ๋, ๋๋ฒ์งธ ํํ์์ด ๋์ ์ฐจ์๋ฅผ ๊ณ์ฐํ ๋ ํจ์ฌ ๋ง์ด ๋ณต์ก์ฑ์ด ๋ฎ์์ง๋๋ค. ๊ทธ ์ด์ ๋ gradient estimator๊ฐ ๋ฅผ ํ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ฒซ๋ฒ์งธ๋ ๊ณ์ sampling์ ํตํด ๋ฅผ ๊ตฌํด์ผ ํฉ๋๋ค. ๋ฐ๋ฉด์ SL์ ๋ฏธ๋ถ๋์ ๋, ๊ทธ์ ์์กด์ฑ์ด ์๋ stochastic nodes๊ฐ ๊ณ์ ๊ด๋ จ๋๋ฉด์ ๋ณต์ก์ฑ์ด ์ปค์ง๋๋ค. ๋ฐ๋ฉด์ DiCE๋ ๋ฐ๋ณตํด ๋ฏธ๋ถํด๋ ์๋ objective๋ฅผ ์ง์คํ๊ธฐ ๋๋ฌธ์ ์ข๋ ์ง๊ด์ ์ด๋ผ๊ณ ํฉ๋๋ค.