9.4.1 Implement of DiCE
Last updated
Was this helpful?
Last updated
Was this helpful?
DiCE์ ์ฒ์๋ถํฐ ์ค์ฉ์ ์ธ ๋ ผ๋ฌธ์์ ๊ฐ์กฐํ๋๋ฐ, ์ด๋ ๋จ์ํ ๊ตฌํ๋ฐฉ๋ฒ์ ์์ต๋๋ค. MagicBox๋ ๋๊ฐ์ง ํน์ฑ์ ๋ง์กฑํ๋ฉด ๋์๋๋ฐ, ์ด๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํจ์ผ๋ก์จ ๋๊ฐ์ง ์ฑ์ง์ ๋ค ๊ฐ์ ธ๊ฐ ์ ์์ต๋๋ค. ์๋์ ์๋ฅผ ํ์ธํ๋๋ก ํฉ๋๋ค.
์ ์ด ๋๋๋ก ํ๋ gradient๋ฅผ ์ํ๋ฅด๋๋ก ํ๋ operator๋ก pytorch์ detach๊ฐ์ ์ญํ ์ ํฉ๋๋ค. ์ด๋ฏ๋ก, ์์ด ์๋ช ํฉ๋๋ค. ์ด๋ก์จ ์ฒซ๋ฒ์งธ ์ฑ์ง์ด ์ฆ๋ช ๋์์ต๋๋ค. ๋ฐ๋ก ๋๋ฒ์งธ ์ฑ์ง์ ์ฆ๋ช ํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ magicbox operator๋ฅผ ๊ตฌํํ๊ฒ๋๋ฉด, ์ฃผ๋ก objective์ ๋ฐ๋ก ์ฐ๊ด์ง์ด ๊ตฌํํ๋๊ฒ ๊ฐ์ฅ ๊ฐ๋จํ๋ฐ, ์ผ๋ฐ์ ์ธ RL์์ ๋ก ๋ํ๋ผ ๋, DiCE์ objective๋ ๋ก ๋ํ๋ด์ผํฉ๋๋ค. (์ด๋ ์ด์ ์ action์ ๋ฐ๋ผ reward์ stochasticํ๊ฒ ์ํฅ์ ์ฃผ๊ธฐ ๋๋ฌธ์ ๋๋ค.