8.3.5 Higher-Order LOLA
LOLA์ objective์์ opponent์ ๋ฏธ์๋ณํ๋์ ๋ฐ๋ฅธ expected discounted return ์ 1์ฐจ ํ ์ผ๋ฌ ๊ทผ์ฌ๋ฅผ ํตํด ์ด๋ฃจ์ด์ก์ต๋๋ค. ํ์ง๋ง ๋ ๋์ ์ฐจ์์ ๊ทผ์ฌ๋ ๊ฐ๋ฅํฉ๋๋ค. ์ด๋ ๋ง์ ๊ณ์ฐ๋๊ณผ ๋์ variance๋ฅผ ๊ฐ์ง๊ฒ ์ง๋ง ์ข ๋ ์ ํํ ๊ทผ์ฌ๊ฐ์ ์ป์ ์ ์์ต๋๋ค.
Last updated