8.3 Methods
์ด๋ฒ Section์์๋ naive learner๋ก ์์ํด์ LOLA๊น์ง ์์๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค. agent๊ฐ Expected discounted reward sum์ ์ ํํ hessian์ ์ป์ ์ ์๋ ์ํฉ์ ๋ํด 8.3.2์์ ์ ์ํ๊ณ , ๊ทธ๋ ์ง ๋ชปํ ๋์ ๋ํด 8.3.3์์ ์ ์ํฉ๋๋ค. 8.3.4์์ opponent์ modeling์ ๋ํด ๋ชจ๋ฅผ ๋๋ฅผ ๊ฐ์ ํ ์ํฉ์ ๋ํด ์ ์ํ๊ณ , 8.3.5์์๋ ์๋์ Expected discounted reward sum์ 1์ฐจ ๊ทผ์ฌ๊ฐ ์๋ ๋ ์ ํํ๊ฒ ๊ทผ์ฌํ์ ๋์ ๋ํด ์๊ธฐํฉ๋๋ค.
Last updated