8.4.2 Coin Game
๋ค์์ผ๋ก, ์ข๋ ๋์ ์ฐจ์์ ๊ฐ์ง๋ ๋ฌธ์ Coin Game์ ๋ํด ๋ถ์ํฉ๋๋ค.
๋ค์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด, ๋นจ๊ฐ์ ๊ณผ ํ๋์ agent๋ก ๊ตฌ์ฑ๋์์ผ๋ฉฐ, coin์ ๋ชจ์ผ๋ ๊ฒ์ด ๋ชฉ์ ์ด ๋ฉ๋๋ค. ์ด ์ฝ์ธ์ ๋นจ๊ฐ์ ํน์ ํ๋์ ๋ ๋ค ๋์ฌ ์ ์๋๋ฐ, ์ด๋ agent๊ฐ ํ๋๋ฅผ ๋ชจ์ผ๊ฒ ๋๋ฉด ๋๋คํ๊ฒ ์์ฑ๋ฉ๋๋ค. agent๋ ์ฝ์ธ์ ์์น๋ก ๊ฐ์ ์ฝ์ธ์ ์์งํ๋๋ฐ, ์ด๋ค ์์ ์ฝ์ธ์ด๋ 1์ ์ ์ป๊ฒ๋๊ณ , ๋ง์ฝ ์ฝ์ธ์ด ๋ค๋ฅธ ์์ด๋ฉด ๋ค๋ฅธ agent๋ 2์ ์ ์๊ฒ ๋ฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ชจ๋ agent๊ฐ ์ฝ์ธ์ ๋ง๊ตฌ ๋จน์ผ๋ ค ๋ ๋ค๋ฉด, ํ๊ท ์ผ๋ก 0์ ์ ์ป๊ฒ ๋ฉ๋๋ค. agent๋ค์ recurrent network๋ฅผ ํตํด ๊ตฌ์ฑ๋์๊ณ , ์ด๋ค agent๋ ์ ํํ future discounted reward๋ฅผ function ํํ๋ก ์ป์ ์ ์์ต๋๋ค. policy gradient-based learning์ NL๊ณผ LOLA๋๋ค์๊ฒ ์ ์ฉํ๊ณ , 8.3.4์ ๋์จ opponent modeling์ ์ ์ฉํ LOLA๋ฅผ ํจ๊ป ์คํ์์ ๋ณด์ ๋๋ค.
Last updated