8.4.2 Coin Game
Last updated
Last updated
๋ค์์ผ๋ก, ์ข๋ ๋์ ์ฐจ์์ ๊ฐ์ง๋ ๋ฌธ์ Coin Game์ ๋ํด ๋ถ์ํฉ๋๋ค.
๋ค์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด, ๋นจ๊ฐ์ ๊ณผ ํ๋์ agent๋ก ๊ตฌ์ฑ๋์์ผ๋ฉฐ, coin์ ๋ชจ์ผ๋ ๊ฒ์ด ๋ชฉ์ ์ด ๋ฉ๋๋ค. ์ด ์ฝ์ธ์ ๋นจ๊ฐ์ ํน์ ํ๋์ ๋ ๋ค ๋์ฌ ์ ์๋๋ฐ, ์ด๋ agent๊ฐ ํ๋๋ฅผ ๋ชจ์ผ๊ฒ ๋๋ฉด ๋๋คํ๊ฒ ์์ฑ๋ฉ๋๋ค. agent๋ ์ฝ์ธ์ ์์น๋ก ๊ฐ์ ์ฝ์ธ์ ์์งํ๋๋ฐ, ์ด๋ค ์์ ์ฝ์ธ์ด๋ 1์ ์ ์ป๊ฒ๋๊ณ , ๋ง์ฝ ์ฝ์ธ์ด ๋ค๋ฅธ ์์ด๋ฉด ๋ค๋ฅธ agent๋ 2์ ์ ์๊ฒ ๋ฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ชจ๋ agent๊ฐ ์ฝ์ธ์ ๋ง๊ตฌ ๋จน์ผ๋ ค ๋ ๋ค๋ฉด, ํ๊ท ์ผ๋ก 0์ ์ ์ป๊ฒ ๋ฉ๋๋ค. agent๋ค์ recurrent network๋ฅผ ํตํด ๊ตฌ์ฑ๋์๊ณ , ์ด๋ค agent๋ ์ ํํ future discounted reward๋ฅผ function ํํ๋ก ์ป์ ์ ์์ต๋๋ค. policy gradient-based learning์ NL๊ณผ LOLA๋๋ค์๊ฒ ์ ์ฉํ๊ณ , 8.3.4์ ๋์จ opponent modeling์ ์ ์ฉํ LOLA๋ฅผ ํจ๊ป ์คํ์์ ๋ณด์ ๋๋ค.