8.4.2 Coin Game
Last updated
Was this helpful?
Last updated
Was this helpful?
๋ค์์ผ๋ก, ์ข๋ ๋์ ์ฐจ์์ ๊ฐ์ง๋ ๋ฌธ์ Coin Game์ ๋ํด ๋ถ์ํฉ๋๋ค.
๋ค์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด, ๋นจ๊ฐ์ ๊ณผ ํ๋์ agent๋ก ๊ตฌ์ฑ๋์์ผ๋ฉฐ, coin์ ๋ชจ์ผ๋ ๊ฒ์ด ๋ชฉ์ ์ด ๋ฉ๋๋ค. ์ด ์ฝ์ธ์ ๋นจ๊ฐ์ ํน์ ํ๋์ ๋ ๋ค ๋์ฌ ์ ์๋๋ฐ, ์ด๋ agent๊ฐ ํ๋๋ฅผ ๋ชจ์ผ๊ฒ ๋๋ฉด ๋๋คํ๊ฒ ์์ฑ๋ฉ๋๋ค. agent๋ ์ฝ์ธ์ ์์น๋ก ๊ฐ์ ์ฝ์ธ์ ์์งํ๋๋ฐ, ์ด๋ค ์์ ์ฝ์ธ์ด๋ 1์ ์ ์ป๊ฒ๋๊ณ , ๋ง์ฝ ์ฝ์ธ์ด ๋ค๋ฅธ ์์ด๋ฉด ๋ค๋ฅธ agent๋ 2์ ์ ์๊ฒ ๋ฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ชจ๋ agent๊ฐ ์ฝ์ธ์ ๋ง๊ตฌ ๋จน์ผ๋ ค ๋ ๋ค๋ฉด, ํ๊ท ์ผ๋ก 0์ ์ ์ป๊ฒ ๋ฉ๋๋ค. agent๋ค์ recurrent network๋ฅผ ํตํด ๊ตฌ์ฑ๋์๊ณ , ์ด๋ค agent๋ ์ ํํ future discounted reward๋ฅผ function ํํ๋ก ์ป์ ์ ์์ต๋๋ค. policy gradient-based learning์ NL๊ณผ LOLA๋๋ค์๊ฒ ์ ์ฉํ๊ณ , 8.3.4์ ๋์จ opponent modeling์ ์ ์ฉํ LOLA๋ฅผ ํจ๊ป ์คํ์์ ๋ณด์ ๋๋ค.