8.4.2 Coin Game

๋‹ค์Œ์œผ๋กœ, ์ข€๋” ๋†’์€ ์ฐจ์›์„ ๊ฐ€์ง€๋Š” ๋ฌธ์ œ Coin Game์— ๋Œ€ํ•ด ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.

๋‹ค์Œ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด, ๋นจ๊ฐ„์ƒ‰ ๊ณผ ํŒŒ๋ž€์ƒ‰ agent๋กœ ๊ตฌ์„ฑ๋˜์—ˆ์œผ๋ฉฐ, coin์„ ๋ชจ์œผ๋Š” ๊ฒƒ์ด ๋ชฉ์ ์ด ๋ฉ๋‹ˆ๋‹ค. ์ด ์ฝ”์ธ์€ ๋นจ๊ฐ„์ƒ‰ ํ˜น์€ ํŒŒ๋ž€์ƒ‰ ๋‘˜ ๋‹ค ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด๋Š” agent๊ฐ€ ํ•˜๋‚˜๋ฅผ ๋ชจ์œผ๊ฒŒ ๋˜๋ฉด ๋žœ๋คํ•˜๊ฒŒ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค. agent๋Š” ์ฝ”์ธ์˜ ์œ„์น˜๋กœ ๊ฐ€์„œ ์ฝ”์ธ์„ ์ˆ˜์ง‘ํ•˜๋Š”๋ฐ, ์–ด๋–ค ์ƒ‰์˜ ์ฝ”์ธ์ด๋“  1์ ์„ ์–ป๊ฒŒ๋˜๊ณ , ๋งŒ์•ฝ ์ฝ”์ธ์ด ๋‹ค๋ฅธ ์ƒ‰์ด๋ฉด ๋‹ค๋ฅธ agent๋Š” 2์ ์„ ์žƒ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋ชจ๋“  agent๊ฐ€ ์ฝ”์ธ์„ ๋งˆ๊ตฌ ๋จน์œผ๋ ค ๋“ ๋‹ค๋ฉด, ํ‰๊ท ์œผ๋กœ 0์ ์„ ์–ป๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. agent๋“ค์€ recurrent network๋ฅผ ํ†ตํ•ด ๊ตฌ์„ฑ๋˜์—ˆ๊ณ , ์–ด๋–ค agent๋„ ์ •ํ™•ํ•œ future discounted reward๋ฅผ function ํ˜•ํƒœ๋กœ ์–ป์„ ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. policy gradient-based learning์„ NL๊ณผ LOLA๋‘˜๋‹ค์—๊ฒŒ ์ ์šฉํ–ˆ๊ณ , 8.3.4์— ๋‚˜์˜จ opponent modeling์„ ์ ์šฉํ•œ LOLA๋ฅผ ํ•จ๊ป˜ ์‹คํ—˜์—์„œ ๋ณด์ž…๋‹ˆ๋‹ค.

Last updated