7.4.1 Matrix Game
Last updated
Last updated
์ ํํ matrix game์ ๋ํ ์ค๋ช
ํ์
์ฌ๊ธฐ์ ์ฒซ์งธ๋ก, 2์ธ์ฉ 2-step์ ๋๋๋ partially observable matrix-like game์ ์คํ์ ์งํํ์์ต๋๋ค. ์ด ์คํ์์ ๊ฐ agent์ state๋ random bit๋ก ์ด๋ฃจ์ด์ ธ์๊ณ , action space๋ 3๊ฐ์ discrete action์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ ์ํฉ์ ๋๋ค. ๊ฐ agent๊ฐ ์์ ์ ์นด๋๋ฅผ ๊ด์ฐฐํ๊ณ , (2-step game์ด๋ฏ๋ก, agent 1๋ง) ์์ ์ ํจ์ ๋ํ ์ ๋ณด๋ฅผ encodingํ์ฌ ํ๋์ ์ฎ๊ฒจ์ผํ๋ ์ํฉ์ ๋๋ค. reward๋ ๋ agent๊ฐ ์ข์ convention์ ์ป์์ ๋๋ง ์ต๋ํ ๋ ์ ์๋๋ฐ ์ด๋ 2-step์ด๋ฏ๋ก, agent 1์ด ์ ๋ณด๋ฅผ ์ ์ ๋ฌํ ์ ์๋ ํ๋์ ํด agent 2๊ฐ ์ ์์๋ฃ๊ณ ํ๋ํ์ ๋๋ฅผ ์๋ฏธํฉ๋๋ค. ์ฑ๋ฅ์ ๋ํด ์๋์ ๊ทธ๋ํ๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
์ด ์คํ์์ BAD๋ baseline์ธ Vanila PG๋ณด๋ค ์๋์ ์ผ๋ก ์ข์ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. ๋ํ CF policy gradient๋ ๋ฅผ ๋จ์ํ ์ ํ๋ action์ ๊ณ ๋ คํ ๋ฟ๋ง ์๋๋ผ, ์คํ๋์ง์์ action์ ๋ํด์๋ ๊ณ ๋ ค๋ฅผ ํ๋ ๊ฒ์ด ๊ฐ๋ฅํฉ๋๋ค.๊ทธ๋ฌ๋ ์ด๋ ์ฌ๊ธฐ์ ์์ฃผ ์ ์ ์ฐจ์ด๋ฅผ ๋ณด์ ๋๋ค.