8.2 Related Work
general-sum game์ ๋ํ ์ฐ๊ตฌ๋ ๊ฒ์์ด๋ก ๊ณผ ์งํ ์ฐ๊ตฌ์์ ๋ง์ด ์ด๋ฃจ์ด์ก์ต๋๋ค. ๋ง์ ๋ ผ๋ฌธ์์ IPD๋ฅผ ํด๊ฒฐํ๋๋ฐ, ํนํ Axelrod์ ์ฐ๊ตฌ์ ์ฃผ๋ชฉํด๋ณด๊ฒ ์ต๋๋ค. ์ด ์ฐ๊ตฌ๋ tit-for-tat์ ๋์คํ๋ฅผ ์ด๋์๋๋ฐ, ์ด๋ ํจ๊ณผ์ ์ด๋ฉด์๋ ๊ฐ๋จํ ์ ๋ต์ผ๋ก agent๊ฐ ์ฒ์์ ํ๋ ฅ์ ์ผ๋ก ํ๋ํ๊ณ , ์ดํ์๋ opponent์ ์ต๊ทผ ํ๋์ ๋ฐ๋ผํ๋ ์ ๋ต์ ๋๋ค.
๋ง์ MARL ์ฐ๊ตฌ๋ agent ์ค์ค๋ก ํ์ตํด ์๋ ดํ๊ณ , ์์ฐจ์ ์ธ general sum game์์ ํฉ๋ฆฌ์ฑ์ ์ป๋ ๊ฒ์ ๋ชฉํ๋ฅผ ํ๊ณ ์์ต๋๋ค. ๊ทธ๋ฐ ์ฐ๊ตฌ์๋ WoLF algorithm, joint-action-learner(JAL)๊ณผ AWESOME์ด ์์ต๋๋ค. LOLA์๋ ๋ค๋ฅด๊ฒ ์ด๋ฐ algorithms์ ์ฃผ์ด์ง ์ ์ฝ์กฐ๊ฑด๋ค์ ๋ํด ์๋ ดํ๋ ํ๋์ ์ ์ดํดํ๊ณ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฐ algorithm์ ์ ์ฒด์ ์ผ๋ก ๋ ๋์ reward์ ์๋ ดํ๊ธฐ ์ํด์ opponent์ ํ์ตํ๋ ํ๋์ ๋ํด ์์๋ด๋ ๋ฅ๋ ฅ์ด ์์ต๋๋ค. WoLF๋ agent๊ฐ ์ด๊ธฐ๊ณ ์ง๋ ๊ฒ์ learning rate๋ฅผ ๋ค๋ฅด๊ฒ ํ์ฌ ํ์ต์ ์งํํฉ๋๋ค. AWESOME์ iterated game์ ์ผ๋ถ๋ถ์ธ ํ๋ฒ์ ๋๋๋ game์ ๋ํด ๋ฐฐ์ฐ๊ธฐ ์ํ๋ ๊ฒ์ ๋ชฉํ๋ฅผ ๋ก๋๋ค. general-sum์ํฉ์์ JAL์ dynamics๋ฅผ ๋ถ์ํ๊ธฐ ์ํ ์ฐ๊ตฌ๋ค๋ก Uther์ zero-sum ์ํฉ์์์ ์ฐ๊ตฌ์ Claus์ cooperative ์ํฉ์์์ ์ฐ๊ตฌ๊ฐ ์์ต๋๋ค. Sandholm์ IPD์์ ๋ค์ํ exploration์ ๋ต์ ๊ฐ์ง๊ณ function approximator๋ฅผ ๊ฐ์ง IQL์ ๋ํด ์ฐ๊ตฌํ์์ต๋๋ค. Wunder์ Zinkevich๋ iterated game์์ dynamics์ ์๋ ด๊ณผ ํ์ต์ ํํ์ํ์ ๋ํด ์ฐ๊ตฌํ์ผ๋ LOLA์ ๋ค๋ฅด๊ฒ ํ์ตํ๋ ์ ๋ต์ ๋ํด ์ ์ํ์ง ์์์ต๋๋ค.
Littman์ ๊ฐ opponent๋ฅผ fully cooperative ํน์ fully adversarialํ๊ฒ ๊ฐ์ ํ๊ณ ํด๊ฒฐํ์๋๋ฐ, LOLA๋ ์ด๋ฅผ ๋จ์ง general-sum game์๋ง์ ๊ณ ๋ คํด์ ํด๊ฒฐํ ์ ์์ต๋๋ค.
Chakraborty๋ policy๋ฅผ ์ฌ๋ฌ๊ฐ ๋๊ณ ์ต์ ์ ๋ฐ์์ ๋ํด ๋ฐฐ์ฐ๋๋ฐ LOLA๋ ํ๋์ policy๋ก ํด๊ฒฐํ์์ต๋๋ค.
Brafman์ ์ฐ๊ตฌ์์ efficient learning equilibrium(ELE)๋ผ๋ ๊ฐ๋ ์ ์๊ฐํ๋๋ฐ, ์ด algorithm์์๋ ๋ชจ๋ ๋ด์ฌ๊ท ํ์ด ๊ณ์ฐ๋์ด์ผํฉ๋๋ค. LOLA์์๋ ๊ทธ๋ฐ ๊ฐ์ ์ด ํ์ํ์ง ์์ต๋๋ค.
DMARL์์ ์ฃผ๋ก fully cooperative๋ zero-sum ํ๊ฒฝ๊ณผ(์ด๋ค์ reward๋ ์ธก์ ํ๊ธฐ ์ฌ์ดํธ) communication์ด ํ์ํ ์ํฉ์ ๋ํด ๋ง์ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ก์ต๋๋ค. ํ์ง๋ง Leibo์ ์ฐ๊ตฌ๋ partially observable, general sum ์ํฉ์์ naive learning์ ๋ํด ์ฐ๊ตฌํ์๊ณ , Lowe๋ general sum ์ํฉ์ ๋ํ centralized actor-critic architecture๋ฅผ ์ ์ํ์์ต๋๋ค. ์ด ๋ ์ฐ๊ตฌ์์๋ ๋ค๋ฅธ agent์ ํ์ต ํ๋์ ๋ํ ์ถ๋ก ์ ํ ๋ฐฉ๋ฒ์ ์ ์ํ์ง ๋ชปํ์ต๋๋ค. Lanctot์ NFSP๊ฐ์ game-theoretic best-response-style algorithm์ ์์ด๋์ด๋ฅผ ์ผ๋ฐํํ์์ต๋๋ค. ์ด๋ ์ฃผ์ด์ง opponent์ policies์ ๋ํ set์ด ํ์ํ์ง๋ง LOLA๋ opponent์ ํ์ต์ ๋ํด ์ด๋ค ๊ฐ์ ๋ ํ์ํ์ง ์์ต๋๋ค.
Lerer์ ์ฐ๊ตฌ๊ฐ ๊ฐ์ฅ LOLA๊ณผ ๋น์ทํ๋ฐ, ์ด๋ tit-for-tat์ DMARL๋ฅผ ํตํด ์ผ๋ฐํํ์์ต๋๋ค. ์ด ์ ์๋ agent ๋ชจ๋ fully cooperative์ defecting ํ๋ policy๋ฅผ ๋ฐฐ์ฐ๋ฉฐ, ์ด๋ฅผ ๋ฐ๊ฟ๊ฐ๋ฉฐ ํ์ตํด tit-for-tat ์ ๋ต์ ์๋ฆฝํ๋๋ก ํฉ๋๋ค. ์ด ์ฐ๊ตฌ์ ๋น์ทํ๊ฒ Munoz๋ repeated stochastic game์์ competitive์ cooperative๋ฅผ ๋ฐ๊ฟ๊ฐ๋ฉฐ egalitarian equilibrium์ ์ฐพ๋ ๋ด์ฌ ๊ท ํ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ์ต๋๋ค. ๋น์ทํ ์์ด๋์ด๋ก M-Qubed์์๋ ์ต์ ์ ๋ฐ์, ์ ์คํ ๋ฐ์, ๊ทธ๋ฆฌ๊ณ optimistic learning biases์ ๊ท ํ์ ๋ง์ถฅ๋๋ค. ์ด๋ฐ algorithm๋ค์ ์ํธ ์์ฉ์ด๋ ํ๋ ฅ์ด algorithm๋ด์์ ๋ฐ์ํ์ง ์๊ณ , heuristicํ๊ฒ ๋ฐ์๋๋๋ฐ, ์ด๋ ์ด๋ฐ algorithm๋ค์ ์ผ๋ฐํ์ ํฐ ์ ์ฝ์ ์ค๋๋ค.
opponent modeling์ ์ฐ๊ด๋ ์ฐ๊ตฌ๋ fictitious play์ action-sequence prediction์ด ์์ต๋๋ค. Meanling์ memory๋ฅผ ์ด์ฉํด opponent์ future action์ ์์ธกํด policy๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์์ต๋๋ค. ๊ฒ๋ค๊ฐ Hernandez-Leal์ ์๋์ ์ง์ ์ ์ผ๋ก ์๋์ distribution์ ๋ํด modeling์ ํฉ๋๋ค. ์ด๋ฐ ๋ฐฉ๋ฒ๋ค์ด opponent์ ๋ํ ์ ๋ต์ modelingํ๊ณ ์ต์ ์ ๋ฐ์์ ๋ํ policy๋ฅผ ์ฐพ๋๋ฐ ์ง์คํ ๋ฐ๋ฉด, opponent์ ํ์ต์ ๋ํ dynamic์ ๋ฐฐ์ฐ๋๋ฐ ๊น์ง๋ ํด๊ฒฐํ์ง ๋ชปํ์ต๋๋ค.
๋ฐ๋ฉด์ Zhang์ ์ฐ๊ตฌ์์๋ one-step learning dynamics์ ๋ํ policy prediction์ ์ฌ์ฉํ๋๋ฐ, ์ด๋ opponent์ policy update๊ฐ ์ฃผ์ด์ง๋ค๊ณ ๊ฐ์ ํ๊ณ , ๊ทธ์ ๋ง๋ ์ต์ ์ ์ ํ์ ๋ฐฐ์๋๋ค. LOLA๋ ์ด์ ๋ค๋ฅด๊ฒ ์ง์ ์ ์ผ๋ก opponent์ policy์ ํ์ต์ ๋๋ฌ๋ด๊ณ , ์์ ์ reward๋ฅผ ์ต์ ํํ ๋ ์ฌ์ฉํฉ๋๋ค. LOLA์์ ์ ์ผํ๊ฒ ์ฌ์ฉ๋ opponent์ learning step์ ๋ฏธ๋ถํ๋ ๊ฒ์ ์ด๋ฌํ ์ํธ ํ๋ ฅ ํน์ tit-for-tat์ ๋ฑ์ฅ์ ์ค์ํ ์ญํ ์ ํฉ๋๋ค. ์ด๋ DMARL์์ ์ต์ด๋ก ์๋ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
LOLA๋ ์๋๋ฐฉ์ policy update๋ฅผ ๋ฏธ๋ถํ์ฌ ์ฌ์ฉํฉ๋๋ค. ์ด๋ Metz๊ฐ ์ ์ํ ์์ด๋์ด์ ๋น์ทํ๊ธดํ๋ฐ, ์ด๋ GAN์ ํ์ต์ํจ ๋ฐฉ๋ฒ์ผ๋ก, ์ ์ฒด์ ์ธ ํจ๊ณผ๋ ๋น์ทํฉ๋๋ค. opponent์ ํ์ต ํ๋ก์ธ์ค๋ฅผ ๋ฏธ๋ถํ๋ ๊ฒ์ ์ ์ฒด์ ์ธ zero-sum game์ ํ์ต์ ์์ ํํฉ๋๋ค.
Last updated