8.6 Conclusion & Future Work
์ด๋ฒ section์์๋ Opponent-Learning Awareness(LOLA)์ ๋ํด ์์ ๋ณด์์ต๋๋ค. ์ด๋ MARL์ํฉ์์ ๋ค๋ฅธ agent์ ํ์ต์ ๊ณ ๋ คํด ์์ ์ ํ์ต์ ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ฌ๊ธฐ์๋ value function์ ๋ํด ์ ๊ทผํ ์ ์์ ๋ IPD์์ NL์ defact ์ ๋ต์ ์๋ ดํ๋ ๊ฒฝํฅ์ ๋ณด์์ง๋ง LOLA๋ tit-for-tat ์ ๋ต์ด ์ฐ์๋ฅผ ์ ํ๋ ๊ฒ์ ๋ณด์์ต๋๋ค. ๋ํ, LOLA๊ฐ IMP์์๋ ๋ด์ฌ ๊ท ํ์ ์ด๋ฃจ๋ ๊ฒ์ ๋ณด์์ต๋๋ค. ๋ค๋ฅธ multi-agent learning algorithm๊ณผ๋ IPD์ IMP์์ ์คํ์ ์ผ๋ก ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๋ ๊ฒ์ ํ์ธํ์ต๋๋ค.
value function์ ์ง์ ์ ๊ทผํ์ง ๋ชปํ ๋์ ๋ํด gradient-based version LOLA๋ฅผ ์๊ฐํ๊ณ , Coin Game์์ ์ด์ ํ์ต์ ๋ณด์ ๋๋ค. ์ด ๋, recurrent layer๊ฐ ํ์ํจ์ ๋ณด์๊ณ , LOLA๋ coordinationํ๋ ๊ฒฝํฅ์ ๋๋ ๊ฒ์ ๋ณด์์ต๋๋ค. ์ด๋, opponent์ parameter ์ ๋ณด๊ฐ ์์ด๋ ์ด๋ฅผ ์ด๋์ ๋ ํด๊ฒฐํ ๋ฐฉ๋ฒ์ ๋ํด ์ค๋ช ํ๊ณ , LOLA์ high-order approximation์ ๋ํด ๋ณด์์ต๋๋ค. ์ด๋ IPD์์ agent ๋ชจ๋ LOLA๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์ข์ ์ฑ๋ฅ์ ๋ณด์๊ณ high order approximation๋ก ์ป๋ ์ถ๊ฐ์ ์ธ ์๋์ ์์์ต๋๋ค.
์ ์๋ ์ดํ future work๋ก ์ ๋์ ์ธ agent๊ฐ gradient-based method๊ฐ ์๋, global search method๋ฅผ ํตํด LOLA๋ฅผ ์ด์ฉํ๋ ค ๋ค ๋์ ์ด๋ป๊ฒ LOLA์ ์ทจ์ฝ์ ์ ํด๊ฒฐํ ์ ์์์ง์ ๋ํด ํด๊ฒฐํ๋ ๊ฒ์ ์ฐ๊ตฌํ๊ฒ ๋ค๊ณ ํฉ๋๋ค. LOLA๊ฐ naive learner๋ฅผ ์ด์ฉํ๋ ๋ฐฉ๋ฒ์ธ ๋งํผ LOLA learner๋ฅผ ์ด์ฉํ ์๋จ์ด ์์ ๊ฒ์ด ํ๋น์ฑ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
Last updated