8.1 Introduction
์ด์ ์ฅ์์๋ ์ค๋ก์ง fully cooperative multi-agent RL์ ๋ํด์ ๋ฐฐ์ ์ต๋๋ค. ํ์ง๋ง ๋น์ฐํ๊ฒ๋ Multi-Agent์์์ ๋ฌธ์ ๋ ํญ์ cooperativeํ์ง ์๋ ๊ฒ์ ์ ์ ์์ต๋๋ค. Hierarchical Reinforcement Learning์ด๋, Generative Adversarial Network์ Decentralized Optimization๊ฐ์ ๋ถ์ผ๋ค๋ Multi-agent Problem์ผ๋ก ๋ณผ ์ ์๋๋ฐ, ์ด๋ฌํ ๋ชจ๋ ์ค์ ์์ ํนํ Trainable Object๊ฐ์ ๋ค๋ฅธ objective๋ฅผ ๋ฐฐ์ธ ๋, ๋ฌธ์ ๊ฐ non-stationaryํด์ง๊ณ , ๋ถ์์ ํด์ง๊ฑฐ๋, ๋ฐ๋ผ์ง ์์๋ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ฒ ๋ฉ๋๋ค.
๋ค์ํ๊ณ ๋ณต์กํ ์ํฉ์์๋ ํ๋ ฅ์ ์ ์งํ๋ ๋ฅ๋ ฅ์ ์ธ๊ฐ ์ฌํ์ ์ฑ๊ณต์ ํฐ ๊ธฐ์ฌ๋ฅผ ํ์ต๋๋ค. ์ ์ ์์์๋ ์ด๋ฌํ ๋ฅ๋ ฅ์ ๊ด์ฐฐ๋๊ณค ํ์ต๋๋ค. ๋ฏธ๋์ AI agent๊ฐ ์ธ๊ฐ์ฌํ์์ ๋ถ๋ถ์ ์ผ๋ก ํ๋ ฅํด์ผํ๋ ์ํฉ์์ ์ ๊ทน์ ์ผ๋ก ํ์ฉ์ด ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋๋ฐ, ์ด ๋ agent์ ํ์ต ์คํจ๋ ํฐ ์ฌ์์ด ๋ ๊ฒ์ ๋๋ค.
๊ฐ์์ reward๋ฅผ ์ต๋ํ ํ๋ ค๋ agent๋ค ๋ผ๋ฆฌ์ ์ํธ ํ๋ ฅ์ ์ด๋ป๊ฒ ์ผ์ด๋๋ ๊ฒ์ธ์ง์ ๋ํด ๋ํด์๋ ๋ง์ ๊ถ๊ธ์ฆ์ด ์์์ต๋๋ค. ํนํ ๊ฒ์ ์ด๋ก ์์ ํ๋์ ์ด๊ณ ๊ฒฝ์์ ์ธ ์์๋ฅผ ํฌํจํ๋ ๊ฒ์์ ํ์ต ๊ฒฐ๊ณผ๋ฅผ ์ฐ๊ตฌํ ์ค๋ ์ญ์ฌ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ๋ํ์ ์ผ๋ก ํ๋ ฅ๊ณผ ๋ณ์ ์ ๋ํด iterated prisoner's dilemma ๋ฌธ์ ์ ์๊ฐ ์์ต๋. ์ด ๊ฒ์์์์ ์ด๊ธฐ์ฃผ์๋ ๋ชจ๋ agents์ ์ ์ฒด์ ์ธ reward์ ๊ฐ์๋ก ์ด๋ฃจ์ด์ง๋๋ค. ํ์ง๋ง, ํ๋ ฅ์ ์ ์ฒด์ reward๋ฅผ ์ข๊ฒ ๋ง๋ญ๋๋ค.
ํฅ๋ฏธ๋กญ๊ฒ๋, ์ด๋ฌํ ๊ฐ๋จํ ์ฃ์์ ๋๋ ๋ง ๋ฌธ์ ์์๋, ๋ง์ MARL algorithm๋ ๋ชจ๋ ์ต์ ์ ์ํฉ์ ๋ง์ฃผํ๋๋ก ํ์ต์ํฌ ์ ์๋๋ฐ, ์ด๋ ํ์ฌ SOTA ๋ํ ์ด๋ฌํ ๊ฐ๋จํ ํ๋ ฅ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ง ๋ชปํ ์ ์๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ด๋ ๋ค๋ฅธ agent๋ค์ ๋จ์ง ํ๊ฒฝ์ ์ผ๋ถ๋ถ์ด๋ผ๊ณ ์๊ฐํ๋ ๊ฒ์ด ๋ฌธ์ ๊ฐ ๋ฉ๋๋ค.
๋ค๋ฅธ agents์ ํ์ตํ๋ ํ๋์ ๋ํ ์๋ฏธ๋ฅผ ์ถ๋ก ํ๋ ๋จ๊ณ๋ก์จ, ์ฌ๊ธฐ์๋ Learning with Opponent-Learning Awareness(LOLA)๋ฅผ ์ ์ํฉ๋๋ค. LOLA๋ ๋ค๋ฅธ agent์ parameter update๊ฐ ๋ค๋ฅธ agent์ ํ์ต์ ์ด๋ค ์ํฅ์ ๋ผ์น๋์ง ์ค๋ช ํ ์ ์๋ ์ถ๊ฐ์ ์ธ term์ ๊ฐ์ง ํ์ต ๋ฃฐ์ ํฌํจํฉ๋๋ค. (๋ฐ๋ณต๋ ์ค๋ช ์ ๋ง๊ธฐ์ํด zero-sum ์ํฉ์ ํ์ ๋์ง ์๋๋ผ๋ ์๋๋ฐฉ๋ค์ ๋ชจ๋ opponents๋ผ๊ณ ํํํ๊ฒ ์ต๋๋ค.) ์ฌ๊ธฐ์๋ iterated prisoner's dilemma(IPD)์ํฉ์์ ๋ชจ๋ agent์๊ฒ ์ ์ฉ๋๋ ์ถ๊ฐ์ ์ธ term์ ์ด์ฉํด ์ํธ์์ฉํ๊ณ ํ๋ ฅํ ์ ์๋๋ก ํจ์ ๋ณด์์ต๋๋ค. ๋, IPD์์ ์คํ์ ์ผ๋ก ๋ณด์์ ๋, ๊ฐ agent๋ LOLA๊ฐ ์ถ๊ฐ์ ์ธ ๋ณด์์ด ์์ด๋, naive learning์์ LOLA๋ก ๋ฐ๊พธ๋ ๊ฒ์ด ์ฅ๋ ค๋๋ค๋ ๊ฒ์ ๋ณด์ ๋๋ค. ์ด๋ ์ง์ญ์ ์ผ๋ก LOLA๋ฅผ ์ฌ์ฉํ๋ ๋ชจ๋ agent๋ ์์ ๋ ํํ ์ํ์ ์ด๋ฃฐ ์ ์์์ ๋ณด์ ๋๋ค. ๋ํ LOLA agent๊ฐ round-robin tournament์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒ๋ ๋ณผ ์ ์์ต๋๋ค.
LOLA๋ฅผ likelihood ratio policy gradients๋ฅผ ์ฌ์ฉํ DMARL ์ค์ ์ ์ ์ฉํ๋๋ฐ, ์ด๋ LOLA๊ฐ high-dimensional input๊ณผ parameter space์์๋ ์ ์ ์ฉ๋ ์ ์์์ ๋ณด์ ๋๋ค.
IPD์ iterated matching pennies(IMP)์์ LOLA์ policy gradient version์ ๋ณด์๋๋ฐ, ์ผ๋ฐ์ ์ธ RL ์ ๊ทผ๋ค ์คํจํ์ง๋ง LOLA๋ ์ ๋ฐ์ ์ผ๋ก ์ข์ ์ฑ๋ฅ์ ๋ผ ์ ์๊ฒ agent๋ผ๋ฆฌ ํ๋ ฅํ๋๋ก ์ด๋์์ต๋๋ค. ๋ํ LOLA๋ฅผ opponent policy๊ฐ ์ด๋ค ๊ฒ์ธ์ง ๋ชจ๋ฅผ ๋, ์ถ๋ก ํด์ผํ ๋๋ก๋ ํ์ฅํ์์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก, grid-world task์ opponent modeling์ด ์๊ณ ์๊ณ ์ ๋ฐ๋ฅธ LOLA๋ฅผ ์ ์ฉํ ์คํ์ ์งํํ์์ต๋๋ค. ์ด task๋ action space๊ฐ ํ์ฅ๋ task์ด๊ณ , high-dimensional recurrent policies๋ฅผ ํ์๋ก ํ์ต๋๋ค. ์ด ์คํ์์๋, LOLA๋ ์๋์ policy๋ฅผ ๋ชจ๋ฅด๊ฑฐ๋ ์ธก์ ํด์ผํ ๋๋ ์ ํ๋ ฅํ์ต๋๋ค.
Last updated