Abstract
๋๋ก ์ปจํธ๋กค, ํ๋ฌผ ์ด์ก๊ณผ ๊ฐ์ ์ธ์์ ๋ง์ ๋ฌธ์ ๋ค์, ๋ถ๋ถ ๊ด์ธก ๊ฐ๋ฅํ(POMDP : Particially Observable Markov Decision Process) ์ํฉ์์์ Multi-Agent ํ๊ฒฝ์ ๋์ฌ์์ต๋๋ค. ๋์ฑ์ด, ๋ ๋ง์ ๋จธ์ ๋ฌ๋ ์์คํ ์ด ์ค์ ์ํฉ์ ์ ์ฉ๋จ์๋ฐ๋ผ, agent๋ ์๋ก์๊ฒ ์ํฅ์ ๋ฏธ์น๊ธฐ ์์ํ๊ณ ์ด๋ฅผ multi agent๋ก ๋ฌธ์ ๋ฅผ ์ ์ํ๋ ๊ฒ์ ๋ํ ์ค์์ฑ์ด ์ปค์ ธ๋ง ๊ฐ๊ณ ์์ต๋๋ค. ์ด ๋ฒ์ญ๋ณธ์์๋ ์๋์ ์ค๋ช ํ๋ ์ํฉ๋ค์ ๋ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ Deep Multi-Agent Reinforcement Learning(DMARL)์ method๋ค์ ์ฃผ๋ก ๋ฐฐ์ฐ๊ฒ ๋ ๊ฒ์ ๋๋ค.
์ฌ๊ธฐ์ ์ฃผ๋ก ๋ค๋ฃฐ ๋ฌธ์ ๋ ํ๋ ฅํ๋(Collaborate) ๋ฌธ์ , ์ํตํ๋(Communicate) ๋ฌธ์ , ์ํธ๊ฐ์ ์ํฅ์ ์ฃผ๋(Reciprocate) ๋ฌธ์ ๋ก ์ ์ํฉ๋๋ค. ์ด ๋ชจ๋ ๋ฌธ์ ์์ ๊ณตํต์ ์ผ๋ก ์ฐ์ด๋ ํ ํฌ๋์ผ๋ก๋ centralized training, decentralized execution์ ๋๋ค. ํ์ต์ค์ ๋ชจ๋ state๋ฅผ ๋ณผ ์์๋ critic์ด agent๋ฅผ ์ฌ๋ฐ๋ฅด๊ฒ ํ์ตํ ์ ์๋๋ก ๋๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ๋์ค๋ policy๋ agent ๊ฐ๋ณ์ ํ๋๊ณผ ์ง์ญ์ ์ธ ๊ด์ฐฐ์ผ๋ก๋ ์ถฉ๋ถํ ์ํฉ์ ์ดํดํ๊ณ ํด๊ฒฐํ ์ ์๋๋ก ํ์ตํ๋ค๋ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค๋ฉด, agent๊ฐ ํ์ต์ค์์๋ ์์ ์ ๊ด์ฐฐ์ธ์๋ ์๋ฎฌ๋ ์ดํฐ๋ด์์ ์ถ๊ฐ์ ์ธ state ์ ๋ณด๋ฅผ ์ฃผ๊ฑฐ๋, agent๊ฐ์ communication์ ํ๋๋ก ๋๋ ํ์ต ๋ฐฉ๋ฒ์ ๋๋ค. ์ด๋ ๋ง์ ์ํฉ์์ ์ ์ฉ ๊ฐ๋ฅํ๋ฉด์ agent์ ์ฑ๋ฅ์ ๋์ฌ์ค ์ ์๋ ์ข์ ๋ฐฉ๋ฒ์ค์ ํ๋๋ก, ํ์ฌ ๋ง์ MARL method๋ค์ด ์ฌ์ฉํ๊ณ ์๋ ํ ํฌ๋์ ๋๋ค.
chapter 3์์๋ collaborate ์ํฉ์์์ common objective๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํ ๋ฌธ์ ๋ค์ ๋ํด ๊ธฐ์ ํฉ๋๋ค. ์ฌ๊ธฐ์์ ์ด๋ ค์ ์ค ํ๋๋ multi-agent ์ํฉ์์ ์ด๋ค agent์ ํ๋์ด reward์ ์ง์ ์ํฅ์ ๋ฏธ์ณค๋์ง ์ ๋๋ค(multi-agent credit assignment). ๋ชจ๋ agent๋ค์ action์ episode๋ด์์ reward์ ์ํฅ์ ๋ฏธ์น๊ธฐ ๋๋ฌธ์, ํ agent์ ํ๋์ ๋ํ ํ๊ฐ๋ฅผ ๋ถ๋ฆฌํด์ ํด๋ด๊ธฐ๊ฐ ์ด๋ ค์์ด ์์ต๋๋ค. ์ฌ๊ธฐ์๋ ์ด๋ฐ ๋ฌธ์ ๋ฅผ ํ๊ธฐ ์ํดCounterfactual Multi-Agent Policy Gradients(COMA) ๋ฅผ ์ ์ํฉ๋๋ค. COMA์์๋ Counterfactual baseline ์ ํตํด ๊ฐ agent์ action์ด ํ๋ด์์ ๋ฏธ์น๋ ์ํฅ์ ๋ํด ํ๊ฐํฉ๋๋ค.
chapter 4์์๋ agent์ฌ์ด์์์ common knowledge์ ๋ํ ์ค์๋์ ๋ํด์ ๋ค์๊ณผ ๊ฐ์ ์ด๋ก ์ผ๋ก ์ ๋ฆฌํ์ฌ ์ ์ํฉ๋๋ค. Multi-Agent Common Knowledge Reinforcement Learning(MACKRL)๋ agent๋ค์ subgroup๋ค์ด ์๋ก ๊ฐ์ common knowledge๋ฅผ ๊ณต์ ํ๋ ๊ณ์ธต์ ์ธ controllers๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ ์ด์ ๋ ๊ทธ๋ฃน์ action์ด joint๋ space๋ฅผ ๊ฐ์ง๊ฑฐ๋ ๋ง์ common knowledge๋ฅผ ๊ฐ์ง subgroup์๊ฒ ๊ธฐ๋ฅ์ ์์ํ๊ธฐ ์ํด์์ ๋๋ค.
chapter 5์์๋ MARL ์ํฉ์์๋ ๊ฐ agent๊ฐ action์ ์ทจํ๋ ํ๋์ด environment๋ฅผ non-stationaryํ๊ฒ ๋ง๋ค์ด replay buffer๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํ๋ ๊ฒ์ ํ์ตํ๊ธฐ ์ด๋ ต๊ฒ ๋ง๋ญ๋๋ค. ์ด ๋ ์ด๋ป๊ฒ replay buffer๋ฅผ ์ด์ฉํ ์ ์์์ง์ ๋ํด ์ค๋ช ํฉ๋๋ค.
part 1(chapter 3~5)๊น์ง agent๋ค์ด ๋ชจ๋ ์๋ก ์ํต์ด ์์ด decentralized ๋์ด์ action์ ์ทจํ๋ ์ํฉ์ ๋ํด ๊ฐ์ ํ๋๋ฐ, part 2(chapter 6~7)์์๋ agent๊ฐ communication protocol์ ๋ฐฐ์ธ ์ ์๋ ์ธ๊ฐ์ง ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
์ฒซ๋ฒ์งธ ๋ฐฉ๋ฒ์ผ๋ก๋ Reinforced Inter-Agent Learning(RIAL)๊ฐ ์์ต๋๋ค. ์ด๋ environment์ ์ํฅ์ ์ฃผ์ง ์๋ message๋ฅผ agent๋ผ๋ฆฌ ์ฃผ๊ณ ๋ฐ๋ ๋ฐฉ์์ผ๋ก communication์ด ์ด๋ฃจ์ด์ง๋๋ค.
๋๋ฒ์งธ ๋ฐฉ๋ฒ์ผ๋ก๋ Differentiable Inter-Agent Learning(DIAL)์ ๋๋ค. ์ฌ๊ธฐ์๋ message๋ฅผ ์ฌ์ฉํ์ง๋ง, RIAL๋ message๋ฅผ optimization term์ ๋ฃ์ด RIAL๋ณด๋ค ์ฌ์ธํ๊ฒ communication protocol์ ๋ฐฐ์ธ ์ ์๋๋กํฉ๋๋ค.
์ธ๋ฒ์งธ ๋ฐฉ๋ฒ์ผ๋ก๋ Baysian Action Decoder(BAD)๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ agent์ environment์ ์ํฅ์ ์ฃผ๋ action ์์ฒด๋ฅผ communication ๋ฐฉ๋ฒ์ผ๋ก ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๋ก ๊ฐ๊ฐ์ agent๊ฐ ๊ด์ฐฐํ ๋ถ์์ ํ ์ ๋ณด์ ๋ํ ์ ๋ณด๋ฅผ ์ด๋ป๊ฒ ํ์ฉํ ์ ์์์ง์ ๋ํด ์ค๋ช ํฉ๋๋ค.
์์ part 1๊ณผ part 2์์๋ ๋ชจ๋ agents๊ฐ team reward๋ฅผ ์ต์ ํํ์ง๋ง general-sum(win-winํน์ lose-lose๋ ๊ฐ๋ฅํ)๊ฒฝ์ฐ์ ๋ํด part 3์์ ์ค๋ช ํฉ๋๋ค. ๋, ๊ทธ๋ฅผ ํด๊ฒฐํ Learning with Opponents-Learning Awareness(LOLA)๋ผ๋ method๋ฅผ ์ ์ํฉ๋๋ค. LOLA์์ agent๋ ์์ ์ optimization term์ ์๋์ policy์ ๋ณํ๋ฅผ ๊ณ ๋ คํฉ๋๋ค. defact-defact ๊ท ํ์ ์ด๋ฃจ๋ ์ฃ์์ ๋๋ ๋ง๋ณด๋ค, LOLA๋ tit-for-tat์ ์ ๋ต์ ํ์ฑํฉ๋๋ค. LOLA๋ ํจ๊ณผ์ ์ผ๋ก ์ํธ์์ฉ์ ํ๋ฉด์, ์ ์ฒด์ ์ผ๋ก ๋์ reward๋ฅผ ๋ฐ๋๋ฐ ์ง์คํฉ๋๋ค.
LOLA์์ ์๋๋ฐฉ์ policy๋ฅผ ๊ทผ์ฌํด์ผํ๊ธฐ ๋๋ฌธ์ ๋์ ์ฐจ์์ gradient๊ฐ ๋ฐ์ํ๋๋ฐ ์ด๋ฅผ ์ข๋ ์ ํํ ๊ทผ์ฌํ๊ธฐ ์ํด Infinitely Differentiable Monte-Carlo estimator(DiCE)๋ฅผ ์๊ฐํ๋๋ฐ, ์ด๋ ๋์ ์ฐจ์์ ์ ํํ gradients๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ์ผ๋ก LOLA์ ์ ์ฉ๋์์ ๋ ์ฑ๋ฅ์ ๊ฐ์ ์ํค๋ ๊ฒ์ ๋ณด์์ต๋๋ค.
Last updated