3.2 Related Work
์ด์ MARL์ฐ๊ตฌ๋ค์ ๋ณด์๋ฉด, ์ฒ์์ ๊ต์ฅํ ๊ฐ๋จํ ํ๊ฒฝ์ ๋ํ ์คํ์ผ๋ก ์์๋์๊ณ , ์ด๋ ์์์ ๋ณด์๋ IQL์ ๋ฑ์ฅ๊ณผ two player pong์ผ๋ก์ ์ ์ฉ ์ดํ DMARL์ ๋ํ ํฐ ๊ธฐํ์ด ๋์์ต๋๋ค.
๋ํ agent๊ฐ์ communication์ ๋ํ ํ์์ฑ์ ๋๋ผ๊ณ , ์ด์ ๋ํ ์ฐ๊ตฌ๋ ์ด๋ฃจ์ด์ก๋๋ฐ, ์ด๋ ํ๋๋ agent๊ฐ์ gradient๋ฅผ ํ๋ ค๋ณด๋ด๋ ๋ฐฉ์๊ณผ parameter๋ฅผ sharingํ๋ ๋ฐฉ์ ๋๊ฐ์ง๊ฐ ์ฃผ์ํ ๋ฐฉ์์ผ๋ก ์ฐ๊ตฌ๋์์ต๋๋ค. ํ์ง๋ง ์ด๋ฌํ ๋ฐฉ์๋ค์ด ํ์ค ์ถ๊ฐ์ ์ธ state information(centralized critic์ด global state์)์ ์ฌ์ฉํ์ง ์์๊ณ , Credit Assignment Problem์ ํด๊ฒฐํ์ง ์์๋ค๋ ์ ์์ ํ๊ณ๊ฐ ์์ต๋๋ค.
๋ํ Gupta, Egorov, Kochenderfer์ ์ฐ๊ตฌ์์ centralized training, decentralized execution์ ์ ์ฉํ actor-critic์ฐ๊ตฌ๊ฐ ์งํ๋์์ผ๋, agent ๋ชจ๋ local observation critic์ ๊ฐ์ง๊ณ , credit assignment problem๋ฅผ ์ค์ง local reward๋ฅผ ๋ง๋ค์ด์ ํ์ ์์ ํ๊ณ๊ฐ ์๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.
RL์ starcraft micromanagement ์ ์ฉ์ ์ฃผ๋ก multi agent์ ๋ํ architectureํน์ฑ์ ์ฌ์ฉํ๋ฉด์๋ centralized controller์ full state๋ฅผ ์ฌ์ฉํ๋ ์ฐ๊ตฌ๋ค์ด ์งํ๋์์ต๋๋ค. Usuiner์ ์ฐ๊ตฌ์์๋ greedy MDP๋ฅผ ์ฌ์ฉํ๋๋ฐ ์ด๋ ๊ฐ timestep์์ ๋ค๋ฅธ agent๋ค์ ์ด์ ์ action๋ค์ด ๋ชจ๋ ์ฃผ์ด์ง์ํ์์ action์ ์ ํํ๋ ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด์ง๋๋ค. ์ด๋ ๋ ผ๋ฌธ์ Zero-order (ZO) backpropagation algorithm์ ๋ณด๋ฉด ์ดํดํ ์ ์์ต๋๋ค. Peng์ ์ฐ๊ตฌ์์๋ RNN์ ํตํด agent๊ฐ์ ์ ๋ณด ๊ต๋ฅ๊ฐ ์ผ์ด๋๋๋ก ์ค๊ณํ์์ต๋๋ค. ์ด๋ Usunier์ ์ฐ๊ตฌ์์ ์ฌ๊ธฐ์ ์ฐ์ธ ๋น์ทํ ์คํ์ ์๋ฅผ ํ์์ผ๋ฉฐ, DQN baseline์ ๋ง๋ค์์ต๋๋ค. Omidshafiei์ ์ฐ๊ตฌ์์๋ decentralized training์ค์ experience replay ์์ ์ฑ์ ํด๊ฒฐํ์์ต๋๋ค.
Rashid์ Sunehag์ ์ฐ๊ตฌ์์๋ agent ๊ฐ์์ centralized critic์ ์ ์ํ๊ณ , Lowe์ ์ฐ๊ตฌ์์๋ centralized critic(๋ณธ๋ฌธ์์๋ single critic์ด๋ผ๊ณ ํ์ง๋ง MADDPG์์ฒด๊ฐ ์ฌ๋ฌ๊ฐ์ q network๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.)์ ์ ์ํ๊ณ ์ด๋ฅผ decentralized actor๋ฅผ ํ์ตํ๋๋ฐ ์ฌ์ฉํ์ต๋๋ค. ์ด๋ COMA์ ์ ์ฌํ ๋ฉด์ ๊ฐ์ง๊ณ ์๋๋ฐ, ์ค์ ๋ก ์ด ์ฐ๊ตฌ๋ ์ฌ๊ธฐ์ ์ ์ํ๋ ์์ด๋์ด์ ๊ฑฐ์ ๋์์ ์ด๋ฃจ์ด์ก์ต๋๋ค. ํ์ง๋ง ์ฌ๊ธฐ์๋ Credit Assignment Problem์ ํด๊ฒฐํ ์ด๋ค ์ ๊ทผ๋ ํ์ง ์์์ต๋๋ค.
Last updated
Was this helpful?