4.1 Introduction
Last updated
Last updated
์ด์ ์ chapter์์ cooperativeํ ์ํฉ์์ ์ด๋ป๊ฒ centralized value function์ ๊ฐ์ง๊ณ , credit assignment problem์ ํด๊ฒฐํ ์ง์ ๋ํด ์๊ฐํด๋ณด์์ต๋๋ค. ์ด๋ฌํ ๋ฌธ์ ์ ๋ํด ๋ง์ ์ง์ฒ ์ฌํญ๋ค์ด ์๊ฒผ์ง๋ง, ์ด fully decentralized agent๋ agent๊ฐ์ ํ๋ํ๋ ๋ฅ๋ ฅ์ ๋ํด ๋ง์ ์ ํ์ด ์์ ์๋ฐ์ ์์ต๋๋ค. ๋ํ ๊ฐ๋ agent๋ค์ ๊ทธ๋ค ์ค์ค๋ก ๊ด์ธกํ ์ข์ observation์ ๋ํด์๋ ๋ฌด์ํ๋ ๊ฒฝํฅ์ด ์๋๋ฐ ์ด๋ ํ ์ ์ฒด๋ก ๋ณด์์ ๋, ๋ด๊ฐ ์ด ํ๋์ ํ๋๋ผ๋ ๋ค๋ฅธ agent๋ค์ด ์์ธก๊ฐ๋ฅํ์ง์๋ค๋ฉด ์ ์ฒด reward๋ฅผ ๋์ด๋๋ฐ ์ด๋ ค์ธ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด chapter์์๋ ๊ทธ๋ ๊ธฐ์ Multi-Agent Common knowledge Reinforcement Learning(MACKRL)์ ์ ์ํ๋๋ฐ, ์ด๋ ๊ทธ ๋๊ฐ์ง์ ๊ทนํ์ ์ค๊ฐ ์์ญ์ ์ฐพ๋๋ก ๋์ต๋๋ค. ์ด ๊ฒ์ ๋ฉ์ธ ์์ด๋์ด๋ก๋ partially observable ์ํฉ์์ agent๋ผ๋ฆฌ ๊ทธ๋ค๋ผ๋ฆฌ ํ๋์ ์กฐ์จํ ์ ์๋๋ก ๋๋ Common Knowledge๋ฅผ ๊ฐ์ง ์ ์๋ค๋ ์ ์ ๋๋ค. Common Knowledge์ ์ ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ๊ฐ agent๋ค์ด ๋ชจ๋ ๋ค๋ฅธ agent๋ค์ด ์๋ ๊ฒ์ ์๊ณ , ๊ฐ agent๋ค์ด ๋ค๋ฅธ agent๋ค์ด ๋ชจ๋ agent๋ค์ด ์๊ณ ์๋ค๋ ๊ฒ์ ์๊ณ ์๋ ๊ฒ์ ๋งํฉ๋๋ค. ์ง๊ด์ ์ผ๋ก common knowledge๋ ์๋ก์ ์ํ๋ฅผ ์๋ก ํ์ธํ ์ ์์ ๋, ๋ถํ์คํ๋ ๊ฒ์ด ์ฌ๋ผ์ง๋ฉฐ ์ถฉ์กฑ๋ฉ๋๋ค. ์ด๋ ๋ค์ ๊ทธ๋ฆผ์ ๋ณด๋ฉฐ ์์ธํ๊ฒ ๋ณด๊ฒ ์ต๋๋ค.
๊ฐ ์์ ๊ฐ agent ์์ ์ observation์ ๋๋ค. ์ด ์ํฉ์์ A์ B๋ ์๋ก ๊ด์ธก๊ฐ๋ฅํ๋ฏ๋ก Common Knowledge๊ฐ ์๋ค๊ณ ๋งํ ์ ์์ง๋ง, C๋ A์ B๊ฐ ๊ด์ธกํ ์ ์๋ ์์น์ ์กด์ฌํ๋ฏ๋ก, ์ด๋ Common Knowledge๋ฅผ ๊ณต์ ํ๋ค๊ณ ํ ์ ์์ต๋๋ค. ์ด๋ ์ถ๊ตฌ๊ฐ์ ๊ตฐ์งํ๋ ์ํฉ์์ ์ถฉ๋ถํ ์๊ฐํด ๋ณผ ์ ์์ต๋๋ค. Common knowledge๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ์๊ฐ๋ณด๋ค ๊ฝค ์ ์ฉํ๋ฐ ์ด๋ ๊ทธ๋ฃน๋ด์ ๊ฐ agent๊ฐ ์ค์ค๋ก ๊ทธ๋ฃน ๋ด์์ ๊ณต์ ๋๋ common knowledge๋ฅผ ์ถ๋ก ํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, common knowledge์ ๊ธฐ๋ฐํ centralized joint policy๊ฐ decentralized๋ ๋ฐฉ์์ผ๋ก ์คํ๋ฉ๋๋ค. ๊ฐ agent๋ ๋จ์ง centralized policy์์ ์ด๋ค action์ ์คํํ ์ง๋ง ์ ๋ฌ๋ฐ์ผ๋ฉด ๋ฉ๋๋ค. ๊ฐ agent๋ ๊ฐ์ common knowledge๋ฅผ input์ผ๋ก ๋ฐ๊ธฐ ๋๋ฌธ์ ๊ฐ์ joint action์ ์ ํํ๊ณ , ํ๋ ฅ๋ ํ๋์ ํ ์ ์๊ฒ ๋ฉ๋๋ค.
๊ทธ๋ฌ๋, common knowledge์ ๋์ ์ผ๋ก ์ธํ ์ ๋ฌธ์ ์ ์ด ์๊ธฐ๋๋ฐ, ์์ ๊ทธ๋ฃน์ผ์๋ก ๊ฒน์น๋ common knowledge๊ฐ ๋ง์ ๊ณต์ ํ๋ ์์ด ๋ง๊ฒ ์ง๋ง, ์ด๋ค ๋ ๋ฒจ์์์ ํ๋ ฅ์ ํด์ผํ ์ง ๋ถ๋ช ํํ ์ ์์ต๋๋ค. ๋ฐ๋๋ก, ํ๋ ฅ์ด ์์ ํ ์ ๋ฐ์ ์ผ๋ก ์ผ์ด๋๋ค๋ฉด, fully centralized policy๊ฐ ์ ํ๋๊ฒ ์ง๋ง, ๊ณต์ ํ ์ ์๋ ์์ด ์ ์ด ์ต์ ์ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋๋ฐ๋ ๋ถ์กฑํ ์ ์์ต๋๋ค.
๊ทธ๋ ๊ธฐ ๋๋ฌธ์, MACKRL์์๋ ํ ํ์ ์ผ๋ง๋ ์์ ๊ทธ๋ฃน์ผ๋ก ์ชผ๊ฐค ๊ฒ์ธ๊ฐ ๊ฒฐ์ ํ๋๊ฒ์ด ๊ต์ฅํ ์ค์ํฉ๋๋ค. ์ฌ๊ธฐ์๋ ๊ณ์ธต์ ์ธ(hierarchy) ์ ๊ทผ์ ์๋ํ๋๋ฐ, ๊ฐ hierarchy์์ agent๋ ๊ฐ ๊ทธ๋ฃน๋ด์์ joint action์ ์ ํํ ๊ฒ์ธ์ง, ๋ ์์ subgroup๋ก ๋๋ ๊ฑด์ง๋ฅผ ์ ํํ๋๋ฐ, ๊ทธ controller์ action์ ๊ทธ๋ฌ๋ฉด ๋ค์ hierarchy์ ์๋ controller๋ก๋ถํฐ ์ ํ๋๊ฒ ๋ฉ๋๋ค.(์ฌ๊ธฐ์ agent๋ controller์ ์์ ํ ๊ฐ์ ๊ฐ๋ ์ด ์๋๋๋ค.) MACKRL์์์ action selection์ ๋จ์ํ hierarchy์ ์๋ controller์ ์ํ sampling์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ํ์ต ์ค๊ฐ์ joint action์ ๋ํ marginality๋ ๊ฐ hierarchy๋ง๋ค ์ทจํ ์ ์์๋ ๋ชจ๋ action ์ ํ์ ๋ํด์ ์ด๋ค์ง๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก, subgroup์ด ๊ฐ์ง parameter๋ค์ด action selection์ด ๋์ง ์๋๋ผ๋, gradient๋ฅผ ๋ฐ์ ์ ์์ต๋๋ค.
MACKRL์ ์ฝ๊ฒ ๊ตฌํํ pairwise MACKRL์ ๋ณด์ด๋๋ฐ, ์ด๋ starcraft2 ํ๊ฒฝ์์ centralized critic์ ์ฌ์ฉํ๋ agent baseline์ ๋ชจ๋ ์๋ํ๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ๋ํ ํ์ hierarchy๋ก ๊ฒฐ์ ์ ๋๊ธฐ๋ ๊ฒ๊ณผ common knowledge์ ์ ๊ฐ์ ์ ์๋ฏธํ ๊ด๋ จ์ฑ์ ๋ณด์ ๋๋ค.