4.7 Experiments and Results
Last updated
Last updated
์ฌ๊ธฐ์๋ MACKRL๋ฅผ ๋๊ฐ์ง task์ ๋ํด ์คํ์ ์งํํ์์ต๋๋ค.
Matrix ์คํ์ ์ดํ์ ์ค๋ช ํ๋๋ก ํ๊ฒ ์ต๋๋ค.
์ด ์ค์์ ์ฒซ๋ฒ์งธ๋ partially observableํ matrix game์
๋๋ค.์ฌ๊ธฐ์์ state๋ ๋๊ฐ์ง์ randomํ๊ฒ ์ ํ๋ bits๋ก ๊ตฌ์ฑ๋๋๋ฐ, ์ด๋ iid๋ฅผ ๋ฐ๋ฆ
๋๋ค. ์ฒซ๋ฒ์งธ ๋นํธ๋ information state๋ก, ๋ agent๋ชจ๋ ๊ด์ธก๊ฐ๋ฅํฉ๋๋ค. ๋๋ฒ์งธ ๋นํธ๋ agent๊ฐ ํ๋ ์ดํ๋ ๋ ๊ฐ์ง ์ผ๋ฐ ํผ ๊ฒ์ ์ค ํ๋๋ฅผ ์ ํํ๊ณ 50%ํ๋ฅ ๋ก sampling๋ฉ๋๋ค. ๋ง์ฝ ์ฒซ๋ฒ์งธ bit๊ฐ common knowledge์ํ์ ์๋ค๋ฉด, P(common knowledge)๊ฐ ์ผ์ด๋ ๊ฒ์ด๊ณ , matrix bit๋ ์๋์๊ฒ ํญ์ ๊ณต๊ฐ๋์ด ๋ชจ๋์ common knowledge๊ฐ ๋ฉ๋๋ค. ๋ฐ๋ฉด์ ์ฒซ๋ฒ์งธ bit๊ฐ ๋ณผ์ ์๋ ์ํฉ์ด ๋๋ค๋ฉด, ๊ฐ agent๋ matrix bit๋ฅผ 50%ํ๋ฅ ๋ก ๋ณด๊ฒ๋ฉ๋๋ค.
Common knowledge๊ฐ ํญ์ ๊ณต๊ฐ๋๋ค๋ฉด, MACKRL๋ joint-action-learning(JAL)๊ณผ ์ฑ๋ฅ์ด ๊ฐ์์ต๋๋ค. ์ค๊ฐ ์ ๋์ ํ๋ฅ ์ผ ๋ MACKRL์ด IAC์ JAL์ ๋ชจ๋ ์์ฐ๊ณ , MACKRL
๋๋ฒ์งธ ์คํ์ Starcraft II micromanagement์ MARLํ๊ฒฝ์ ๋๋ค. ์ด๋ starcraft์ ์ค์ ๊ณผ ๋ฎ์๋๋ฐ, 3๋3 ๋ง๋ฆฐ์ , 2 ์คํ ์ปค 3์ง๋ฟ์ ์ด ์๋๋ฐ,์ด์ ์ฐ๊ตฌ์์ independent learner๊ฐ ์คํจํ๋ ๊ฒ์ ๋ณด์๊ณ , ์ฌ๊ธฐ์๋ ์ฑ๊ณตํ๋ ๊ฒ์ ๋ด์ผ๋ก์จ, MACKRL์ด ์ ํจํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
Policy์ Neural Network Architecturing์ ๋ํ ์ค๋ช ์ ์งํํ๋๋ฐ, ๋๋ฒ์งธ์ ์ธ๋ฒ์งธ hierarchy controllers๋ parameter๋ฅผ ๊ณต์ ํฉ๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก, agent index๋ index pair์ ๋ํ ์ ๋ณด๋ฅผ agent์ ๋ฃ์ด์ฃผ์ด์ผ ํฉ๋๋ค.
Central-V์์ ๋น๊ต์์, ๊ฒฐ๋ก ์ ์ผ๋ก parameter์๋ Central-V๊ฐ 3๋ฐฐ ์ ๊ธดํ์ง๋ง, ๊ฒฐ๊ตญ์ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๊ฑด MACKRL์ด์์ต๋๋ค.
pair controller๊ฐ ์ ๋ต์ ์ผ๋ก delegateํ๋ ๋ฒ์ ๋ฐฐ์ด๋ค๋ ๊ฒ์ ๋ณด์ด๊ธฐ ์ํด ์๋์ ๊ฐ์ ๊ทธ๋ฆผ์ ์ ์ํฉ๋๋ค.
์ด๋ ์ฃผ์ด์ง pair controller์ common knowledge์์ ์๋ ์ ์ ์์ ๋ฐ๋ฅธ delegation action ์ ๋ํ ํผ์ผํธ๋ฅผ ๋ํ๋์ต๋๋ค.ํ์ต ์ด๊ธฐ์ pair controller๋ ๋๋ฌผ๊ฒ decentralized controller์๊ฒ delegateํ์ง๋ง, ํ์ต์งํ๋จ์ ๋ฐ๋ผ, ๋ ์์ฃผ ์ ๋นํ ์ ์ ์๊ฐ common knowledge์ ์์ ๋, delegationํ๋ ๋ฒ์ ๋ฐฐ์ ์ต๋๋ค. ์ด๋ delegation์ด ๊ฐ agent ๊ฐ์ธ์ ์ธ observation์์์ ์ด์ ์ ๊ฐ์ ธ๊ฐ๋ฉด์๋, common knowledge๊ฐ ์์ ๋ ํ๋ ฅํ๋ ๋ฒ๋ ๋ฐฐ์ฐ๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.