7.6 Conclusion & Future Work
์ด๋ฒ chapter์์๋ cooperative partially observable MARL ์ํฉ์์ ์ ์ฉ ๊ฐ๋ฅํ Bayesian Action Decoder๋ฅผ ๋ณด์์ต๋๋ค. BAD๋ factorized, approximate belief state๋ฅผ ์ฌ์ฉํ๋๋ฐ, ์ด๋ agent๊ฐ ์ ๋ณด๋ฅผ ์ ์ ๋ฌํ ์ ์๋ action๊ณผ convention์ ๋ฐฐ์ธ ์ ์๋๋ก ํฉ๋๋ค. BAD์ ๋ํด matrix game๊ณผ Hanabi์์ ์คํ์ ์งํํ์ฌ ์ข์ ์ฑ๋ฅ์ ๋ณด์๊ณ , ์ด๋ DMARL๋ฅผ ํตํด communication protocol์ ๋ฐ๊ฒฌํด์ผํ๊ณ ์๋ ์ฌ๋์๊ฒ ๋ง์ถฐ ๋์์ธ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์ฒซ ์๋์ ๋๋ค. future work๋ก๋ BAD๋ฅผ 2๋ช ์ด์์ผ ๋์ ์ ์ฉํ๊ณ ์ข๋ ์ผ๋ฐํ ํ๋ ค๊ณ ํฉ๋๋ค. belief update๊ฐ sampling์ ํ๋ ๊ณผ์ ์ด ์์ผ๋, ๋ค๋ฅธ ๊ตฌ์ฑ์์๋ค์ ์ฌ๋งํ๋ฉด end-to-end๋ก ํ์ต์ด ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค. ๋ BAD๋ฅผ value-based method๋ก ํ์ฅํ๊ณ , counterfactual gradients์ ๋ํ ์ฐ๊ด์ฑ์ ์กฐ์ฌํ ๊ณํ์ ๋๋ค.
Last updated