7.1 Introduction
DMARL method์ SOTA๋ก๋ ์ด์ ์ ํ๋ DIAL๊ฐ์ communication protocol์ ๋ฐฐ์ฐ๋ ์ข ๋ฅ์ ์ ๊ทผ์ ๋๋ค. ํ์ง๋ง ์ด๋ฌํ ์ ๊ทผ์๋ ๋๊ฐ์ง ์ ํ์ ์ด ์์์ต๋๋ค.
์ฒซ์งธ๋ก, ์ด๋ ์ค์ง cheap-talk channel์๋ง ์ ์ฉ๋๋ค๋ ์ ์ ๋๋ค. ์ด๋ communication์ ํ๊ฒฝ์ ์๋ฌด๋ฐ ์ํฅ์ ๋ผ์น์ง ๋ชปํ๋ action์ ๋๋ค.
๋์งธ๋ก, ์ด๋ communication๊ณผ ๋ค๋ฅธ agent๋ค์ ํ๋์ด ์ ํ๋์ง์ ๋ํ ๊ฒฐํฉ์ด ์กด์ฌํ์ง ์์ต๋๋ค.
์ด๋ฐ ๋ถ์ผ์์ ์ ์๋ ค์ง ๋์ ๊ณผ์ ๋ก๋ Hanabi(๋ฃฐ์ ๋ํด ์์์ ๋ณด์๋ ๊ฒ์ ์ถ์ฒํฉ๋๋ค.)๊ฐ ์์ต๋๋ค. ์ด๋ ์์ ์ ํจ๋ฅผ ๋ณด์ง ๋ชปํ๋ ์ํ์์ ์๋ก ํ๋ ฅํด ์ต๋์ ์ ์๋ฅผ ๋ง๋๋ ๊ฒ์์ผ๋ก, agent๋ผ๋ฆฌ ์ํตํ๋ ํจ๊ณผ์ ์ธ convention์ ๊ฐ์ ธ์ผ๋ง ํฉ๋๋ค. ์ฌ๊ธฐ์๋ cheap-talk channel์ด ์๊ธฐ ๋๋ฌธ์, ์ด์ ๊ณผ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ์ฌ์ฉํด์ผ๋ง ํฉ๋๋ค. Hanabi์์์ ํ๋์ ์๋ ํจ์ ์ ๋ณด๋ฅผ ๋ดํฌํ๊ฑฐ๋, ๋ฑ๋ก, ํน์ ๋ฒ๋ฆฌ๋ ํ์๊ฐ ์๋๋ฐ, ์ด๋ฌํ ํ๋์์์ ์๋ฏธ๋ ๋๊ฐ์ง์ ๋ ๋ฒจ๋ก ๋๋ ๋ณผ ์ ์์ต๋๋ค. ์ฒซ๋ฒ์งธ ๋ ๋ฒจ๋ก๋ ๊ทธ ํ์ ์์ฒด๋ก ์ฃผ๋ ์ ๋ณด์ ๋๋ค. ์๋ฅผ ๋ค๋ฉด ์๋๋ฐฉ์ด ๋ค๊ณ ์๋ ์นด๋๊ฐ ์ด๋ค ์นด๋์ธ์ง ์๋ ค์ฃผ๋ ๊ฒ์ ๊ทธ ์์ฒด๋ก reward๋ฅผ ๋์ด๊ธฐ ์ํ ์ข์ ์ ๋ณด๊ฐ ๋ ์ ์์ต๋๋ค. ๋์งธ๋ก๋ ๊ทธ ์ ๋ณด๋ก๋ถํฐ ๋ดํฌํ๊ณ ์๋ ์ ๋ณด์ ๋๋ค. ์๋ก ๋ค์๋ฉด, ์ด๋ค agent๊ฐ ํ ํ๋์ ํ๊ฑฐ๋ ํ์ง์๋๋ค๋ฉด, ๊ทธ์๋ฐ๋ฅธ ์ด์ ๊ฐ ์์ ๊ฒ์์์ ๋ํ ์ ๋ณด์ ๋๋ค. ์ด๋ฌํ ์ ๋ณด๋ฅผ ์ป๊ธฐ์ํด์ ์ด๋ ํ convention์ด ์์ด์ผ ํ๊ณ , ์ข์ ์ ๋ต์ ๋ง๋ค์ด๋ด๋๋ฐ ํ์์ ์ ๋๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฌ๊ธฐ์๋ Bayesian action decoder(BAD)๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ Nayyar์ ์ฐ๊ตฌ์์ ์๊ฐ์ ๋ฐ์๋๋ฐ, BAD๋public belief๋ฅผ ๋ง๋ค๊ธฐ ์ํด ๋ชจ๋๊ฐ ๊ด์ธก๊ฐ๋ฅํ ์์๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ์๋ก์ด MDP์ธ public belief Markov Decision Process๋ฅผ ์ ์ํฉ๋๋ค. ์ฌ๊ธฐ์์ action์ ์ค์ง public state์ ์ํด์๋ง ์ ํ๋๊ฒ ๋ฉ๋๋ค. ์ด๋ factorized Bayesian update์ Neural Network๋ฅผ ํตํ ๊ทผ์ฌ๋ฅผ ํตํด ๊ฐ๋ฅํ๋๋ฐ, ์ด๋ Nayyar์ ์ฐ๊ตฌ๋ฅผ ๋์ space๋ก ํ์ฅ์ํจ ์ฒซ ์๋์ ๋๋ค.
๋ง์ฝ ํ agent๊ฐ ๋ค๋ฅธ agent์ action์ ๊ด์ฐฐํ๋ฉด public belief๊ฐ ๊ฐ๋ฅํ state ์งํฉ(๋ค๋ฅธ agent๊ฐ ๊ณ ๋ฅธ ๊ด์ธก๋ ํ๋ ์งํฉ)์์ sampling๋์ด ๊ฐฑ์ ๋ฉ๋๋ค. ์ด๋ Theory of mind ์ข ๋ฅ์ ๋น์ทํ๋ฐ, ์ด๋ ์ฌ๋์ ์ผ์์ ํ๋์ ๋ํ ์ถ๋ก ์ ํฉ๋๋ค. ๊ทธ๋ฌํ ์ถ๋ก ์ ํ ์ฌ๋์ด ์ ์ฌ๋ฌ ์ฌ๋ ์ฌ์ด์์ ํน์ ํ ํ๋์ ์ทจํ๋์ง, ๊ทธ๋ฆฌ๊ณ ์ด๊ฒ์ด ๊ฐ์ธ์ ๊ด์ธก์ ๋ํ ๋ถํฌ์์ ์ด๋ค ์ ๋ณด๋ฅผ ๊ฐ์ง๊ณ ์๋์ง ์ดํดํ๋ ค๊ณ ํฉ๋๋ค.
๋ํ BAD์ ์ ํจ์ฑ์ ๋ํด ์ค๋ช ์ ํ๊ณ , Hanabi์ ๋ณํ ๋ฒ์ ์ ์ ์ฉํจ์ผ๋ก์จ, ์ด์ ์ ์๋๋ค๋ณด๋ค ํจ์ฌ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
Last updated