7.5.1 Learning to Communicate
์ด ์ฐ๊ตฌ ์ด์ ์๋ agent๋ผ๋ฆฌ ํ๋ ฅํ๊ธฐ ์ํด communicationํด์ผํ๋ ์ํฉ์ ๋ํ ๋ง์ ์ฐ๊ตฌ๊ฐ ์์์ผ๋ ์ด๋ toy problem์ ํ์ ๋์ด ์์์ต๋๋ค. ์ด๋ฐ ์ฐ๊ตฌ๋ค์ ํนํ ์ฃผ๋ก cheap-talk communication channel์ ์ฌ์ฉํ์๋๋ฐ, ์ด๋ Chapter 6์ ๋์จ RIAL๊ณผ DIAL๋ ํฌํจ๋ฉ๋๋ค. ์ด๋ฒ ์ฐ๊ตฌ์์๋ cheap-talk channel์ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ์ค์ environment์ ์ํธ์์ฉํ๋ action์ ๊ด์ฐฐํ๋ฉด์ ๋ฐฐ์ฐ๋ ๊ฒ์ ์ด์ ์ ๋ง์ถฅ๋๋ค. ์ด๋ ์ด์ ์ ํด๊ฒฐํ๋ คํ๋ 'hat game'์ด๋ผ๋ ๋ฌธ์ ์ ์ค์ ๊ณผ ๋น์ทํ๋ฐ, ์ด๋ Bayesian beliefs๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋ DRQN์ ์ ์ฉ์ผ๋ก ํด๊ฒฐํ๋ คํ ์ฐ๊ตฌ๊ฐ ์์ต๋๋ค. ๋ํ Nayyar์ ์ฐ๊ตฌ์์๋ common information์ด๋ผ๋ ์์ด๋์ด๋ ์ฌ์ฉํ์ผ๋, ์ค์ high-dimensionalํ ์ํฉ์์์ ์ ์ฉ์ ๋ํ method๋ฅผ ๋ด๋์ง ๋ชปํ์ต๋๋ค.
Last updated