6.6.3 MNIST Games
Last updated
Was this helpful?
Last updated
Was this helpful?
์ฌ๊ธฐ์๋ ๋๊ฐ์ง MNIST๋ฅผ ๊ฐ์ง๊ณ ์คํ์ ๊ตฌ์ฑํฉ๋๋ค.
์ด ์คํ์ ๋ ํ๋ ์ด์ด๊ฐ ๊ฐ์ ๋ค๋ฅธ ๋ ๊ฐ์ง ์์ผ๋ก ์ด๋ฃจ์ด์ง 0๋ถํฐ 9 ๊น์ง์ ์ซ์๋ฅผ ๊ฐ์ ๊ด์ธกํ ์ ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ , 1-bit์ ์ ๋ณด๋ฅผ ๋ณด๋ด ๊ทธ๋ฆผ์ ์ซ์์ ์, ํ์์ธ์ง์ ๋ํด communicaiton protocol์ ์ธ์ฐ๋ ์คํ์ ํฉ๋๋ค. ๊ฐ agent๋ ๋ค์๊ณผ ๊ฐ์ reward๋ฅผ ๋ฐ๊ฒ๋๊ณ , ์ ์ฒด reward๋ ๋ agent reward์ ํฉ์ผ๋ก ํํ๋ฉ๋๋ค.
ํ์ง๋ง ์ด ์์ rewardํ๊ธฐ์ ๋ํด ์ดํดํ์ง ๋ชปํ์ต๋๋ค. ๊ฐ ์๋ฏธํ๋ ๋ฐ๊ฐ ์ด๋ค ๊ฑด์ง, ์ด๋ป๊ฒ ๋ค์์ ์๋ค๋ก reward๊ฐ ํํ๋ ์ ์๋์ง ํ์ ํ์ง ๋ชปํ์ต๋๋ค. DIAL๋ ผ๋ฌธ์์๋ ์ ๋ณด๋ฅผ ์ ๋ฌํ๊ณ , ๋ง์ถ๋ ๋ฐ๋ณต์ ์ฌ๋ฌ๋ฒ ํ ๊ฒฐ๊ณผ์ ๋ํด ํํํ๋ค๊ณค ํ๋๋ฐ ๋ญ๊ฐ ๋๋ ์๋๋ ํ์ ํ์ จ์ ๊ฒ์ด๋ผ๊ณ ์๊ฐํฉ๋๋ค. ์๋์ Multi-step MNIST๋ฅผ ๋ณด๋ฉด ๋น์ทํ ๋งฅ๋ฝ์ด๋ผ๊ณ ์๊ฐ์ด ๋ฉ๋๋ค.
Gray scale MNIST data๋ฅผ๊ฐ์ง๊ณ , 5๋ฒ๋์ 1-bit communication์ ํ๋ฉด์ 0~9๋ฅผ ๋ง์ถ๋ ์คํ์ ๋๋ค.5๋ฒ๋์ 4๋ฒ์ communication์ ํ ์ ์๊ฒ ๋๊ณ , ์ด๋ 16bit์ ์ ๋ฌํ ์ ์๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ๊ทธ๋ ๊ธฐ์ ๊ฐ ์ซ์๋ฅผ ์ด๋ป๊ฒ bit์ ํจ์จ์ ์ผ๋ก mapping์ํฌ ์ ์์์ง๊ฐ ๊ด๊ฑด์ธ๋ฐ, ์ดํ์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ํตํด ์ด๋ค ๊ฒฐ๊ณผ๊ฐ ๋์๋์ง ๋ณด๊ฒ ์ต๋๋ค.
network๋ 2๊ฐ์ MLP๋ก ์ด๋ฃจ์ด์ง๊ณ , ์์ ๋๊ฐ์ง ์คํ์ ์ค์ ์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ต๋๋ค.
์์์ ์๊ฐํ ๋ ์คํ์ ๊ฒฐ๊ณผ๋ฅผ ๊ทธ๋ํ๋ก ๋ณด๋ฉด, DIAL์ด ๋ชจ๋ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์์์ ๋ณด์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด์ ์คํ์ ๊ฒฐ๊ณผ์ฒ๋ผ parameter sharing์ด ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ผ์น๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. RIAL๋ ํ์ต์ ์คํจํ๋๋ฐ, ์ด๋ protocol์ local minima์์ ๋น ์ ธ๋์ค์ง ๋ชปํจ์ ๋ณผ ์ ์์์ต๋๋ค. DIAL์์๋ message protocol์์ฒด๋ฅผ DQN์ error๋ฅผ ์ค์ด๊ธฐ ์ํด ์ ๋ฐ์ดํธ๋๋ฏ๋ก ์ด๋ฐ ์ ์ด DIAL์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค๊ณ ์๊ฐํฉ๋๋ค. Multi-step MNIST ์คํ์์ ์ ๋ณด๋ฅผ ์ด๋ป๊ฒ encodingํ๋ ํ์ ๋, ๊ฐ ์ซ์๋ณ๋ก bit๋ณ๋ก ๊ฑฐ์ ๋ฐ๋ฐ์ ๋๋ ์ ์ mappingํ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
๊ทธ๋ฌ๋ DIAL์ ๋ค๋ฆ ๋๋ค. reward๊ฐ +1์ด๋ -1์ด๋ ์ด reward์ ๋ํ signal์ด ์ ๋ฌ๋๋๋ฐ, ์ด ์ ๋ฐ์ดํธ ๋๋ chain rule์ ์์์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
ํนํ DIAL์ด noise๊ฐ ์์๋ค๋ฉด, ๋ถํฌ๊ฐ ์ค์์ ๋ชจ์ด๋๋ก ํ๋๋ฐ, noise๊ฐ discreteํ message๋ฅผ ๋ณด๋ผ ์ ์๋๋ก ๋๊ฒ ๋ฉ๋๋ค. ๋ค์ section์์ ์ด noise์ ๋ํ ํจ๊ณผ๋ฅผ๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ ๋ ์๊ฐํด๋ณด๋ฉด DIAL์ด high-dimension input์ธ ์ฒซ๋ฒ์งธ ์คํ์์ RIAL๋ณด๋ค ํจ์ฌ ์ข์ ์ฑ๋ฅ์ ์ป์์ผ๋ก์จ, ์ด๋ฅผ ์์ธํ ์ดํดํ๊ธฐ ์ํด์ ๋ค์๊ณผ ๊ฐ์ ๊ฐ๋จํ ์คํ์ ๊ฐ์ ํด๋ณด๊ฒ ์ต๋๋ค. ๋๊ฐ์ two-agent๋ฌธ์ ๋ก, agent 1๊ณผ agent 2์ observation ์ binary action ์ ๋ํด reward๋ฅผ ๋ก ์๊ฐํ์ ๋, ํ์ต์ด ๋ ๋ ๊น์ง, ์ ๋ํด agent 2๊ฐ ํ๋ ํ๋์ ๋ํ reward์ ํ๊ท ์ 0์ด ๋ ์ ๋ฐ์ ์์ต๋๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์, agent 1์ ๋ํ TD error๋ 0์ด ๋ฉ๋๋ค.