6.6.2 Switch Riddle
Last updated
Was this helpful?
Last updated
Was this helpful?
์ฒซ experiment๋ก ์๊ฐ์ ๋ฐ์ ๊ฒ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
" 100๋ช ์ ์ฃ์๊ฐ ์๋ก ๊ฐ์ฅ์ผ๋ก ๋ค์ด์๋๋ฐ, ์์ฅ์ด ๊ทธ๋ค์๊ฒ ๋ด์ผ๋ถํฐ ๋ค ๋ ๋ฐฉ์ ๋ค์ด๊ฐ ๊ฒ์ด๊ณ , ์๋ก communication์ ๋ถ๊ฐ๋ฅํ ๊ฒ์ด๋ผ๊ณ ์๋ฆฝ๋๋ค. ์์ฅ์ ๊ฐ ๋ ์ฃ์๋ฅผ ๋๋ค์ผ๋ก ์ค์ ์ฌ๋ฌธ์ค๋ก ๋ถ๋ฅผ ์ ์์ต๋๋ค. ์ด๋ ๋ฐฉ์๋ ์ ๊ตฌ์ ์ค์์น๋ง ์์ต๋๋ค. ์ฃ์๋ ํ์ฌ ์ ๊ตฌ์ ์ํ๋ฅผ ๋ณผ ์ ์์ต๋๋ค. ๋ง์ฝ ๊ทธ๊ฐ ์ํ๋ฉด ๋ถ์ ์ผ๊ฑฐ๋ ๋ ์ ์์ต๋๋ค. ๊ฐ๋งํ๋ ์์ ์ ์์ต๋๋ค. ์ด ๋ ์ฃ์๋ค์ ์ด๋๋ ๋ชจ๋ ์ฃ์๋ค์ด ์ด ๋ฐฉ์ ํ ๋ฒ์ฉ์ ๋ค์ด์๋์ง ์์๋ด์ผํฉ๋๋ค. ๋ง์ฝ ๋ง์ถ๋ค๋ฉด, ๋ชจ๋ ์ฃ์๋ ํ์ด์ง์ง๋ง, ์๋๋ฉด ๋ชจ๋ ์ฌํ์ ๋๋ค. ๋ด์ผ ๊น์ง ์ฃ์๋ค๋ผ๋ฆฌ ๊ทธ๋ค์ด ์ด๋ค ๋ฃฐ์ ์ธ์์ผ ๊ทธ๋ค์ด ์์ ํ ๋ชจ๋ ๋ค ์ฌ๋ฌธ์ค์ ๋ค์ด๊ฐ์์ ์ ์ ์์๊น"์ ๋ํ ๋ฌธ์ ์ ๋๋ค.
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ์ด ๊ณณ์์๋ ๋ฌธ์ ์ ์๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์งํํ์ต๋๋ค. ๊ฐ time-step t์ ๋ํด ์ฌ๋ฌธ์ค์ ๋ค์ด๊ฐ agent a๋ ๋ฅผ ๊ด์ฐฐํ ์ ์๊ณ , message ๋ฅผ ๋จ๊ฒจ๋๊ณ ๊ฐ ์ ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ํ๊ฒฝ์ ์ํฅ์ ๋ฏธ์น๋ ํ๋์ผ๋ก ์ ์ ํ ์ ์์ต๋๋ค. reward๋ Tellํ๊ธฐ์ ๊น์ง 0์ ๋ฐ๊ณ , Tell์ ํด์ ๋ง์ท๋ค๋ฉด 1, ํ๋ฆฌ๋ฉด -1๋ก ์ ์ํ์์ต๋๋ค. ์ต๋ Time-step์ ๋๋ฌด ๊ธธ์ด์ง๋ฉด ๋๋ฌด ์ฌ์์ง๋ฏ๋ก 4n-6๋ก ์ก์์ต๋๋ค.
์ด ๋ฌธ์ ๋ protocol์๋ํ ํ์ต์ ๋ํ ๊ณผ์ ๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ time-step t์ ๋ํด agent๋ observation ๋ฅผ ๊ฐ์ง๋๋ฐ, ์ผ๋ก, ์ทจ์กฐ์ค์ ์๋ค์ด๊ฐ๊ฑฐ๋, ๋ถ์ด ๊บผ์ง๊ฑธ ๋ณด๊ฑฐ๋ ๋ถ์ด ์ผ์ง ๊ฒ์ ๋ณด๋ ์ธ ๊ฐ์ง ์ํฉ์ observation๊ฐ๋ฅํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ agent๋ history๋ก๋ถํฐ ๊ฐ ๊ฐ๋ฅํ๋ฐ, ๊ทธ๋ ๊ธฐ ๋๋ฌธ์, single-agent policy์ผ ๋์ space๋ (histories๋ฅผ ํตํด action์ ๊ฐ์ง๊ธฐ๋๋ฌธ์ observation ๊ฐ์ ๋งํผ์ ์ ๊ฐ์ง๊ฒ ๋ฉ๋๋ค.) ๋ก ๋ํ๋ผ ์ ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ต๋ time step๊น์ง์ ๋ํด ๊ณ ๋ คํด๋ณด๋ฉด, policy space๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ง์ ๊ณฑ์ ํน์ฑ์ ์ํด ์ง์๊ฐ ๋ฑ๋น ์์ด์ ํฉ ํํ๋ก ๋ํ๋ ๋ชจ์ต์ ๋๋ค.์ด๊ฒ ํ agent์ action space์ธ๋ฐ, agent๊ฐ ๋ค์๋ผ๋ฉด, ์ด๋ฅผ ๊ทธ๋๋ก ๊ณฑํ๋ ๊ฒ๊ณผ ๊ฐ์ผ๋ฏ๋ก ์ง์์ ์ผ๋ก ์ฆ๊ฐํ๋๋ฐ, ์ด ๋ณต์ก๋๋ฅผ Big-O๋ฅผ ์ฌ์ฉํ์ฌ ํํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ ๊ทธ๋ฆผ์ ๊ทธ๋ฆผ (a)๋ agent๊ฐ 3๋ช ์ด์์ ๋๋ฅผ ๋ํ๋ ๋๋ค. 5k step ์ดํ ๋ชจ๋ method๊ฐ optimal policy๋ฅผ ์ฐพ์์ต๋๋ค. ์ด๋, parameter sharingํ๋ DIAL์ด RIAL๋ณด๋ค ๋น ๋ฅด๊ฒ optimal์ ๋๋ฌํ๋ ๊ฒ์ ๋ณผ ์ ์์์ต๋๋ค. ์ด๋, ๋๋ค parameter sharing์ด ๋ชจ๋ ์๋๋ฅผ ์ฆ๊ฐ์ํด์ ์ ์ ์์์ต๋๋ค. (b)์์๋ DIAL์ด ๋น ๋ฅด๊ฒ ์๋ ดํจ์ ๋ณผ ์ ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ , RIAL์ parameter sharing์ด ์๋ ๊ฒ์ ํ์ตํ์ง ์์ ๊ฒฐ๊ณผ์ ๋น์ทํจ์ ๋ณด์ ํ์ต์ด ์ด๋ฃจ์ด์ง์ง์๊ณ ์์์ ์ ์ ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ parameter sharing์ด communication์ ํ ๋ ๊ต์ฅํ ํฐ ์ญํ ์ ํ๋๋ฐ, ์ด๋ ๋ณด๋ด๊ณ ๋ฐ์๋ค์ด๋ channel์ ์ ๋ณด๊ฐ ๋น์ทํด์ผ ํ์ต์ด ์ ์ด๋ฃจ์ด์ง๋ค๊ณ ์ถ์ธกํ๊ณ ์์ต๋๋ค. ๋ํ agent๊ฐ 3๋ช ์ผ๋, DIAL์ ๋ํด ๋ถ์ํ๋๋ฐ, ๊ทธ๋ฆผ (c)๋ฅผ ๋ณด๋ฉด, optimal strategy๋ฅผ ์ฐพ์๋ด์์ต๋๋ค.