7.4.7 Results on Hanabi
Last updated
Last updated
BAD agent๋ 2์ธ Hanabi์์ SOTA๋ฅผ ๋ฌ์ฑํ์์ต๋๋ค. ์๋ ๊ทธ๋ํ์ (a)๋ฅผ ๋ณด๊ฒ ์ต๋๋ค.
์ด๋ BAD agent์ ๋ LSTM agent์ training curve์ ๋ํ ๊ทธ๋ํ์ ๋๋ค. LSTM agent๋ ํ ์คํธํ ๋, ํ์ต๋ policy์ค์์ ์ ์ผ ์ข์ ๋ฒ์ ์ ์ฌ์ฉํด ์กฐ๊ธ ๋ ์ข์ ์ฑ๋ฅ์ ์ป์์ต๋๋ค. agent๋ฅผ ๊ณ ๋ฅผ ๋, agent๋ง๋ค 10,000๋ฒ์ ๊ฒ์์ ํตํด ํ ์คํธ๋ฅผ ์งํํ๊ณ , ๊ฐ์ฅ ์ข์ agent๋ฅผ ๊ฐ์ง๊ณ 100,000 ๋ฒ์ ํ ์คํธ๋ฅผ ์งํํ์์ต๋๋ค. BAD agent๋ฅผ ๊ณ ๋ฅผ ๋๋ ๋น์ทํ๊ฒ ์ฌ์ฉํ์๋๋ฐ, V1์ ์ผ๋ง๋ ์๋์ง์ ๋ํ ์ hand์ ๋ช์ฅ์ ์นด๋๋ฅผ ๋๋๋์ ๋ฐ๋ผ ์ถ๊ฐ์ ์ธ ํ๋ผ๋ฏธํฐ ์ ํ์ด ์์์ต๋๋ค.
๋ค๋ฅธ method๋ค ์ค์ 20์ ์ด ์๋๋ method๋ค์ ๊ฐ๋ ์ฑ์ ์ํด์ ์ ์ง ์์๊ณ , Hanabi์ ๋ฃฐ์์ 3๋ฒ์ ์คํจ๋ฅผํ๋ฉด 0์ ์ ์ฃผ๋๋ก ํ ๋ฒ์ ์ธ๋ฐ๋ 23.9์ ์ ๋๋ก ์ฌ์ ํ heuristic rule๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
BAD์ agent์ ์ค์ ๊ฒ์ํ๋ ์ด๋ ๋ชจ๋ ๋ฐ๋ฅด๊ธฐ ์ฌ์ด๊ฑด ์๋์ง๋ง ๊ฒ์์ ๋ถ์ํด๋ณด์์ ๋, ๋ช๋ช convention์ ๋ฐ๊ฒฌํ ์ ์์์ต๋๋ค. ๋ชจ๋ ๋์ ์ ์๋ฅผ ๋ฐ์ agent๊ฐ ์ฌ์ฉํ๋ convention์ผ๋ก ์ ์นด๋์ ๋ํด ๋นจ๊ฐ์์ด๋ ๋ ธ๋์์ด๋ ํํธ๋ฅผ ์ฃผ๋ฉด ์ด๋ ๋ฑ๋กํด๋ ๋๋ค๋ convention์ด ์์์ต๋๋ค. ๋ํ 25%์ ์ผ์ด์ค์์๋ ์๋ก์ด ์นด๋์ ๋ํด ํฐ์์ด๋ ํ๋์์ ๊ฐ๋ฆฌํค๋ ๊ฒ์ด ๋ฒ๋ฆฌ๋ผ๋ convention์ผ๋ก ์ฌ์ฉ๋๊ธฐ๋ ํ์์ต๋๋ค.
์ ๊ทธ๋ฆผ์์์ (c)์์๋ V0, V1, V2์ iteration์ ๋ฐ๋ฅธ cross entropy๋ฅผ ๋ณด์ ๋๋ค. belief update๋ฅผ ๋ฐ๋ณตํด์ ์งํํ ๊ฒฝ์ฐ, ๊ธฐ์กด์ cross entropy๋ณด๋ค ํฌ๊ฒ ๊ฐ์ํ๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. ์ด๋ convention์ ๋ฐฐ์ฐ๋ ๊ฒ์ด ์ฑ๊ณต์ ์ธ ๊ฒ์ ํ๋ ์ด์ ์์ด ์ค์ํ๋ค๋ ์ ์ ๋๋ค.