7.5.2 Research on Hanabi
์๋ง์ Hanabi์ ๋ํ ์ฐ๊ตฌ๊ฐ ์งํ๋์์ต๋๋ค. Baffier๋ ์ด Hanabi์์์ ์ต์ ์ ์ ๋ต์ ์๊ธฐ๊ฐ ์์ ์ ํจ๋ฅผ ๋ณผ ์ ์๋ค๊ณ ํด๋ NP-hard์์ ๋ณด์์ต๋๋ค. hat game๊ณผ ๋น์ทํ๊ฒ encodingํ๋ ๋ฐฉ์์ ๊ธฐ๋ณธ์ ์ผ๋ก 5์ธ๋ ํด๊ฒฐํ ์ ์์ง๋ง, 2์ธ์ฉ์์๋ 17.8์ ๋ฐ์ ์ป์ง ๋ชปํ์ต๋๋ค. Walton์ ์ฐ๊ตฌ๋ Monte-Carlo tree search์ rule based method๋ฅผ ์ฌ์ฉํ์ง๋ง, BAD๋ณด๋ค 50% ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์๊ณ , Osawa๋ heuristicํ rule์ ๋ง๋ค์ด ํด๊ฒฐํ๋ คํ์ผ๋ ์ด๋ ๊ฒฐ๊ตญ heuristicํ ๋ฐฉ๋ฒ์ด๊ณ , ๊ฒฐ๊ตญ BAD๋ณด๋ค ์ข์ง์์ ๊ฒฐ๊ณผ๋ฅผ ์ป์์ต๋๋ค.
BAD 2์ธ์ฉ Hanabi์์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ์ป์ agent์ ๋ํด SmartBot์ผ๋ก ์ด๋ฆ๋ถ์๋๋ฐ ์ด๋ ๋งํฌ์์ ํ์ธํ ์ ์์ต๋๋ค. ์ด๋ ํ๊ท ์ ์ผ๋ก 23.09์ ์ ์ป๋ SOTA๋ฅผ ๋ฌ์ฑํ์์ต๋๋ค.
Last updated