7.4.4 Beliefs in Hanabi
Last updated
Was this helpful?
Last updated
Was this helpful?
Hanabi์ belief๋ฅผ ๊ณ์ฐํ๋ ๊ฐ์ฅ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ๋ ๋ฑ์ ๋จ์์๋ ์นด๋์ ๋ํ ์ ๋ณด candidates vector ์, hint mask ์ ํฌ๊ธฐ์ binary matrix๋ก ๋ํ๋ผ ์ ์์ต๋๋ค.(ํจ๊ฐ ์๋ค๋ ์ ๋ณด +1๊น์ง)์ด๋ ์ฃผ์ด์ง ์ฌ๋กฏ์์ ํ๋ ์ด์ด๊ฐ ์ง๊ธ๊น์ง ํํธ์ ๋ฐ๋ผ ํน์ ์นด๋๋ฅผ ๋ค๊ณ ์์ ์ ์๋ ๊ฒฝ์ฐ 1, ๊ทธ๋ ์ง ์์ผ๋ฉด 0์ธ matrix์ ๋๋ค. ์ฌ๋กฏ์ public state์ ๋ํ private state space ๋ก ๋ถํฐ ๊ณ์ฐ๋ฉ๋๋ค. basic belief ๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค.
์ด๋ฅผ "V0 belief" ๋ผ๊ณ ๋ถ๋ฅผ๊ฑด๋ฐ, ์ด๋ ๊ทธ ์นด๋์ ๋ํ public available information์ผ๋ก๋ง ์ด๋ฃจ์ด์ ธ์์ต๋๋ค. ์ด๋ฒ ์คํ์์ baseline agent๋ basic belief ๋ฅผ ๋ฐ๋ ๊ฒ์ ์ค์ ์ผ๋ก ์งํํ์์ต๋๋ค. ํ์ง๋ง ์ด ์ ๋ณด๋ ์ค์ ์ฌ๋์ด ์ด์ฉํ๊ธฐ์๋ ๋ชจ๋ ํํธ๋ฅผ ๊ธฐ์ตํ๋ ๊ฒ๊ณผ ๊ฐ๊ธฐ ๋๋ฌธ์ ๋ฌธ์ ๊ฐ ์๋ ๋ฐฉ๋ฒ์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ basic belief๋ ๋ค๋ฅธ ์ ๋ณด์์ ์ํธ์์ฉ์ ํตํ ์ด๋ค ๊ฒฐ๊ณผ๋ฌผ์ ๋ด๋์ ๊ฒ์ ๋ํ ๊ณ ๋ ค๋ฅผ ํ์ง ์์ ์ฑ๋ก ์ด๋ฃจ์ด์ง๋๋ค. ์ด๋ฅผ BAD์์๋ self-consistent belief์ (7.3.11) ์์์์ ์ด๋ฃจ์ด์ก๋ noisy sampling์ ํตํด ํด๊ฒฐํฉ๋๋ค.
๊ฐ๋จํ ๊ฐ ์นด๋์ ๋ํ belief๋ ๋ค์์ฒ๋ผ ๋ํ๋ผ ์ ์์ต๋๋ค.
์๋ ๋ term์ probability์ฒ๋ผ ์ฌ์ฉํ ์ ์๊ฒ normalization์ ์งํํฉ๋๋ค.
๋ค์์ผ๋ก๋ iterative belief update๋ฅผ ์งํํด ๋ณด๊ฒ ์ต๋๋ค.
์ด ๋ ์ ๋๋ค. ์ด๋, ์ ๋ํด factorized ํ๊ฒ ๊ทผ์ฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
๋ง์ง๋ง term์ sample์ ํ๊ท ํ ํ normalizing์ ํด ๊ฒฐ๊ณผ๊ฐ๊ณผ๋ ์ฐจ์ด๊ฐ ์๊ธฐ์ง๋ง, ์ด๋ sample๋ง๋ค normalizing์ํ๊ณ , ํ๊ท ์ ๋ด๋ ๊ฒ๋ณด๋ค ์ข ๋ ๋ค๋ฃจ๊ธฐ ์ฌ์ด์ ์ ์ด์ฉํ์ต๋๋ค.
์ด๋ product-sum์ ํตํด ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์์ต๋๋ค.
๊ทธ๋ฌ๋ฏ๋ก self consistent belief๋ฅผ sampling ์์ด ๋ค์์ฒ๋ผ ๊ตฌํ ์ ์์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ belief๊ฐ ์๋ ดํ๊ฑฐ๋ iteration์ ์ต๋๋ก ํ์ ๋, ์ด๋ฅผ V1 belief๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. ์ด๋ Bayesian probability์ ์ํ์ฌ ๋ง๋ค์ด์ก์ง ์์ง๋ง, ๋ค๋ฅธ์นด๋์ ํํธ์์ ์ํธ์์ฉ์ ํตํด ๋ง๋ค์ด์ก์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก iteration์ ํ ๋๋ง๋ค HM์ slot์ ๋ค๋ฅธ slot๋ค์ ์ํด ๋ค์ด๊ฐ candidate๊ฐ ์ค์ด๋๋ ์ถ๋ก ์ด ์ด๋ค์ง๋๋ค.
์ค์ ๋ก V2 belief๋ ์์ ์ฑ์ ์ํด Bayesian Belief์ V1 belief์ ๋ณด๊ฐ๋ฒ์ ํตํด ๊ตฌํฉ๋๋ค.
๊ฐ์ algorithm์ด์ง๋ง ์ ํฌํจํ๋ algorithm์ BAD๋ผ๊ณ ํฉ๋๋ค.