Hanabi์ belief๋ฅผ ๊ณ์ฐํ๋ ๊ฐ์ฅ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ftpubโ๋ ๋ฑ์ ๋จ์์๋ ์นด๋์ ๋ํ ์ ๋ณด candidates vector C์, hint mask HM์ nNhโร(NcolorโNrankโ+1) ํฌ๊ธฐ์ binary matrix๋ก ๋ํ๋ผ ์ ์์ต๋๋ค.(ํจ๊ฐ ์๋ค๋ ์ ๋ณด +1๊น์ง)์ด๋ ์ฃผ์ด์ง ์ฌ๋กฏ์์ ํ๋ ์ด์ด๊ฐ ์ง๊ธ๊น์ง ํํธ์ ๋ฐ๋ผ ํน์ ์นด๋๋ฅผ ๋ค๊ณ ์์ ์ ์๋ ๊ฒฝ์ฐ 1, ๊ทธ๋ ์ง ์์ผ๋ฉด 0์ธ matrix์
๋๋ค. ์ฌ๋กฏ์ public state์ ๋ํ private state space f[i]๋ก ๋ถํฐ ๊ณ์ฐ๋ฉ๋๋ค. basic belief B0๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค.
B0(f[i])=P(f[i]โฃfpub)โC(f)รHM(f[i])
์ด๋ฅผ "V0 belief" ๋ผ๊ณ ๋ถ๋ฅผ๊ฑด๋ฐ, ์ด๋ ๊ทธ ์นด๋์ ๋ํ public available information์ผ๋ก๋ง ์ด๋ฃจ์ด์ ธ์์ต๋๋ค. ์ด๋ฒ ์คํ์์ baseline agent๋ basic belief ๋ฅผ ๋ฐ๋ ๊ฒ์ ์ค์ ์ผ๋ก ์งํํ์์ต๋๋ค. ํ์ง๋ง ์ด ์ ๋ณด๋ ์ค์ ์ฌ๋์ด ์ด์ฉํ๊ธฐ์๋ ๋ชจ๋ ํํธ๋ฅผ ๊ธฐ์ตํ๋ ๊ฒ๊ณผ ๊ฐ๊ธฐ ๋๋ฌธ์ ๋ฌธ์ ๊ฐ ์๋ ๋ฐฉ๋ฒ์
๋๋ค. ๊ทธ๋ฆฌ๊ณ basic belief๋ ๋ค๋ฅธ ์ ๋ณด์์ ์ํธ์์ฉ์ ํตํ ์ด๋ค ๊ฒฐ๊ณผ๋ฌผ์ ๋ด๋์ ๊ฒ์ ๋ํ ๊ณ ๋ ค๋ฅผ ํ์ง ์์ ์ฑ๋ก ์ด๋ฃจ์ด์ง๋๋ค. ์ด๋ฅผ BAD์์๋ self-consistent belief์ (7.3.11) ์์์์ ์ด๋ฃจ์ด์ก๋ noisy sampling์ ํตํด ํด๊ฒฐํฉ๋๋ค.
๊ฐ๋จํ ๊ฐ ์นด๋์ ๋ํ belief๋ ๋ค์์ฒ๋ผ ๋ํ๋ผ ์ ์์ต๋๋ค.
B0(f[i])โC(f)รHM(f[i])รL(f[i])
B0(f[i])=โgโC(g)รHM(f[i])รL(f[i])C(f)รHM(f[i])รL(f[i])โ
=ฮฒiโC(f)รHM(f[i])รL(f[i])
์๋ ๋ term์ probability์ฒ๋ผ ์ฌ์ฉํ ์ ์๊ฒ normalization์ ์งํํฉ๋๋ค.
๋ค์์ผ๋ก๋ iterative belief update๋ฅผ ์งํํด ๋ณด๊ฒ ์ต๋๋ค.
Bk+1(f[i])=โf[โi]โBk(f[โi])P(f[i]โฃf[โi],fโคtpubโ,uโคtaโ,ฯ^โคtโ)
=โg[โi]โBk(g[โi])ฮฒiโ(C(f)โโj๎ =iโ1(g[j]=f))M(f[i])
์ด ๋ M(f[i])=HM(f[i])รL(f[i])์
๋๋ค. ์ด๋, Bk์ ๋ํด factorized ํ๊ฒ ๊ทผ์ฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
Bk+1(f[i])=โg[โi]โBk(g[โi])ฮฒiโ(C(f))โโj๎ =iโ1(g[j]=f))M(f[i])
=โg[โi]โโj๎ =iโBk(g[โi])ฮฒiโ(C(f))โโj๎ =iโ1(g[j]=f))M(f[i])
โฮฒiโโg[โi]โโj๎ =iโBk(g[โi])ฮฒiโ(C(f))โโj๎ =iโ1(g[j]=f))M(f[i])
๋ง์ง๋ง term์ sample์ ํ๊ท ํ ํ normalizing์ ํด ๊ฒฐ๊ณผ๊ฐ๊ณผ๋ ์ฐจ์ด๊ฐ ์๊ธฐ์ง๋ง, ์ด๋ sample๋ง๋ค normalizing์ํ๊ณ , ํ๊ท ์ ๋ด๋ ๊ฒ๋ณด๋ค ์ข ๋ ๋ค๋ฃจ๊ธฐ ์ฌ์ด์ ์ ์ด์ฉํ์ต๋๋ค.
์ด๋ product-sum์ ํตํด ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์์ต๋๋ค.
Bk+1(f[i])โฮฒiโ(C(f)โโg[โi]โโj๎ =iโBk(g[j])โj๎ =iโ1(g[j]=f))M(f[i])
=ฮฒiโ(C(f)โโj๎ =iโโgโBk(g[j])1(g[j]=f))M(f[i])
=ฮฒiโ(C(f)โโj๎ =iโBk(g[j]))M(f[i])
โ(C(f)โโj๎ =iโBk(g[j]))M(f[i])
๊ทธ๋ฌ๋ฏ๋ก self consistent belief๋ฅผ sampling ์์ด ๋ค์์ฒ๋ผ ๊ตฌํ ์ ์์ต๋๋ค.
Bk+1(f[i])โ(C(f)โโj๎ =iโBk(g[j]))รHM(f[i])
๊ทธ๋ฆฌ๊ณ belief๊ฐ ์๋ ดํ๊ฑฐ๋ iteration์ ์ต๋๋ก ํ์ ๋, ์ด๋ฅผ V1 belief๋ผ๊ณ ๋ถ๋ฆ
๋๋ค. ์ด๋ Bayesian probability์ ์ํ์ฌ ๋ง๋ค์ด์ก์ง ์์ง๋ง, ๋ค๋ฅธ์นด๋์ ํํธ์์ ์ํธ์์ฉ์ ํตํด ๋ง๋ค์ด์ก์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก iteration์ ํ ๋๋ง๋ค HM์ slot์ ๋ค๋ฅธ slot๋ค์ ์ํด ๋ค์ด๊ฐ candidate๊ฐ ์ค์ด๋๋ ์ถ๋ก ์ด ์ด๋ค์ง๋๋ค.
๊ฐ์ algorithm์ด์ง๋ง L์ ํฌํจํ๋ algorithm์ BAD๋ผ๊ณ ํฉ๋๋ค.
BB0(f[i])โC(f)รHM(f[i])รL(f[i])
BB1(f[i])โ(C(f)โโj๎ =iโBk(f[j]))รHM(f[i])รL(f[i])
์ค์ ๋ก V2 belief๋ ์์ ์ฑ์ ์ํด Bayesian Belief์ V1 belief์ ๋ณด๊ฐ๋ฒ์ ํตํด ๊ตฌํฉ๋๋ค.
V2=(1โฮฑ)BB+ฮฑV1ย ย ,ฮฑ=0.01ย ย orย ย 0.1