7.3.2 Public Belief MDP
Last updated
Was this helpful?
Last updated
Was this helpful?
public belief๋ฅผ updateํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค. public belief๋ ๋ค์์ฒ๋ผ ๋ํ๋ผ ์ ์์ต๋๋ค.
์ ๋ public information์ด๋ฏ๋ก, ํ agent๊ฐ ๊ด์ธกํ ๊ฒ ์ ํตํด ์ดํ์ ๊ฐ๋ฅํ private state features ์ ํ๋ฅ ์ด ๋ฐ๋ก public belief์ ๋๋ค. ์ด๋ ๋ค์ ๋ค์๊ณผ ๊ฐ์ด ํํํ ์ ์์ต๋๋ค.
์ด๋, ์ ๋ฅผ ์๊ณ ๊ฐ ๋ฝํ ์ํฉ์์๊ฐ ์ ํ๋์ ๋, ์ด๋ฅผ ์ ๋ฅผ ์์ํ์์ ๊ด์ธกํ ํ๋ฅ ๊ณผ ์ ๋ฅผ ์์ํ์์ ๋ฅผ ์ ํํ ํ๋ฅ ์ ๊ณผ ๊ฐ์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ด๋ ๋น์ฐํ (indicator)์ ๋๋ค.
์ด๋ฅผ ํตํด ์ฐ๋ฆฌ๋ ์๋ก์ด MDP์ธ PuB-MDP๋ฅผ ์๊ฐํ ์ ์์ต๋๋ค. ์๋ ๊ทธ๋ฆผ์ (b)๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
reward function์ private state feature์ ๋ํ marginality๋ฅผ ์ํด ๋ค์๊ณผ ๊ฐ์ด ๊ตฌ์ฑํฉ๋๋ค.
PuB-MDP์ state ์ ๋ํด ๋ public observation๊ณผ public belief๋ก ์ด๋ฃจ์ด์ ธ์์ต๋๋ค. deterministic partial policies๋ private observation์ ํตํด action ์ผ๋ก mappingํฉ๋๋ค. ์ด๋ฅผ transition probability๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
๋ค์ state๋ ์๋ก์ด public belief๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋, ์ด๋ฅผ public belief update์์ ํตํด ๊ตฌํ ์ ์์ต๋๋ค. ์ด๋, ์ผ๋ฐ MDP์์๋ action์ ์ํด transition probability๊ฐ ์ ์๋์ง๋ง ์ฌ๊ธฐ์๋ ์ ์ํด(private observation์ ๋ฐ๋ฅธ ์คํ๋์ง ์์ action๋ชจ๋๊ฐ transition probability์ ๊ด์ฌํฉ๋๋ค.) ์ ์๋๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
์ด๋ private observation์ ๋ํ๋ฅผ reward์ ๊ณฑํด ๊ณ์ฐํฉ๋๋ค.