7.3.1 Public belief
Single-agent partially observable์ํฉ์์๋ agent๊ฐ ๋ณด์ด์ง ์๋ ํ๊ฒฝ์ ๋ํ ์์ ๋ง์ belief ๊ฐ๋ ๊ฒ์ด ๊ฝค ์ ์ฉํ์ต๋๋ค. ํ์ง๋ง Multi-agent ์ํฉ์์๋ ๋ค๋ฅธ agent๋ค์ ๊ด์ธก ์ํฉ(ํน์ policy)๋ฑ์ ๋ฐ๋ผ MDP๋ ๋ณํ๊ฒ ๋๊ณ , ๊ทธ๋ฐ belief๋ ์ฝ๊ฒ ๊นจ์ง ์ ์์ผ๋ฏ๋ก, ํ๊ฒฝ์ ๋ํ belief์ ํผ์ ๊ฐ์ง๊ณ ์๋ ๊ฒ์ด ๋ ์ด์ ์ถฉ๋ถํ์ง ์์ต๋๋ค. Interactive POMDPs(I-POMDPs)์์ agent๋ ์๋ก์ ๋ํ belief ๊ทธ๋ฌํ belief์ ๋ํด modelingํด๋ด๋๋ฐ, ์ด๋ ๊ณ์ฐ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ ๋ถ๋ถ๋ค์ด ์์ต๋๋ค.
public belief ๋ ๋ชจ๋ ์ด์ ์ ์๋ ค์ง public features๋ก๋ถํฐ์ ํ agent์ ์๋ก์ด private state features์ ๋๋ค. ์ด๋ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์์ต๋๋ค.
๋ ๋ชจ๋์๊ฒ ์๋ ค์ง ์ ๋ณด์ ๋ํด์, ์ฆ ๊ฐ agent๋ก๋ถํฐ ๋ชจ๋์๊ฒ ์๋ ค์ง algorithm์ ์ฌ์ฉํด ๋ ๋ฆฝ์ ์ผ๋ก ๊ฐ์ public belief๋ฅผ ๋ง๋ค ์ ์๋ ์ ๋ณด์ ์ํด ๋ง๋ค์ด์ง๋๋ค. ๊ทธ๋ ๋ค๋ฉด agent๋ ๊ทธ๋ค์ private observation์ ์ด์ฉํ์ง ์๊ณ , public belief๋ง ์ด์ฉํด ์ถ๋ก ํ๋ ์ํฉ์ ์ด๋ป๊ฒ ํด๊ฒฐํ ์ ์์์ง์ ๋ํ ๊ณ ๋ฏผ์ ํด์ผํฉ๋๋ค. ์ด๋ Nayyar๊ฐ ์ ์ํ๋๋ก public observation๊ณผ public belief์ ํตํด ํ์ตํ๋ฉด ์ด๋ optimal policy๋ฅผ ์ฐพ์ ์ ์์ต๋๋ค. ๊ทธ ์ด์ ๋๊ฐ partial policy(์์ ์ ๊ด์ธก์ ์ฌ์ฉํ ์ ์๋ policy)๋ฅผ ๊ณจ๋ผ ์ด policy๊ฐ action์ ๊ณ ๋ฅด๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์์ต๋๋ค.
์ด๋ ๊ฒ partial policy๋ deterministicํ๊ฒ ์ ํ๋จ์ผ๋ก์จ, policy gradient๋ก communication protocol์ high entropy entropy๋ฅผ ๊ฐ์ง๊ฒ ํ์ต์ด ๋๊ณ , communication์ low entropy๋ฅผ ๊ฐ์ง๊ฒ ํ์ต์ด ๋๋ ํน์ฑ์ ๊ฐ์ง ์ ์๊ฒ ๋ฉ๋๋ค.
์ง๊ด์ ์ผ๋ก public agent๋ ์ค์ง public observation๊ณผ belief๋ฅผ ๊ด์ฐฐํ๋ 3์์ฒ๋ผ ๋ณผ ์ ์์ต๋๋ค. ๊ฐ private state๋ฅผ ๋ณด์ง ๋ชปํ์ง๋ง ๊ฐ agent์๊ฒ ์ด๋ค private observation์ ๋ฐ์์ ๋ ์ด๋ป๊ฒ ํ๋ผ๋์ง ์๋ ค์ค ์ ์์ต๋๋ค. ์ฆ ๊ฐ time step์์ public agent๋ ์ ์ ๊ธฐ๋ฐํด partial policy ๋ฅผ ์ ํํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์, partial policy๋ ์์ ์ private state๋ฅผ ์ด์ฉํด action์ ์ ํํฉ๋๋ค.
๊ทธ ๋ค์ public agent๋ observed action ๋ฅผ ์ด์ฉํด ์ belief ๋ฅผ ๋ง๋ญ๋๋ค.
Last updated
Was this helpful?