4.3 Dec-POMDP and Features
์ด chapter์์๋ MACKRL์์ ๋ฌธ์ ๋ฅผ ์ ์ํ ๋ ๊ฐ์ ํ๋ decentralized partially observable Markov decision processes(Dec-POMDP) ์์์ ์ ์๋ค์ ๋ํด ์์๋ณด๊ฒ ์ต๋๋ค.
Dec-POMDP์์ state ๋ entities ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค. ๊ทธ๋์ ๋ค์๊ณผ ๊ฐ์ด ํํํฉ๋๋ค. ๊ทธ๋ ๋ค๋ฉด, agent๋ํ ๊ด์ธก๊ฐ๋ฅํ entities๋ก ์๊ฐํ ์ ์์ต๋๋ค. . ๊ทธ ์ธ์๋, ์ , ์ฅ์ ๋ฌผ, ๋ชฉํ๋ฑ ๋ชจ๋ entities๋ก ๋ํ๋ผ ์ ์์ต๋๋ค.
๊ฐ timestep๋ง๋ค, ๊ฐ agent๋ action์ ๊ฒ์ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์์ต๋๋ค.
subscript๋ environment์ ์ง์ ์ํฅ์ ๋ฏธ์น๋ค๋ ์๋ฏธ์ env์ ๋๋ค. joint action์ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํฉ๋๋ค.
next state ์ผ ๋, transition probability๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํฉ๋.
reward function ์ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํฉ๋๋ค.
agent๋ partial observability๋ฅผ ๊ฐ์ง๋๋ฐ, ๊ฐ time-step๋ง๋ค ๊ฐ agent ๋ observation (agent๊ฐ ๋ณผ ์ ์๋ ๋ชจ๋ entites๋ค์ ํฌํจํ state features ์ ๋ถ๋ถ ์งํฉ์ ํฌํจํ๋ ์งํฉ)๋ฅผ ๋ฐ์ต๋๋ค. ์ด๋ agent ๊ฐ entities ๋ฅผ ๊ด์ฐฐํ ์ ์๋์ง์ ์ฌ๋ถ๋ ๋ค์๊ณผ ๊ฐ์ binary mask ๋ฅผ ํตํด ๊ฒฐ์ ๋ฉ๋๋ค. agent ๋ ํญ์ ์๊ธฐ์์ ์ ๊ด์ฐฐํ ์ ์๊ธฐ ๋๋ฌธ์, ๋ค์๊ณผ ๊ฐ์ด ํ๊ธฐํ ์ ์์ต๋๋ค. . agent๊ฐ ๋ณผ์ ์๋ ๋ชจ๋ entities๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ ํฉ๋๋ค.
.
agent์ ๋ชจ๋ observation์ deterministicํ observation function ๋ฅผ ํตํด ๊ฒฐ์ ๋๋๋ฐ ๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์์ต๋๋ค.
agent๋ค์ ๋ชฉํ๋ expected discount reward์ ์ต๋ํ์ด๊ณ , ์ด๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ด๋, joint policy ๋ ๋ ๋ฆฝ์ ์ธ decentralized policies๋ก ์ฌ์ฉํ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ๋ค์๊ณผ ๊ฐ์ด ํ๊ธฐํฉ๋๋ค. ์ด๋ ์์ ๋ง์ history๋ฅผ ํตํด action์ ๊ฒฐ์ ํ๋ agent๋ผ๊ณ ํด์ํ ์ ์์ต๋๋ค.
๋ํ agent group ์ผ ๋, joint action space ๋ ๋ค์๊ณผ ๊ฐ์ด ํ๊ธฐ ํ ์ ์์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก ์ค์ํ ๊ฒ์, MACKRL์ ์ํ ์ ์๋ค์ด ๋ฌธ์ ๋ฅผ ๋จ์ํ๊ณ ๊ฐ๊ฒฐํ๊ฒ ํํํ๊ธฐ ์ํด state๋ฅผ entities๋ก ๋ผ ์ ์๊ณ , observation function์ด deterministicํ๋ค๋ ๊ฐ์ ์ ํ ๋จ์ํ๋ Dec-POMDP๋ผ๋ ์ ์ ๋๋ค.
Last updated
Was this helpful?