2.6 Centralized Training, Decentralized Execution
agent๊ฐ centralized training์ค์๋ local observation๋ฟ๋ง์ด ์๋ ์ถ๊ฐ์ ์ธ ์ ๋ณด๋ฅผ ๋ฐ์ผ๋ฉฐ, ํ์ต์ ์งํํฉ๋๋ค. ๊ทธ๋ฐ ๋ค ๋ง์ง๋ง์๋ง agent์ policy๊ฐ ์ด๋ฐ ์ถ๊ฐ์ ์ธ ์ ๋ณด์ ์์กดํ์ง ์์ผ๋ฉด ๋ฉ๋๋ค. ์ด๋ ๊ทธ๋ ์ง ์์ ๊ฒ๋ณด๋ค ๊ต์ฅํ ํจ์จ์ ์ธ ํ์ต์ ๋ณด์ด๋๋ฐ, ์ด๋ฏธ Dec-POMDP์ํฉ์์ ํ์ค์ผ๋ก ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ๋ค์ ๋๋ค. ์ฌ์ง์ด general-sum์ํฉ์์๋ ์ด๋ฐ ํ์ต๋ฐฉ๋ฒ์ด ์ ํจํ๋ฐ, ๊ฒฐ๊ตญ ํ์ต์ด ๋๋ ์ดํ์๋ ๋ค๋ฅธ agent์ ์ ๋ต๋ฑ์ ๋ํ ์ ๋ณด๋ฅผ ์ป์ง ์์๋ ๋๋ ์ํ๊ฐ ๋ฉ๋๋ค.
Last updated