2.3 Centralized vs Decentralized Control
Last updated
Last updated
์ ์ฒด๋ฅผ ๊ด์ธกํ ์ ์๋ ์ํฉ(fully observable)์์ Multi Agent๋ฅผ ๋ง๋๋ ๊ฒ๋ณด๋ค, ์ ์ฒด๋ฅผ ์ด๊ดํ๋ ํ๋์ Agent(centralized controller) ๋ฅผ ๋ง๋๋ ๊ฒ์ ์๊ฐํด ๋ณผ ์ ์์ต๋๋ค. ์ด๋ฅผ ๋ํ๋ด๋ฉด,
๋ก ๋ํ๋ผ ์ ์์ต๋๋ค. ํ์ง๋ง ์ด๋ ๊ทผ๋ณธ์ ์ผ๋ก ํฐ ๋ฌธ์ ์ ๋๊ฐ์ง๊ฐ ์กด์ฌํฉ๋๋ค.
joint action space ๋ agent๋ค์ action์ด combinatorialํ๊ฒ ๊ฒฐํฉ๋ ํํ์ ๋๋ค.
์ด๋ agent์ action space์ exponentialํ ์ฆ๊ฐ๋ฅผ ์๋ฏธํ๋ฏ๋ก ํ์ฅ์ฑ์์ ๊ต์ฅํ ์ ์ฝ์ด ๋ฉ๋๋ค.
local observation ์ํฉ์์์ ์ ์ฉ์ด ๋ถ๊ฐํฉ๋๋ค. ๋ง์ ๋ค์ํ ์ํฉ์์ agent์ observation์ ์ ํ๋๋ ์ํฉ์ด ์ค๋๋ฐ, ์ด๋ centralized controller์ ์ ์ฉ์ด ๋ถ๊ฐํจ์ ๋ํ๋ ๋๋ค.
Agent๊ฐ์ local policy๋ฅผ ์ฌ์ฉํ๋ค๋ฉด, centralized control์ action space์ ๋ํ ๋จ์ ์ ๊ทน๋ณตํ ์ ์์ต๋๋ค. ์ด๋ ํ agent์ policy๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ํํ ๊ฐ๋ฅํฉ๋๋ค.
๊ทธ๋ ๋ค๋ฉด, ์ ์ฒด joint-action์ ๋ํ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์์ต๋๋ค.