4.5 Multi-Agent Common Knowledge Reinforcement Learning
Last updated
Was this helpful?
Last updated
Was this helpful?
MACKRL์ ์ฃผ์ ํฌ์ธํธ๋ decentralized policy์ด์ง๋ง ํ๋ ฅํ๋ ๊ฒ์ ๋ฐฐ์ด๋ค๋ ์ ์ ๋๋ค. MACKRL์ common knowledge๋ฅผ ๊ณต์ ํ๋ agent๋ค ๋ผ๋ฆฌ์ joint policy ๋ฅผ ๋ง๋๋๋ฐ ์ด๋ centralizedํ๊ฒ ํ๋ํ์ง๋ง, decentralizedํ ๋ฐฉ๋ฒ์ผ๋ก ํ์ต๋ฉ๋๋ค. (๋ค์์ ์ข๋ ์์ธํ ์ค๋ช ํ ๊ฒ์ ๋๋ค.) ๋ชจ๋ agent๋ common knowledge์ ๊ฐ์ random seed๋ฅผ ํตํด ๊ทธ๋ค์ด ์ํ ๊ทธ๋ฃน์ joint action์์ action์ samplingํ๋ ํ์์ผ๋ก ์ด๋ฃจ์ด ์ง๋๋ค. ์ด๋ common knowledge๊ฐ ์ถฉ๋ถํ ์ ๋ณด๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉด, ๊ทธ๋ฃน์ policy๋ ๊ฝค ์ข์ joint action์ ๋ด๋์ ๊ฒ์ ๋๋ค. ํ์ง๋ง, ์ถฉ๋ถํ์ง์๋ค๋ฉด ์์ subgroup์ผ๋ก ๋ถํ ๋ฉ๋๋ค. subgroup๊ฐ์๋ ๋์ด์ ํ๋ ฅ์ด ์ผ์ด๋์ง ์์ง๋ง,(joint action select์ ์๋ก ์ํฅ์ ๋ฏธ์น์ง์์ง๋ง) ๋ ํ๋ถํ common knowledge๋ฅผ ์ฌ์ฉํ ์ ์์ ๊ฒ์ ๋๋ค. ์ด ๋ชจ๋ ๊ณผ์ ์ partially observable ํ๋ trajectories๋ฅผ ํตํ common knowledge ์ ์ํด์๋ง ์ผ์ด๋๋ฏ๋ก decentralized๋์๋ค๊ณ ๋ณผ ์์์ต๋๋ค. ์ด๋ฌํ ์์ด๋์ด๋ฅผ ์คํํ๊ธฐ ์ํด hierarchy controller๋ฅผ ์ฌ์ฉํ์๋๋ฐ, ๋งจ ์๋จ๊ณผ ์ค๊ฐ level์ controller์์๋ joint action์ selectํ๊ฑฐ๋, subgroup์ผ๋ก ๋๋๋ ์ญํ ์ ํ๊ณ , ๋งจ๋ง์ง๋ง์์ joint action์์ action์ selectํ๋ ํ์๋ฅผ ํฉ๋๋ค.
์ด๋ฅผ ์๋์ฝ๋ํ ํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์๊ณ ๋ฆฌ์ฆ ์ค๋ช ์ด ๋๋ฌด ์๋์ด ์์ด line by line ์ค๋ช ์ ํ์ง ์๊ณ , ์ ์ฒด flow๋ฅผ ํ๋ฒ ๋ค์ ๋ณด๊ฒ ์ต๋๋ค. b๋ agent ๊ทธ๋ฃน์ ๋๋ค.
b์ ๋์ด์ ๊ทธ๋ฃน์ด ์๋ค๋ฉด ๋ฉ์ถ๊ฒ ๋๋ loop๋ฅผ ๋ง๋ญ๋๋ค.
b์์ ๊ทธ๋ฃนํ๋๋ฅผ popํ๋ค, ๊ทธ ๊ทธ๋ฃน์์์ joint action ๋ฅผ samplingํฉ๋๋ค.
๋ง์ฝ ์ด joint action ๊ฐ ๋ผ๋ฉด, joint action์ ์ ํ๋๊ณ , ๊ทธ๊ฒ ์๋๋ผ๋ฉด, ์ชผ๊ฐ์ ธ b๋ก ๋ค์ด๊ฐ๊ฒ ๋ฉ๋๋ค. ๊ทธ๋ ๊ฒํด์ joint action ๊ฐ ์ ํ๋ฉ๋๋ค.
๊ฐ ์๋๋ผ๋ ๋ป์, ๋ด์ ํ๊ฒฝ์์ ์คํ๋ ์ ์๋ delegate action์ด ํฌํจ๋์ด ์๋ค๋ ๋ป์ ๋๋ค.
์ด ์๊ณ ๋ฆฌ์ฆ์์ ํ์ํ ์ ์ ๊ทธ๋ ๋ค๋ฉด ์ด๋ป๊ฒ groupping์ ํด์ b์ ๋ฃ์ด๋ ๊ฒ์ธ๊ฐ๊ฐ ์ค์ํด์ง๋๋ค.
policy์ ๋ํ marginality๋ฅผ ๊ตฌํ๊ธฐ ์ํด์ joint policy probability๋ ๋ค์๊ณผ ๊ฐ์ด ํํํ ์ ์์ต๋๋ค.
Paths๋ hierarchical controller๊ฐ ํ ์ ์๋ ๋ชจ๋ action์ ๋ํ ๊ฒฝ์ฐ๋ก, path๋ action selection์ ํตํด ์ป์ ๊ฐ๋ฅํ ๊ฒฐ๊ณผ๊ฐ์ค ํ๋์ ๋๋ค. ํ์ง๋ง agent๊ฐ ๋ง์์ง ์๋ก, ์ด path์ ๋ํ ๊ฐ์๋ exponentialํ๊ฒ ์ฆ๊ฐํฉ๋๋ค. ๋ํ joint probability๋ central state information์ด ํ์ํ๋ฐ, ์ด๋ ๋์ด์ decentralized ๋์๋ค๊ณ ํ ์ ์๊ฒ๋ฉ๋๋ค.
ํ์ง๋ง MACKRL์์๋ marginal probability๋ joint probability๋ฅผ ๋ฝ๋ probability๋ง ๊ตฌํ๋ฉด ๋๊ธฐ ๋๋ฌธ์ ์กฐ๊ธ ๋ ๊ณ์ฐ๋์ด ์ ์ต๋๋ค. ์ด๋ ๋ค์๊ณผ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๊ณ์ฐํ ์ ์์ต๋๋ค. ํ์ํ ์ค๋ช ์ ์ด๋ฏธ ๋ค ๋๋ฌ์ผ๋ฏ๋ก ์ฝ๊ฒ ์ดํดํ์ค ์ ์์ต๋๋ค.
ํ์ต์ actor-critic form์ผ๋ก ์งํ๋๋๋ฐ, centralized value๋ฅผ ์ฌ์ฉํ์ง๋ง MACKRL์ด joint action space์ ๋ํด correlated probability๋ฅผ ๊ณ์ฐํด์ผํ๊ธฐ ๋๋ฌธ์ COMA์ baseline์ ์ ์ฉ์ ํ์ง ๋ชปํ์ต๋๋ค.
gradient parameter ์ ๋ํด policy๋ ๋ค์์ ์์ผ๋ก update๊ฐ ์งํ๋ฉ๋๋ค.
ํ์ง๋ง ๋ง์์์ partition๊ณผ partition๋น ๊ทธ๋ฃน์ ๊ฐ์๋ ํ์ต์ ์ด๋ ต๊ฒ ํ๋ ์์ธ์ธ๋ฐ ๋ค์์ฅ์์ ์ด๋ฅผ ๋จ์ํํด ์ฝ๊ฒ ๋ค๋ฃฐ ์ ์๋ ๋ฐฉ๋ฒ์ ๋ํด ์ค๋ช ํฉ๋๋ค.