2.6 Centralized Training, Decentralized Execution

agent๊ฐ€ centralized training์ค‘์—๋Š” local observation๋ฟ๋งŒ์ด ์•„๋‹Œ ์ถ”๊ฐ€์ ์ธ ์ •๋ณด๋ฅผ ๋ฐ›์œผ๋ฉฐ, ํ•™์Šต์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋’ค ๋งˆ์ง€๋ง‰์—๋งŒ agent์˜ policy๊ฐ€ ์ด๋Ÿฐ ์ถ”๊ฐ€์ ์ธ ์ •๋ณด์— ์˜์กดํ•˜์ง€ ์•Š์œผ๋ฉด ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ทธ๋ ‡์ง€ ์•Š์€ ๊ฒƒ๋ณด๋‹ค ๊ต‰์žฅํžˆ ํšจ์œจ์ ์ธ ํ•™์Šต์„ ๋ณด์ด๋Š”๋ฐ, ์ด๋ฏธ Dec-POMDP์ƒํ™ฉ์—์„  ํ‘œ์ค€์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๋ฐฉ๋ฒ•๋“ค์ž…๋‹ˆ๋‹ค. ์‹ฌ์ง€์–ด general-sum์ƒํ™ฉ์—์„œ๋„ ์ด๋Ÿฐ ํ•™์Šต๋ฐฉ๋ฒ•์ด ์œ ํšจํ•œ๋ฐ, ๊ฒฐ๊ตญ ํ•™์Šต์ด ๋๋‚œ ์ดํ›„์—๋Š” ๋‹ค๋ฅธ agent์˜ ์ „๋žต๋“ฑ์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์–ป์ง€ ์•Š์•„๋„ ๋˜๋Š” ์ƒํƒœ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

Last updated