5.1 Introduction
Chapter 3,4๋ฅผ ํตํด on-policy MARL์ ๋ํด ๋ฐฐ์๋ณด์์ต๋๋ค. ํ์ง๋ง RL์์ฒด์์ ํด๊ฒฐํด์ผํ๋ ํ์ฐ์ ์ธ ๋ฌธ์ ์ค ํ๋๋ Sample efficiency์ ๋๋ค. ์ด ๋, on-policy๋ ํ์ฐ์ ์ผ๋ก ๊ฐ์ ๋ฐ์ดํฐ์ ๋ํด ์ฌ๋ฌ๋ฒ ํ์ตํ๊ฑฐ๋, ์ฌ๋ฌ๊ฐ์ง policy๋ก ๋ถํฐ ๋ฐฐ์ธ ์ ์๋ off-policy๋ณด๋ค Sample-efficiency๊ฐ ๋ฎ์ ์ ๋ฐ์ ์๊ณ ์ด๋ MARL์์์ off-policy๋ฅผ ํ์ฉํ๋ ๋ฐฉ๋ฉด์ผ๋ก ์ฐ๊ตฌ๋ฅผ ์ผ์ผํฌ ์๋ฐ์ ์์์ต๋๋ค.
off-policy์ ๋ํ์ ์ธ algorithm์ธ DQN์ MARL์ ๋ํ ์ ์ฉ์ IQL์ ๋๋ค. ์ด ๋, ํ๊ฒฝ์ ์กด์ฌํ๋ ๋ค๋ฅธ agent๋ค์ ๋ชจ๋ ์ ์ ์ธ ์กด์ฌ๋ก ์ทจ๊ธํด ํด๊ฒฐ์ ํ๊ธฐ ๋๋ฌธ์, ์๋ ด์ ๋ณด์ฅํ ์๊ฐ ์์ต๋๋ค. ํ์ง๋ง ๋คํํ๋ ์ค์ ์ ์ผ๋ก ๋ช๊ฐ์ ์คํ์ ๋ํด์๋ IQL์ด ๊ฝค ๊ด์ฐฎ์ ์ฑ๋ฅ์ ๋ณด์์ ๋ณด์์ต๋๋ค.
RL์์์ ํฐ ๋ฐ์ ์ ์ด๋์๋ ์์์ค ํ๋์ Replay memory๋ฅผ ๋นผ๋์ ์ ์๋๋ฐ, ์ด๋ data๋ฅผ iid๋ก ๋ง๋ค์ด Neural Network์ ํ์ต์์ ์ฑ์ ๋์์ ์ค ๋ฟ๋ง ์๋๋ผ efficiency๋ ๋์ฌ์ค๋๋ค. ํ์ง๋ง ์ด๋ฌํ Replay Memory๋ IQL์ ์ ์ฉํ๊ธฐ์๋ ๋ฌธ์ ์ ์ด ์์ต๋๋ค. MARL์ํฉ์์์ Replay Memory๋ด์ data๋ค์ ํ์ฌํ๊ฒฝ์ dynamic์ ํํํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๋ค๋ฅธ agent๋ค์ ์ํด non-stationaryํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๊ทธ๋ฌ๋ IQL์ ๋ณด๋ฉด ์ ์ง์ ์ผ๋ก ์ด๋ป๊ฒ๋ ๋ฐฐ์ฐ๋ ๊ฒฝํฅ์ ์์ผ๋, non-stationaryํ data๋ฅผ ๊ณ์ samplingํด ๊ทธ๋ฅ ์ ๋ฐ์ดํธํ๋ ํ์๋ ๊ฒฐ๊ณผ์ ์ผ๋ก agent์ ํ์ต์ ํฐ ์ฅ์ ๋ฌผ์ด ์๋ ์ ์์ต๋๋ค.
์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ์ด์ ์ Replay Memory ํฌ๊ธฐ๋ฅผ ์๊ฒ ์ ์งํด ์ต๊ทผ์ ๋ฐ์ดํฐ๋ง ์ฌ์ฉํ๋๋ฑ sample efficiency๋ฅผ ๋ฎ์ถ๊ณ , ๊ทผ๋ณธ์ ์ผ๋ก MARL์ stability๋ฅผ ์ ์งํ๋ฉฐ ํ์ตํ ์ ์๋ ๋ฐฉ๋ฒ์ ๋ํด์๋ ์ค๋ช ํ์ง ๋ชปํ์ต๋๋ค. ๊ฒฐ๊ตญ IQL์์์ Replay Memory ์ ์ฉ์ ์ด๋ป๊ฒ ์ํฌ์ง๊ฐ ๋ ํด๊ฒฐํด์ผํ ์ด๋ ค์ด ๋ฌธ์ ๋ก ๋จ๊ฒ๋์์ต๋๋ค.
์ด chapter์์๋ Replay Memory๋ฅผ MARL์ ์ ์ฉํ ์ ์๋ ๋๊ฐ์ง ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
์ฒซ์งธ๋ก, Replay Memory๋ด์ data๋ฅผ off-environment data๋ก ์ทจ๊ธํ๋ ๊ฒ์ ๋๋ค. off policy์์๋ policy์ ์ํด ๋ฑ์ฅํ๋ state distribution์ ์ฐจ์ด ๋๋ฌธ์ Importance Sampling์ ์ฌ์ฉํ๋ค๋ฉด, ์ด๋ฒ์๋ agent ์ ์ฅ์์์ ๋ค๋ฅธ agent๋ค์ joint action์ ๋ํด distribution์ด ๋ฌ๋ผ์ ธ ๊ทธ์ ๋ํ Importance Sampling์ ์งํํฉ๋๋ค.
๋์งธ๋ก, Hyper Q-learning์ ์ํด ์๊ฐ์ ๋ฐ์ ์ ๊ทผ๋ฒ์ ์๊ฐํ๋๋ฐ, ์ด๋ ๊ฐ agent๊ฐ ๋ค๋ฅธ agent์ policy๋ค์ ๊ด์ฐฐํ๋ฉฐ ์ถ์ ํ์ฌ non-stationary๋ฅผ ํผํฉ๋๋ค. ๋ฐ๋ฉด์ Q-function์ space๊ฐ ์ปค์ง ๋ ์ด๋ฅผ ๊ฐ๋นํ ์ ์๋๋ฐ, ์ฌ๊ธฐ์๋ ์์ ์ฐจ์์ fingerprint๋ฅผ ํตํด ์ด์ ์ ํ๊ณ๋ฅผ ํด๊ฒฐํฉ๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ๋ํด Starcraft unit micromanagement ํ๊ฒฝ์์ ์ฑ๊ณต์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
Last updated