3.3 Multi-Agent StarCraft Micromanagement
Last updated
Last updated
์ด๋ฒ section์์๋ COMA์์ ์ ์ํ StarCraft micromanagement problem์ ๋ํ ์ค๋ช ๊ณผ state์ ๋ํ ์ค๋ช ์ ํ ์์ ์ ๋๋ค.
์ฌ๊ธฐ์๋ ๊ฐ๊ฐ์ ์ ๋๋ค์ด ์ ๊ณผ ์ธ์ฐ๊ธฐ ์ํด ์ด๋ํ๋ ๊ฒ๊ณผ ๊ณต๊ฒฉ์ ๊ฐ decentralized agent์ action์ผ๋ก ์ ์ํฉ๋๋ค. ์ด ์คํ์์๋ ์ด๋ ๊ฒ 3๋3 , 5๋5 ๋ง๋ฆฐ์ , 5๋5 ์ง๋ฟ์ , 2๋๋ผ๊ตฐ 3 ์ง๋ฟ์ ์ ๋ํ ์คํ์ ์งํํ๊ณ , ์ด๋ ๋ฐ๋ํธ ์๋๋ starcraft๋ด์ heuristic rule based ai๋ฅผ ์๋ํฉ๋๋ค.
action์ผ๋ก๋ ๋ค์๊ณผ ๊ฐ์ discrete action set์ ๊ฐ์ง๋๋ค.
์ด๋(๋ฐฉํฅ์ผ๋ก ์ ์),
๊ณต๊ฒฉ(target ๋ณ ์ ์)
๋ฉ์ถค(stop)
์๋ฌด๊ฒ๋ ์ํจ(noop)
์ค์ ๊ฒ์์์๋ ์ ๋์ด ๊ณต๊ฒฉ์ ํ๊ธฐ ์ํด์ ์๋์ผ๋ก ๊ณต๊ฒฉ๊ฐ๋ฅํ ์ฌ๊ฑฐ๋ฆฌ๊น์ง ์ด๋ ํ ๊ณต๊ฒฉํ๋๋ฐ,(๊ฒ์ ๋ด ๋ง๋ค์ด์ง pathfinding route๋ฅผ ํตํด) ์ด๋ ๋ฌธ์ ๋ฅผ ์ข ๋ ์ฝ๊ฒ ๋ง๋ค์ด ์ค๋๋ค. ํ์ง๋ง ์ฌ๊ธฐ์ decentralized๋ฅผ ์ข๋ ์๋ฏธ์๊ฒ ํ๊ธฐ ์ํด, agent๋ณ(unit๋ณ) ์์ผ๋ฅผ ๊ณต๊ฒฉ๊ฐ๋ฅ๋ฒ์๋ก ์ ํํ์์ต๋๋ค. ๋๋ผ๊ตฐ์ ์์ผ๋ฒ์๋ฅผ ์๋ก ๋ํ๋ด์๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ด๋ฌํ decentralization๋ฅผ ํตํด ์๊ธฐ๋ ํน์ง์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
agent๋ค์ด ๋์ด์ fully observable state๋ฅผ ์ด์ฉํ ์ ์์ต๋๋ค.
agent๋ ์ค์ง ์ ์ด ๋ด ๊ณต๊ฒฉ๊ฐ๋ฅ ๋ฒ์ ๋ด์ ์์ ๋๋ง ๊ณต๊ฒฉํฉ๋๋ค.(์ฌ๊ธด ๋ฐ๋๋ก ์ฐ์ฌ์ ธ์๋ ๊ฒ ๊ฐ์๋ฐ, ์ด ๋ง์ด ๋ง๋ ๊ฒ ๊ฐ์ต๋๋ค.) ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๊ณต๊ฒฉ์ ์ํด ์ด๋ํด์ผํ๋ ๋ฑ์ built-in macro-action์ ์ฌ์ฉํ์ง ์์ต๋๋ค.
agent๋ ์ด๋ค ์ ์ด ์ฃฝ์๊ณ ์ด๋ค์ ์ด ๋ด ์์ผ์ ๋ฒ์ด๋ฌ๋์ง ์ธ์ํ์ง ๋ชปํฉ๋๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ด๋ action space์ invalid choice๋ฅผ ์ด๋ป๊ฒ ์ฒ๋ฆฌํ๋๋๊ฐ ๋ฌธ์ ๊ฐ ๋ ์ ์๋๋ฐ ์ด๋ noop์ผ๋ก ์ฒ๋ฆฌ๋ฉ๋๋ค.
์ด๋ ๊ฒ ์ข ๋ ์ด๋ ค์์ง ํ๊ฒฝ ๋๋ฌธ์ ์ฌ๊ธฐ์๋ ์ผ๋จ ์ ์ ์ ๋๋ง์ ๊ฐ์ง๊ณ ์คํํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ ์น๋ฅ ์ ์ป์์ต๋๋ค. ์ด๋ heuristic policy๋ agent๋ค์ ์ ์งํ๊ฒํ๊ณ ํ ์ ๋์ ํ๋ ฅ์ ์ง์คํด ์ฃฝ์ด๋ ๋ฐฉ์์ธ๋ฐ ๊ฝค ์ผ๋ฆฌ์๋ rule์์ ์ ์ ์์ต๋๋ค. 5๋5 ๋ง๋ฆฐ์ ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ full observation ์ํฉ์์ 98%์ ์น๋ฅ ์ ๋ณด์๋๋ฐ ์ด๋ Local observableํ๊ฒ ๋์์ ๋ 66%๊น์ง ๋จ์ด์ง๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. ์ด ์คํ์์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด์ agent๋ผ๋ฆฌ ์์น์ ์ ์ ์ํ๊ณ , ํ๋ ฅ์ ์ง์คํ ์ ์๊ณ , ์ ์ด ์ฃฝ์๊ฑด์ง ์์ผ๋ฐ์ผ๋ก๋๊ฐ๊ฑด์ง ๊ตฌ๋ณ์ ์ ํด๋ด์ผ ํ๋ ๋ฅ๋ ฅ์ด ํ์ํฉ๋๋ค.
ํ ๋ด์ ๋ชจ๋ agent๋ ๊ฐ์ global reward๋ฅผ ๋ฐ์ผ๋ฉฐ, ์๋๋ฐฉ์๊ฒ ๊ฐํ ๋ฐ๋ฏธ์ง๋งํผ +, ๋ฐ์ ๋ฐ๋ฏธ์ง์ ์ ๋ฐ๋งํผ -, ์ ์ ๋์ ์ฃฝ์์ ๋ +10, ์ด๊ฒผ์ ๋ ์ ์ฒด ํ ์๋์ง์ + 200์ ๋ฐ๊ฒ ๋ฉ๋๋ค.
actor์ critic์ด ๋ฐ๋ input features์ ๋ํ ์ค๋ช ์ ๋๋ค. agent์ critic์ด ๋ฐ๋ ์ ๋ณด๊ฐ ๋ค๋ฅธ๋ฐ, agent๊ฐ ๋ฐ๋ local observation์ผ๋ก๋ agent์ ์์ผ ๋ฐ๊ฒฝ๋ด์ ์ ๋์ ๋ํ ๊ฑฐ๋ฆฌ, ์๋์ ์ธ x,y, ์ ๋์ ํ์ ๊ณผ ์ค๋๋์ด ์๊ณ , ๋ชจ๋ normalized๋ฉ๋๋ค. ๋ํ ํ์ฌ agent๊ฐ ๊ณต๊ฒฉ ๋์์ผ๋ก ์ก์ ์ ๋์๋ํ ์ ๋ณด๋ ์๋ฌด๊ฒ๋ ๋ฐ์ง์์ต๋๋ค.
critic์ด ๋ฐ๋ global state๋ ๋ชจ๋ ์ ๋์ ๋งต์ ์ค์๊ณผ์ ๊ฑฐ๋ฆฌ, ๋ชจ๋ ์ ๋์ ์๋์ง ๋ฐ ๊ณต๊ฒฉ ์ฟจ๋ค์ด๋ฑ์ด ๋ค์ด๊ฐ๋๋ค. ๋ํ agent๋ค์ local observation๋ input์ผ๋ก ๋ฐ๋๋ฐ, ์ด๋ ๋ค๋ฅธ ์๋ก์ด ์ ๋ณด๋ ์์ง๋ง agent๋ผ๋ฆฌ์ ์๋์ ์ธ ๊ฑฐ๋ฆฌ๋ฑ์ ๋ํ ์ ๋ณด๋ฅผ (global state์์ ํํํ ๊ฒ๊ด)๋ค๋ฅด๊ฒ ํํํด์ ์ป๊ฒ๋ฉ๋๋ค.