5.5.3 Informative Trajectories
Last updated
Last updated
Recurrent network๋ฅผ ์ฌ์ฉํ ๋, 3๋3์ํฉ์์ XP๊ฐ XP+IS์ XP+FP์ผ๋ก ์ป์๋ ์ฐจ์ด๋ ์๊ฐ๋ณด๋ค ํฌ์ง ์์์ต๋๋ค. ์ด๋ observed trajectories๊ฐ ํ์ฉํ๊ธฐ ์ข์ ์ ๋ณด๋ฅผ ๊ฐ์ง๊ณ ์์๊ธฐ ๋๋ฌธ์ ๋๋ค.
(a)์ (b)๋ ํ์ต ์ด๊ธฐ์ agent๋ค์ ์์ง์๊ณผ ํ์ต ํ๊ธฐ์ agent์์ง์์ ๋ํ๋ธ ๊ฒ์ ๋๋ค. agent๋ ํ์ฌ ๋ง์ random action์ด ํํด์ง๋ ๊ฒ์ ๊ด์ฐฐํ๊ณ , ๊ทธ๊ฒ์ด ํ์ต ์ด๋ฐ์ ์จ ๊ฒ์์ ์ ์ ์๋๋ฐ ์ด๋, ์ถ๊ฐ์ ์ธ ์ ๋ณด์์ด๋ ์ด ํ์ต ์ด๋ฐ์ธ ๊ฒ์ ์ดํดํด๋ผ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ฅผ ์ค๋ช ํ๊ธฐ ์ํด ์๋์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด, (c)๋ ์ค์ง recurrent network๋ง ์ฌ์ฉํ๋๋ฐ๋ ์ ์์ธกํ๋๋ฐ ๊ฝค๋ ์ข์ ์์ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์์ ์ ์ ์์ต๋๋ค. ๋ฌผ๋ก FP๋ฅผ ์ฌ์ฉํ์๋ ๋์ฑ ์ ์์ธกํด๋์ง๋ง, ์ด๋ฅผ ํตํด Recurrent Network๊ฐ MARL์์ ์์ฃผ ์ฐ์ด๋์ด์ ๋ฅผ ์ ์ ์์์ต๋๋ค.