5.5.3 Informative Trajectories

Recurrent network๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ, 3๋Œ€3์ƒํ™ฉ์—์„œ XP๊ฐ€ XP+IS์™€ XP+FP์œผ๋กœ ์–ป์—ˆ๋˜ ์ฐจ์ด๋Š” ์ƒ๊ฐ๋ณด๋‹ค ํฌ์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ์ด๋Š” observed trajectories๊ฐ€ ํ™œ์šฉํ•˜๊ธฐ ์ข‹์€ ์ •๋ณด๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

(a)์™€ (b)๋Š” ํ•™์Šต ์ดˆ๊ธฐ์˜ agent๋“ค์˜ ์›€์ง์ž„๊ณผ ํ•™์Šต ํ›„๊ธฐ์˜ agent์›€์ง์ž„์„ ๋‚˜ํƒ€๋‚ธ ๊ฒƒ์ž…๋‹ˆ๋‹ค. agent๋Š” ํ˜„์žฌ ๋งŽ์€ random action์ด ํ–‰ํ•ด์ง€๋Š” ๊ฒƒ์„ ๊ด€์ฐฐํ•˜๊ณ , ๊ทธ๊ฒƒ์ด ํ•™์Šต ์ดˆ๋ฐ˜์— ์˜จ ๊ฒƒ์ž„์„ ์•Œ ์ˆ˜ ์žˆ๋Š”๋ฐ ์ด๋Š”, ์ถ”๊ฐ€์ ์ธ ์ •๋ณด์—†์ด๋„ ์ด ํ•™์Šต ์ดˆ๋ฐ˜์ธ ๊ฒƒ์„ ์ดํ•ดํ•ด๋‚ผ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•ด ์•„๋ž˜์˜ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด, (c)๋Š” ์˜ค์ง recurrent network๋งŒ ์‚ฌ์šฉํ–ˆ๋Š”๋ฐ๋„ ฯต\epsilon์„ ์˜ˆ์ธกํ•˜๋Š”๋ฐ ๊ฝค๋‚˜ ์ข‹์€ ์–‘์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋ณด์ž„์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฌผ๋ก  FP๋ฅผ ์‚ฌ์šฉํ–ˆ์„๋•Œ ๋”์šฑ ์ž˜ ์˜ˆ์ธกํ•ด๋ƒˆ์ง€๋งŒ, ์ด๋ฅผ ํ†ตํ•ด Recurrent Network๊ฐ€ MARL์—์„œ ์ž์ฃผ ์“ฐ์ด๋Š”์ด์œ ๋ฅผ ์•Œ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

Last updated