8.5.3 Exploitability of LOLA

์ด๋ฒˆ section์—์„œ๋Š” LOLA๋ฅผ 1์ฐจ๊ทผ์‚ฌ ๋ง๊ณ  ์ข€๋” ๋†’์€ ์ฐจ์ˆ˜๋กœ ๊ทผ์‚ฌํ•˜๋Š” ๊ฒƒ์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค. IPD์—์„œ ์ •ํ™•ํ•œ expected discounted return์„ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋Š” ์ƒํ™ฉ์„ ๊ฐ€์ •ํ•  ๊ฒƒ์ธ๋ฐ, ์ด๋Š” Policy-gradient๋ฐฉ์‹์„ ์‚ฌ์šฉํ•  ๋•Œ, ์ฐจ์ˆ˜๊ฐ€ ์ปค์งˆ์ˆ˜๋ก variance๊ฐ€ ์ปค์ง€๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฅผ ํ†ต์ œํ•˜๊ธฐ ์œ„ํ•จ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ๋‹ค์Œ ํ‘œ์™€ ๊ฐ™์€ 6๊ฐœ์˜ ๊ทธ๋ฃน์œผ๋กœ ๋‚˜๋ˆ„์–ด ๋น„๊ต๋ฅผ ํ•ด๋ณด์•˜์Šต๋‹ˆ๋‹ค.

LOLA-Ex agent๋Š” LOLA-Ex์™€ ๋งŒ๋‚˜์•ผ ๊ฐ€์žฅ ๋†’์€ return์„ ๋ฐ›๊ฒŒ๋˜์—ˆ๊ณ , naive agent๋“ค์„ LOLA-Ex agent์™€ ๊ฐ™์ด ํ–‰๋™ํ•˜๋„๋ก ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  2nd-order LOLA๋Š” LOLA-Ex์™€ ํ•จ๊ป˜ ๊ทธ๋ฃน์ด ๋˜์—ˆ์„ ๋•Œ, ์ข‹์€ ํšจ๊ณผ๊ฐ€ ๋‚˜๊ธฐ๋ณด๋‹ค ์˜คํžˆ๋ ค LOLA-Ex๋ผ๋ฆฌ์˜ ๊ทธ๋ฃน๋ณด๋‹ค ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด ์‹คํ—˜์ด LOLA๋ผ๋ฆฌ์˜ ๊ทธ๋ฃน์ด ์ ˆ๋Œ€์ ์ด๋ผ๋Š” ๊ฒƒ์€ ์•„๋‹ˆ์ง€๋งŒ gradient-based learning์„ ํ•  ๋•Œ๋„ ์–ด๋–ค ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ผ์ง€ ๋Œ€๋žต์ ์œผ๋กœ ์•Œ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

Last updated