8.5.3 Exploitability of LOLA
Last updated
Last updated
์ด๋ฒ section์์๋ LOLA๋ฅผ 1์ฐจ๊ทผ์ฌ ๋ง๊ณ ์ข๋ ๋์ ์ฐจ์๋ก ๊ทผ์ฌํ๋ ๊ฒ์ ๋ํด ์์๋ด ๋๋ค. IPD์์ ์ ํํ expected discounted return์ ๊ณ์ฐํ ์ ์๋ ์ํฉ์ ๊ฐ์ ํ ๊ฒ์ธ๋ฐ, ์ด๋ Policy-gradient๋ฐฉ์์ ์ฌ์ฉํ ๋, ์ฐจ์๊ฐ ์ปค์ง์๋ก variance๊ฐ ์ปค์ง๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ํต์ ํ๊ธฐ ์ํจ์ ๋๋ค. ์ด๋ฅผ ๋ค์ ํ์ ๊ฐ์ 6๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ๋๋์ด ๋น๊ต๋ฅผ ํด๋ณด์์ต๋๋ค.
LOLA-Ex agent๋ LOLA-Ex์ ๋ง๋์ผ ๊ฐ์ฅ ๋์ return์ ๋ฐ๊ฒ๋์๊ณ , naive agent๋ค์ LOLA-Ex agent์ ๊ฐ์ด ํ๋ํ๋๋ก ๋ง๋ค์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ 2nd-order LOLA๋ LOLA-Ex์ ํจ๊ป ๊ทธ๋ฃน์ด ๋์์ ๋, ์ข์ ํจ๊ณผ๊ฐ ๋๊ธฐ๋ณด๋ค ์คํ๋ ค LOLA-Ex๋ผ๋ฆฌ์ ๊ทธ๋ฃน๋ณด๋ค ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด ์คํ์ด LOLA๋ผ๋ฆฌ์ ๊ทธ๋ฃน์ด ์ ๋์ ์ด๋ผ๋ ๊ฒ์ ์๋์ง๋ง gradient-based learning์ ํ ๋๋ ์ด๋ค ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ผ์ง ๋๋ต์ ์ผ๋ก ์ ์ ์์์ต๋๋ค.