8.4.3 Training Details
Gradient-based NL๊ณผ LOLA์ ํ์ตํ ๋์, actor-critic method๋ฅผ ์ ์ฉํ์์ต๋๋ค.
ํ์ต ์ค๊ฐ์๋ learning rate ฮด๋ฅผ actorsํ์ตํ ๋ 0.005, critic์ 1์ ์ฌ์ฉํ๋ค๊ณ ํ๋๋ฐ, td error๋ก updateํ๋ฏ๋ก ๋น์ฐํ 1์ ์ฃผ๋๊ฒ ๋ง๋ค๊ณ ์๊ฐํ์ต๋๋ค.
discount rate ฮณ๋ IPD์ Coin Game์์ 0.96, matching pennies์์ 0.9๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
์ด ๋, IPD์ Coin Game์์ ์ฌ์ฉํ ๋์ ฮณ๊ฐ์ ๊ธด time-step์ ๋ํ reward signal์ ๋ฐ์ ์ ์๊ฒ ํ๊ธฐ ์ํจ์ ๋๋ค.
IMP์์ ๋ฎ์ ฮณ๊ฐ์ด ํ์ต์ ์ข ๋ ์์ ์ฑ์๊ฒ ๋ง๋ค์์ต๋๋ค.
๋ฆฌ๊ทธ์ ์ ์ํด baseline algorithm๊ณผ parameter๋ค์ ์์ธํ๊ฒ๋ ๋ณธ๋ฌธ์ ํ์ธํ์๋ฉด ํธํฉ๋๋ค. ๋ฆฌ๊ทธ์ ์ ๋ชจ๋ agent๊ฐ 1000 ์ํผ์๋์ฉ 200step์ ์งํํ์์ต๋๋ค.
Last updated