8.4.3 Training Details
Gradient-based NL๊ณผ LOLA์ ํ์ตํ ๋์, actor-critic method๋ฅผ ์ ์ฉํ์์ต๋๋ค.
ํ์ต ์ค๊ฐ์๋ learning rate ๋ฅผ actorsํ์ตํ ๋ 0.005, critic์ 1์ ์ฌ์ฉํ๋ค๊ณ ํ๋๋ฐ, td error๋ก updateํ๋ฏ๋ก ๋น์ฐํ 1์ ์ฃผ๋๊ฒ ๋ง๋ค๊ณ ์๊ฐํ์ต๋๋ค.
discount rate ๋ IPD์ Coin Game์์ 0.96, matching pennies์์ 0.9๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
์ด ๋, IPD์ Coin Game์์ ์ฌ์ฉํ ๋์ ๊ฐ์ ๊ธด time-step์ ๋ํ reward signal์ ๋ฐ์ ์ ์๊ฒ ํ๊ธฐ ์ํจ์ ๋๋ค.
IMP์์ ๋ฎ์ ๊ฐ์ด ํ์ต์ ์ข ๋ ์์ ์ฑ์๊ฒ ๋ง๋ค์์ต๋๋ค.
๋ฆฌ๊ทธ์ ์ ์ํด baseline algorithm๊ณผ parameter๋ค์ ์์ธํ๊ฒ๋ ๋ณธ๋ฌธ์ ํ์ธํ์๋ฉด ํธํฉ๋๋ค. ๋ฆฌ๊ทธ์ ์ ๋ชจ๋ agent๊ฐ 1000 ์ํผ์๋์ฉ 200step์ ์งํํ์์ต๋๋ค.
Last updated