5.5.2 Fingerprints
Last updated
Last updated
์ฌ๊ธฐ์ exploration rate์ episode ๋ฅผ finger-print๋ก ์ฌ์ฉํ ์คํ์ ๋ณด์ด๋๋ฐ, XP+FPํ ๊ฒฐ๊ณผ๊ฐ ๊ทธ๋ํ์์๋ ํ์คํ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.์ด๋ finger-print๊ฐ ๋ค๋ฅธ agent์ policy์ ๋ํ ์ ๋นํ ์งํ๋ฅผ ์ ๋ฌํด ์ฃผ์์์ ์๋ฏธํฉ๋๋ค. network๋ ์ฌ์ ํ ๋ค์ํ input state๋ฅผ ๋ณด์ง๋ง, finger-print๋ก ์ธํด ์๋ ค์ง training์ ์ด๋ ์ํ์ธ์ง์ ๋ง๊ฒ ์ mappingํด ๋ด๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
XP+IS+FP์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด agent์ ์ฑ๋ฅ์ด ๋ ๋์์ง์ง ์์๋๋ฐ, ์ด๋ ๋๋ค ๊ฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ค ํ๊ธฐ ๋๋ฌธ์, ๋ ์ฑ๋ฅ์ด ๋์์ง์ง ์์๋ค๋ ๊ฒ์ ๋์ด ๋น์ทํ ์ญํ ์ ํ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
๋ค์ ๊ทธ๋ฆผ์์๋ episode์๋ฐ๋ฅธ ์ ๊ฐ์์ ๊ทธ์ ๋ฐ๋ฅธ value function์ ๋ํ๋ ๋๋ค.
์ด๋ ํ์ต์ด ์งํ๋ ์๋ก, ๊ฐ์ state๋ผ๋ ๊ฐ ์์ ๋ ๋์ value function์ ๊ฐ์ก๋๋ฐ ์ด๋ ๋ค๋ฅธ agent์ policies์ ๋ง๋ ์ต์ ์ ๋ฐ์์ ํ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.