μ΄ sectionμμλ IQLμ non-stationarity λ¬Έμ λ₯Ό importance sampling κΈ°λ²μ μ¬μ©νμ¬ ν΄κ²°νλ κ²μ 보μ
λλ€. λ³΄ν΅ RLμμ agentκ° off-policyλ₯Ό λ°°μ°κΈ° μν΄ target policyκ° λ§λ λΆν¬μ λͺ¨μ λ°μ΄ν°μ λΆν¬κ° λ€λ₯Όλ Importance samplingμ μ§νν©λλ€. μ΄λ° λ°©μμ μμ©ν΄, νμ¬ νκ²½μμ λ§λ€ λΆν¬μ λͺ¨μ λ€λ₯Ένκ²½μμμ λΆν¬μ μ°¨μ΄λ₯Ό importance samplingμ ν΅ν΄ ν΄κ²°ν μ μλ€λ κ²μ΄ off-environmentμ κΈ°λ³Έ μμ΄λμ΄μ
λλ€. μ°λ¦¬λ κ° νμ΅ν λλ§λ€ λ€λ₯Έ agentλ€μ policiesκ° λ°λμ΄ νκ²½ λΆν¬κ° λ°λ κ²μ μκ³ μμ΅λλ€. κ·Έλ¬λ―λ‘ off-environmentλ₯Ό μ΄μ©νμ¬ μ΄ λ¬Έμ λ₯Ό ν΄κ²°ν μ μμ΅λλ€.
In Fully-observable MARL environment
Q-functionμ΄ μ€μ state sλ₯Ό λ³Ό μ μλ€λ©΄, μ£Όμ΄μ§ λ€λ₯Έ agentμ policyμ λν΄ ν agentμ Bellman optimality equationμ λ€μκ³Ό κ°μ΄ μΈ μ μμ΅λλ€.
Qaββ(s,uaβ£Οβa)=βuβaβΟβa(uβaβ£s)[r(s,ua,uβa)+Ξ³βsβ²βP(sβ²β£s,ua,uβa)maxuβ²aβQaββ(sβ²,uβ²a)β]
μ΄ λ, μκ°μ΄ μ§λ¨μ λ°λΌ, agentμ policyκ° λ³νλ―λ‘ μ΄λ₯Ό κΈ°λ‘νκΈ° μν μκ°μ λ£μ tupleμ λ§λ€λ©΄ λ€μκ³Ό κ°μ΄ νκΈ° κ°λ₯ν©λλ€.
<s,uar,Ο(uβaβ£s),sβ²>(tcβ)
κ·Έλ λ€λ©΄ lossλ replay time trβμ λν΄ λ€μκ³Ό κ°μ΄ ꡬν μ μμ΅λλ€.
L(ΞΈ)=βi=1bβΟtiββaβ(uβaβ£s)Οtrββaβ(uβaβ£s)β[(yiDQNββQ(s,u;ΞΈ))2]
In Partially-observable MARL environment
partially observableμν©μμλ action-observation historiesκ° agentμ policiesλΏλ§μλλΌ, transitionκ³Ό observation functionκ³Όλ μ°κ΄λμ΄ μκΈ° λλ¬Έμ μ’λ μμ΄ λ³΅μ‘ν΄μ§λλ€. μ΄λ₯Ό μ μνκΈ° μν΄μ μ΄μ μ μ μλ€μ νμ₯ν΄λ³΄κ² μ΅λλ€.
state spaces^={s,Οβa}βS^=SΓTnβ1μ΄λ λ€λ₯Έ agentλ€μ μ΄μ historyλ₯Ό ν¬ν¨νμ¬ μ μλ©λλ€. κ·Έλ¦¬κ³ , κ·Έμ μμνλ observation function O^(s^,a)=O(s,a)μ
λλ€. reward functionμ r^(s^,u)=βuβaβΟβa(uβaβ£Οβa)r(s,u)λ‘ joint actionμ λν΄ μ μλ©λλ€. λ§μ§λ§μΌλ‘ transition probability function P^λ₯Ό μ μνλ©΄,
P^(s^β²β£s^,u)=P(sβ²,Οβ²β£s,Ο,u)=βuβaβΟβa(uβaβ£Οβa)P(sβ²β£s,u)P(Οβ²βaβ£Οβa,uβa,sβ²)
λ‘ μ μν μ μμ΅λλ€. λ°λ μ μλ₯Ό κ°μ§κ³ λ€μ Bellman Equationλ₯Ό λνλ΄λ³΄κ² μ΅λλ€.
Q(Ο,u)=βs^βp(s^β£Ο)[r^(s^,u)+Ξ³βΟβ²,s^β²,uβ²βP^(s^β²β£s^,u)Ο(uβ²,Οβ²)p(Οβ²β£Ο,s^β²,u)Q(Οβ²,uβ²)]
λ€μκ³Ό κ°μ΄ action-observation histories Ομ λ°λ₯Έ state s^λ‘ κ°νλ₯ μ λ°λ₯Έ κ°μΌλ‘ λνλ©λλ€. μ΄λ μλ³μ βuβaβΟβa(uβaβ£Οβa) λ₯Ό κ³±ν΄μ£Όλ©΄, μ μλ€μ μν΄ λ€μ μ²λΌ μ μ κ°λ₯ν©λλ€.
Qaββ(s,uaβ£Οβa)=βsβp(s^β£Ο)βuβaβΟβa(uβaβ£Οβa)[r(s,u)+Ξ³βrβ²,s^β²,uβ²βP(sβ²β£s,u)p(Οβ²βaβ£Ο,uβa,sβ²)Ο(uβ²,Οβ²)p(Οβ²β£Ο,s^β²,u)Q(Οβ²,uβ²)μ΄ λ, μ΄μ μ Οβa(uβaβ£s)μ΄μμ§λ§ μ΄λ²μ Οβa(uβaβ£Οβa)μ μμ‘΄νκΈ° λλ¬Έμ importance weights Οtiββa(uβaβ£s)Οβatrβ(uβaβ£s)βλ κ·Όμ¬κ°μΌλ‘ ꡬν΄μ§μ μ μ μμ΅λλ€.