μ΄λ² sectionμμλ g=EΟβ[βaββΞΈβlogΟa(uaβ£Οa)Aa(s,u)]=0μμ μ¦λͺ
ν΄λ³Ό μμ μ
λλ€. bbaselineμΌλ‘ μ¬μ©νκΈ° μν΄μ unbiasedν¨μ 보μ¬μΌνλ―λ‘ κΌ μ§κ³ λμ΄κ°λ κ²μ΄ μ’μ΅λλ€.
μ΄ gλ λ€μκ³Ό κ°μ΄ μ μ κ°λ₯ν©λλ€.
g = \mathbb{E}_\bm{\pi}[\sum _a{\nabla{\theta}\log{\pi^a(u^a|\tau^a)A^a(s,\bold{u})}}]
Aa(s,u)=Q(s,u)βb(s,uβa)
κ·Έλ λ€λ©΄, baseline bμ λν gλ g_b = -\mathbb{E}_\bm{\pi}[\sum _a{\nabla{\theta}\log{\pi^a(u^a|\tau^a)b^a(s,\bold{u^{-a}})}}]λ‘ λνλΌ μ μμ΅λλ€. μ΄λ state distributionμ΄ ergodicνλ€λ©΄, stationary distribution dλ₯Ό μ¬μ©ν΄ summation formμΌλ‘ λ€μκ³Ό κ°μ΄ λνλΌ μ μμ΅λλ€.
g_b = -\mathbb{E}_\bm{\pi}[\sum _a{\nabla{\theta}\log{\pi^a(u^a|\tau^a)b^a(s,\bold{u^{-a}})}}]
=ββsβdΟ(s)βaββuβΟ(uβ£Ο)βΞΈlogΟa(uaβ£Οa)ba(s,uβa)
=ββsβdΟ(s)βaββuβaβΟ(uβaβ£Οβa)βuaβΟa(uaβ£Οa)βΞΈlogΟa(uaβ£Οa)ba(s,uβa)
(β΅Ο(uβ£Ο)=βaβ²βaβΟaβ²(uaβ²β£Οaβ²))
=ββsβdΟ(s)βaββuβaβΟ(uβaβ£Οβa)βuaββΟa(uaβ£Οa)ba(s,uβa)
=ββsβdΟ(s)βaββuβaβΟ(uβaβ£Οβa)ba(s,uβa)β1
=0