이번 section에서는 g=Eπ[∑a∇θlogπa(ua∣τa)Aa(s,u)]=0임을 증명해볼 예정입니다. bbaseline으로 사용하기 위해서 unbiased함을 보여야하므로 꼭 짚고넘어가는 것이 좋습니다.
이 g는 다음과 같이 정의 가능합니다.
g = \mathbb{E}_\bm{\pi}[\sum _a{\nabla{\theta}\log{\pi^a(u^a|\tau^a)A^a(s,\bold{u})}}]
Aa(s,u)=Q(s,u)−b(s,u−a)
그렇다면, baseline b에 대한 g는 g_b = -\mathbb{E}_\bm{\pi}[\sum _a{\nabla{\theta}\log{\pi^a(u^a|\tau^a)b^a(s,\bold{u^{-a}})}}]로 나타낼 수 있습니다. 이는 state distribution이 ergodic하다면, stationary distribution d를 사용해 summation form으로 다음과 같이 나타낼 수 있습니다.
g_b = -\mathbb{E}_\bm{\pi}[\sum _a{\nabla{\theta}\log{\pi^a(u^a|\tau^a)b^a(s,\bold{u^{-a}})}}]
=−∑sdπ(s)∑a∑uπ(u∣τ)∇θlogπa(ua∣τa)ba(s,u−a)
=−∑sdπ(s)∑a∑u−aπ(u−a∣τ−a)∑uaπa(ua∣τa)∇θlogπa(ua∣τa)ba(s,u−a)
(∵π(u∣τ)=∏a′∈aπa′(ua′∣τa′))
=−∑sdπ(s)∑a∑u−aπ(u−a∣τ−a)∑ua∇πa(ua∣τa)ba(s,u−a)
=−∑sdπ(s)∑a∑u−aπ(u−a∣τ−a)ba(s,u−a)∇1
=0