random variable x가 p(x;θ)의 분포를 따른때 다음과 같이 표현합니다. x∼p(x;θ)
그리고 f는 x에 의한 함수일 때, ∇θEx[f(x)]를 계산해 보겠습니다. 이 때, ∇θf analytical gradients는 구할 수 없거나 존재하지 않을 때, 다음과 같은 score function estimator를 유도할 수 있습니다.
∇θEx[f(x)]=Ex[f(x)∇θlog(p(x;θ))]
그 이후의 내용은 기본 아이디어를 따온 다음 Gradient Estimation Using Stochastic Computation Graph를 읽으시면 도움이 될 수 있습니다.
만약 x가 θ의 값에 deterministic function이고, 다른 random variable z로 이루어진다면 이는 x(z,θ)로 표현가능하고, 모든 z에 대해 θ의 연속 함수일 때 필요충분조건으로 다음이 성립합니다.
∇θEz[f(x(z,θ)]=Ez[∇θf(x(z,θ))]
이는 다음과 같이 나타낼 수 있습니다.
∂θ∂Ez∼p(⋅;θ)[f(x(z,θ))]=∂θ∂∫p(⋅;θ)f(x(z,θ))dz
=∫∂θ∂p(⋅;θ)f(x(z,θ))+p(⋅;θ)∂θ∂f(x(z,θ))dz
=∫∂θ∂p(⋅;θ)f(x(z,θ))+p(⋅;θ)∂θ∂f(x(z,θ))dz
=Ez∼p(⋅;θ)[(∂θ∂logp(z;θ))f(x(z,θ))+∂θ∂f(x(z,θ))]
이러한 테크닉은 뒤에서 계속 사용되는 테크닉이므로 보고가면 좋습니다.