Schulman은 1차 미분에만 집중했고 높은 차수의 미분에 대해 할수있다만 제시했었습니다. 또한 cost와 parameter간의 의존성을 끊어서 높은 차수의 미분이 좀더 간단해졌습니다.
다음 보겠습니다. single parameter θ에 대해 sampling distribution은 p(x;θ)로 정의되고 objective는 f(x,θ)입니다.
SL(L)=logp(x;θ)f^(x)+f(x;θ)
(∇θL)SL=Ex[∇θSL(L)]
=Ex[f^(x)∇θlogp(x;θ)+∇θf(x;θ)]
=Ex[gSL(x;θ)]
이 때, 9.3.1에서 본 아래의 수식과 첫번째 term의 의존성이 다른 것을 볼 수 있습니다.
E[f(x;θ)∇θlogp(x;θ)+∇θf(x;θ))]⋯(9.3.1)
이는 같이 같은 1차 gradient를 근사하더라도 함수간의 의존성이 부족한 것은 정확한 2차 미분과의 괴리를 만들어 낼 수 있습니다.
SL(gSL(x;θ))=logp(x;θ)g^SL(x)+gSL(x;θ)
(∇θ2L)SL=Ex[∇θSL(gSL)]
=Ex[g^SL(x)∇θlogp(x;θ)+∇θg(x;θ)]
gSL(x;θ)는 g(x;θ)와 θ에 의존성에 관한 조그만 차이가 있을 뿐입니다. 그래서 이 때 지금의 값은 같습니다. 하지만 미분을 더 진행할 때, 이는 큰 차이가 드러납니다.
∇θg(x;θ)=∇θf(x;θ)∇θlog(p(x;θ))+f(x;θ)∇θ2log(p(x;θ))+∇θ2f(x;θ)
∇θgSL(x;θ)=f^(x)∇θ2log(p(x;θ))+∇θ2f(x;θ)
아래 gSL에 관한 식에선 f(x;θ)∇θ2log(p(x;θ))term을 잃어버리게 됩니다. 하지만 앞에서도 말했듯이 g또한 수렴하지 않는다는 것이 Finn의 연구에서 밝혀졌습니다.