9.3.2 Higher Order Surrogate Losses

Schulman은 1차 미분에만 집중했고 높은 차수의 미분에 대해 할수있다만 제시했었습니다. 또한 cost와 parameter간의 의존성을 끊어서 높은 차수의 미분이 좀더 간단해졌습니다.

다음 보겠습니다. single parameter θ\theta에 대해 sampling distribution은 p(x;θ)p(x;\theta)로 정의되고 objective는 f(x,θ)f(x,\theta)입니다.

SL(L)=logp(x;θ)f^(x)+f(x;θ) SL(\mathcal{L}) = \log p(x;\theta)\hat{f}(x) + f(x;\theta)

(θL)SL=Ex[θSL(L)]( \nabla_\theta\mathcal{L})_\mathrm{SL}= \mathbb{E}_x[\nabla_\theta\mathrm{SL}(\mathcal{L})]

=Ex[f^(x)θlogp(x;θ)+θf(x;θ)] = \mathbb{E}_x[\hat{f}(x)\nabla_{\theta}\log p(x;\theta) + \nabla_\theta f(x;\theta)]

=Ex[gSL(x;θ)] = \mathbb{E}_x[g_\mathrm{SL}(x;\theta)]

이 때, 9.3.1에서 본 아래의 수식과 첫번째 term의 의존성이 다른 것을 볼 수 있습니다.

E[f(x;θ)θlogp(x;θ)+θf(x;θ))](9.3.1)\mathbb{E}[f(x;\theta)\nabla_{\theta}\log{p(x;\theta)}+\nabla_{\theta}f(x;\theta))] \cdots(9.3.1)

이는 같이 같은 1차 gradient를 근사하더라도 함수간의 의존성이 부족한 것은 정확한 2차 미분과의 괴리를 만들어 낼 수 있습니다.

SL(gSL(x;θ))=logp(x;θ)g^SL(x)+gSL(x;θ) SL(g_{\mathrm{SL}}(x;\theta)) = \log p(x;\theta)\hat{g}_{\mathrm{SL}}(x) + g_{\mathrm{SL}}(x;\theta)

(θ2L)SL=Ex[θSL(gSL)]( \nabla^2_\theta\mathcal{L})_\mathrm{SL} = \mathbb{E}_x[\nabla_\theta\mathrm{SL}(g_{\mathrm{SL}})]

=Ex[g^SL(x)θlogp(x;θ)+θg(x;θ)] = \mathbb{E}_x [\hat{g}_{\mathrm{SL}}(x)\nabla_\theta\log p(x;\theta) + \nabla_{\theta}g(x;\theta)]

gSL(x;θ)g_{\mathrm{SL}}(x;\theta)g(x;θ)g(x;\theta)θ\theta에 의존성에 관한 조그만 차이가 있을 뿐입니다. 그래서 이 때 지금의 값은 같습니다. 하지만 미분을 더 진행할 때, 이는 큰 차이가 드러납니다.

θg(x;θ)=θf(x;θ)θlog(p(x;θ))+f(x;θ)θ2log(p(x;θ))+θ2f(x;θ) \nabla_{\theta}g(x;\theta) = \nabla_{\theta}f(x;\theta)\nabla_{\theta}\log(p(x;\theta)) + f(x;\theta)\nabla^2_\theta \log(p(x;\theta)) + \nabla^2_\theta f(x;\theta)

θgSL(x;θ)=f^(x)θ2log(p(x;θ))+θ2f(x;θ) \nabla_\theta g_{\mathrm{SL}}(x;\theta) = \hat{f}(x)\nabla^2_\theta\log(p(x;\theta))+\nabla^2_\theta f(x;\theta)

아래 gSLg_\mathrm{SL}에 관한 식에선 f(x;θ)θ2log(p(x;θ)) f(x;\theta)\nabla^2_\theta \log(p(x;\theta))term을 잃어버리게 됩니다. 하지만 앞에서도 말했듯이 gg또한 수렴하지 않는다는 것이 Finn의 연구에서 밝혀졌습니다.

Last updated

Was this helpful?