9.4.4 Hessian-Vector Product

Hessian-vector vTHv^TH는 많은 알고리즘에서 유용하게 사용하는 값중 하나입니다. DiCE를 사용하면, vTHv^TH는 전체 Hessian을 계산하지않고도 효과적으로 구현할 수 있습니다. 이는 vvθ\theta에 의존적이지않다고 가정하고 시작합니다.

vTH=vT2L v^TH = v^T\nabla^2\mathcal{L}_\square

=vT(TL)= v^T(\nabla^T\nabla\mathcal{L}_\square)

=T(vTL)= \nabla^T(v^T\nabla\mathcal{L}_\square)

이 때, vTL v^T\nabla\mathcal{L}_\square은 scalar이므로 auto-diff library를 이용하면 그대로 loss로 사용해 구할 수 있습니다.

Last updated

Was this helpful?