9.4.4 Hessian-Vector Product

Hessian-vector $v^TH$ 는 많은 알고리즘에서 유용하게 사용하는 값중 하나입니다. DiCE를 사용하면, $v^TH$ 는 전체 Hessian을 계산하지않고도 효과적으로 구현할 수 있습니다. 이는 $v$ 가 $\theta$ 에 의존적이지않다고 가정하고 시작합니다.

$v^TH = v^T\nabla^2\mathcal{L}_\square$

$= v^T(\nabla^T\nabla\mathcal{L}_\square)$

$= \nabla^T(v^T\nabla\mathcal{L}_\square)$

이 때, $v^T\nabla\mathcal{L}_\square$ 은 scalar이므로 auto-diff library를 이용하면 그대로 loss로 사용해 구할 수 있습니다.

Previous9.4.3 First Order Variance Reduction Next9.5 Case Studies

Last updated 5 years ago