8.3.5 Higher-Order LOLA
LOLA의 objective에서 opponent에 미소변화량에 따른 expected discounted return 은 1차 테일러 근사를 통해 이루어졌습니다. 하지만 더 높은 차수의 근사도 가능합니다. 이는 많은 계산량과 높은 variance를 가지겠지만 좀 더 정확한 근사값을 얻을 수 있습니다.
Last updated
Was this helpful?
LOLA의 objective에서 opponent에 미소변화량에 따른 expected discounted return 은 1차 테일러 근사를 통해 이루어졌습니다. 하지만 더 높은 차수의 근사도 가능합니다. 이는 많은 계산량과 높은 variance를 가지겠지만 좀 더 정확한 근사값을 얻을 수 있습니다.
Last updated
Was this helpful?