8.3.2 Learning with Opponent Learning Awareness

LOLA의 agent는 opponent의 미소변화량에 따른 expected total discounted return을 가지고 최대화를 진행합니다. opponent의 미소 변화량을 근사 하기 위해 테일러 근사를 하는데, 1차 테일러 근사를 나타내자면 다음과 같습니다.

J1(θ1,θ+Δθ2)J1(θ1,θ2)+(Δθ2)T(θ2J1(θ1,θ2) J^1(\theta^1,\theta+\Delta\theta^2) \approx J^1(\theta^1,\theta^2) + (\Delta\theta^2)^T(\nabla_{\theta^2}J^1(\theta^1,\theta^2)

이를 통해 LOLA 내의 agent 끼리는 상대방의 policy update에 적극적으로 영향을 끼치기 위해 노력하게 됩니다. 그렇다면 opponent parameter의 미소 변화량은 8.3.1에서 본 naive learning step과 같이 expected discounted return을 최대화 하기 위한 방향으로의 변화량이 됩니다.

Δθ2=θ2J2(θ1,θ2)η \Delta \theta^2 = \nabla_{\theta^2}J^2(\theta^1,\theta^2)\eta

8.3.1에서 본 agent 1의 i+1 i+1 번째 parameter update식을 Δθ2\Delta \theta^2를 치환한 1차 테일러 근사를 통해 나타내면 다음과 같습니다.

flola1(θ1,θ2)=Δθ1J1(θ1,θ2)δ+(θ2J1(θ1,θ2))Tθ1θ2J2(θ1,θ2)δη \bm{f}^1_{\mathrm{lola}}(\theta^1,\theta^2) = \Delta_{\theta^1}J^1(\theta^1,\theta^2)\delta + (\nabla_{\theta^2}J^1(\theta^1,\theta^2))^T\nabla_{\theta^1}\nabla_{\theta^2}J^2(\theta^1,\theta^2)\delta\eta

η\etaδ\delta는 learning rate입니다.

하지만 이는 정확한 gradient와 hessian에 대한 접근이 가능할 때이고, 일반적인 RL에서 사용할 수 있는 observation을 통해 얻은 식으로 구성해보도록 하겠습니다.

Last updated

Was this helpful?