8.3.2 Learning with Opponent Learning Awareness

LOLA의 agent는 opponent의 미소변화량에 따른 expected total discounted return을 가지고 최대화를 진행합니다. opponent의 미소 변화량을 근사 하기 위해 테일러 근사를 하는데, 1차 테일러 근사를 나타내자면 다음과 같습니다.

$J^1(\theta^1,\theta+\Delta\theta^2) \approx J^1(\theta^1,\theta^2) + (\Delta\theta^2)^T(\nabla_{\theta^2}J^1(\theta^1,\theta^2)$

이를 통해 LOLA 내의 agent 끼리는 상대방의 policy update에 적극적으로 영향을 끼치기 위해 노력하게 됩니다. 그렇다면 opponent parameter의 미소 변화량은 8.3.1에서 본 naive learning step과 같이 expected discounted return을 최대화 하기 위한 방향으로의 변화량이 됩니다.

$\Delta \theta^2 = \nabla_{\theta^2}J^2(\theta^1,\theta^2)\eta$

8.3.1에서 본 agent 1의 $i+1$ 번째 parameter update식을 $\Delta \theta^2$ 를 치환한 1차 테일러 근사를 통해 나타내면 다음과 같습니다.

$\bm{f}^1_{\mathrm{lola}}(\theta^1,\theta^2) = \Delta_{\theta^1}J^1(\theta^1,\theta^2)\delta + (\nabla_{\theta^2}J^1(\theta^1,\theta^2))^T\nabla_{\theta^1}\nabla_{\theta^2}J^2(\theta^1,\theta^2)\delta\eta$

$\eta$ 와 $\delta$ 는 learning rate입니다.

하지만 이는 정확한 gradient와 hessian에 대한 접근이 가능할 때이고, 일반적인 RL에서 사용할 수 있는 observation을 통해 얻은 식으로 구성해보도록 하겠습니다.

Previous8.3.1 Naive Learner Next8.3.3. Learning via Policy gradient

Last updated 4 years ago

Was this helpful?