8.3.4 LOLA with Opponent modeling

만약 oppenent의 parameter를 볼 수 없다면, agent의 observation을 통해 다른 agent의 parameter θ\theta를 추정하게 됩니다. maximum likelihood method를 사용하는데 이 식은 다음과 같습니다.

θ^2=argmaxθ2tlogπθ2(ut2st) \hat{\theta}^2 = \mathrm{argmax}_{\theta^2}\sum_t\log{\pi_{\theta^2}(u^2_t|s_t)}

이 값이 θ2\theta^2의 자리를 대신하면 됩니다.

Last updated

Was this helpful?