Last updated 3 years ago
만약 oppenent의 parameter를 볼 수 없다면, agent의 observation을 통해 다른 agent의 parameter θ\thetaθ를 추정하게 됩니다. maximum likelihood method를 사용하는데 이 식은 다음과 같습니다.
θ^2=argmaxθ2∑tlogπθ2(ut2∣st) \hat{\theta}^2 = \mathrm{argmax}_{\theta^2}\sum_t\log{\pi_{\theta^2}(u^2_t|s_t)}θ^2=argmaxθ2∑tlogπθ2(ut2∣st)
이 값이 θ2\theta^2θ2의 자리를 대신하면 됩니다.