각 agent의 policy를 θa에 의해 parameterized된πa라 할 때, 두 agent에 의한 expected total discounted return은 Ja(θ1,θ2)로 정의할 수 있습니다. Naive Learner는 다음과 같이 반복적으로 expected total discounted return을 최대화 하기 위해 optimize됩니다.
θi+11=argmaxθ1J1(θ1,θi2)
θi+12=argmaxθ1J1(θi1,θ2)
이는 고정된 이전의 다른 agent parameter로 부터 expected total discounted return을 maximize하는 θ 를 찾게 되는데, 실제로 expected total discounted return에 대한 접근을 할 수 없으니, 다음과 같이 gradient ascent를 통해 학습을 진행합니다.
θi+11=θi1+fnl1(θi1,θi2)
fnl1=∇θi1J1(θi1,θi2)δ
delta는 learning rate로 다른 agent도 이와 같이 학습하게 됩니다.