8.3.1 Naive Learner
Last updated
Was this helpful?
Last updated
Was this helpful?
각 agent의 policy를 에 의해 parameterized된라 할 때, 두 agent에 의한 expected total discounted return은 로 정의할 수 있습니다. Naive Learner는 다음과 같이 반복적으로 expected total discounted return을 최대화 하기 위해 optimize됩니다.
이는 고정된 이전의 다른 agent parameter로 부터 expected total discounted return을 maximize하는 를 찾게 되는데, 실제로 expected total discounted return에 대한 접근을 할 수 없으니, 다음과 같이 gradient ascent를 통해 학습을 진행합니다.
delta는 learning rate로 다른 agent도 이와 같이 학습하게 됩니다.