5.6 Conclusion & Future Work

chater 5에선 두가지 experience replay를 안정화하기 위한 기법들을 보았습니다. 첫째로, importance sampling을 이용하는 것이고, 둘째로는 fingerprint를 이용하는 것이었습니다. 이를 통해 Starcraft unit micromanagement상황에서 이러한 아이디어가 유효함을 어느정도 입증하였고, future work로, 좀더 non-stationary를 확장하고 multi-agent actor-critic methods에까지 이르기를 바라고 있습니다. 지금까지는 policies가 communication channel이 없을 때에 대해 생각해보았는데, 이후로는 제한된 대역대의 communication channel을 이용한 agent끼리의 communication에 대해 배워보겠습니다.

Previous5.5.3 Informative Trajectories Next6. Learning to Communicate with Deep Multi-Agent ReinforcementLearning

Last updated 4 years ago

Was this helpful?