7.6 Conclusion & Future Work

이번 chapter에서는 cooperative partially observable MARL 상황에서 적용 가능한 Bayesian Action Decoder를 보였습니다. BAD는 factorized, approximate belief state를 사용하는데, 이는 agent가 정보를 잘 전달할 수 있는 action과 convention을 배울 수 있도록 합니다. BAD에 대해 matrix game과 Hanabi에서 실험을 진행하여 좋은 성능을 보였고, 이는 DMARL를 통해 communication protocol을 발견해야하고 원래 사람에게 맞춰 디자인된 문제를 해결하는 첫 시도입니다. future work로는 BAD를 2명 이상일 때에 적용하고 좀더 일반화 하려고 합니다. belief update가 sampling을 하는 과정이 있으나, 다른 구성요소들은 웬만하면 end-to-end로 학습이 가능할 것입니다. 또 BAD를 value-based method로 확장하고, counterfactual gradients에 대한 연관성을 조사할 계획입니다.

Previous7.5.3 Belief State Methods Next8. Learning with Opponent-Learning Awareness

Last updated 5 years ago