😇
Deep Multi-Agent Reinforcement Learning
  • Deep Multi-Agent Reinforcement Learning
  • Abstract & Contents
    • Abstract
  • 1. Introduction
    • 1. INTRODUCTION
      • 1.1 The Industrial Revolution, Cognition, and Computers
      • 1.2 Deep Multi-Agent Reinforcement-Learning
      • 1.3 Overall Structure
  • 2. Background
    • 2. BACKGROUND
      • 2.1 Reinforcement Learning
      • 2.2 Multi-Agent Settings
      • 2.3 Centralized vs Decentralized Control
      • 2.4 Cooperative, Zero-sum, and General-Sum
      • 2.5 Partial Observability
      • 2.6 Centralized Training, Decentralized Execution
      • 2.7 Value Functions
      • 2.8 Nash Equilibria
      • 2.9 Deep Learning for MARL
      • 2.10 Q-Learning and DQN
      • 2.11 Reinforce and Actor-Critic
  • I Learning to Collaborate
    • 3. Counterfactual Multi-Agent Policy Gradients
      • 3.1 Introduction
      • 3.2 Related Work
      • 3.3 Multi-Agent StarCraft Micromanagement
      • 3.4 Methods
        • 3.4.1 Independent Actor-Critic
        • 3.4.2 Counterfactual Multi-Agent Policy Gradients
        • 3.4.2.1 baseline lemma
        • 3.4.2.2 COMA Algorithm
      • 3.5 Results
      • 3.6 Conclusions & Future Work
    • 4 Multi-Agent Common Knowledge Reinforcement Learning
      • 4.1 Introduction
      • 4.2 Related Work
      • 4.3 Dec-POMDP and Features
      • 4.4 Common Knowledge
      • 4.5 Multi-Agent Common Knowledge Reinforcement Learning
      • 4.6 Pairwise MACKRL
      • 4.7 Experiments and Results
      • 4.8 Conclusion & Future Work
    • 5 Stabilizing Experience Replay
      • 5.1 Introduction
      • 5.2 Related Work
      • 5.3 Methods
        • 5.3.1 Multi-Agent Importance Sampling
        • 5.3.2 Multi-Agent Fingerprints
      • 5.4 Experiments
        • 5.4.1 Architecture
      • 5.5 Results
        • 5.5.1 Importance Sampling
        • 5.5.2 Fingerprints
        • 5.5.3 Informative Trajectories
      • 5.6 Conclusion & Future Work
  • II Learning to Communicate
    • 6. Learning to Communicate with Deep Multi-Agent ReinforcementLearning
      • 6.1 Introduction
      • 6.2 Related Work
      • 6.3 Setting
      • 6.4 Methods
        • 6.4.1 Reinforced Inter-Agent Learning
        • 6.4.2 Differentiable Inter-Agent Learning
      • 6.5 DIAL Details
      • 6.6 Experiments
        • 6.6.1 Model Architecture
        • 6.6.2 Switch Riddle
        • 6.6.3 MNIST Games
        • 6.6.4 Effect of Channel Noise
      • 6.7 Conclusion & Future Work
    • 7. Bayesian Action Decoder
      • 7.1 Introduction
      • 7.2 Setting
      • 7.3 Method
        • 7.3.1 Public belief
        • 7.3.2 Public Belief MDP
        • 7.3.3 Sampling Deterministic Partial Policies
        • 7.3.4 Factorized Belief Updates
        • 7.3.5 Self-Consistent Beliefs
      • 7.4 Experiments and Results
        • 7.4.1 Matrix Game
        • 7.4.2 Hanabi
        • 7.4.3 Observations and Actions
        • 7.4.4 Beliefs in Hanabi
        • 7.4.5 Architecture Details for Baselines and Method
        • 7.4.6 Hyperparamters
        • 7.4.7 Results on Hanabi
      • 7.5 Related Work
        • 7.5.1 Learning to Communicate
        • 7.5.2 Research on Hanabi
        • 7.5.3 Belief State Methods
      • 7.6 Conclusion & Future Work
  • III Learning to Reciprocate
    • 8. Learning with Opponent-Learning Awareness
      • 8.1 Introduction
      • 8.2 Related Work
      • 8.3 Methods
        • 8.3.1 Naive Learner
        • 8.3.2 Learning with Opponent Learning Awareness
        • 8.3.3. Learning via Policy gradient
        • 8.3.4 LOLA with Opponent modeling
        • 8.3.5 Higher-Order LOLA
      • 8.4 Experimental Setup
        • 8.4.1 Iterated Games
        • 8.4.2 Coin Game
        • 8.4.3 Training Details
      • 8.5 Results
        • 8.5.1 Iterated Games
        • 8.5.2 Coin Game
        • 8.5.3 Exploitability of LOLA
      • 8.6 Conclusion & Future Work
    • 9. DiCE: The Infinitely Differentiable Monte Carlo Estimator
      • 9.1 Introduction
      • 9.2 Background
        • 9.2.1 Stochastic Computation Graphs
        • 9.2.2 Surrogate Losses
      • 9.3 Higher Order Gradients
        • 9.3.1 Higher Order Gradient Estimators
        • 9.3.2 Higher Order Surrogate Losses
        • 9.3.3. Simple Failing Example
      • 9.4 Correct Gradient Estimators with DiCE
        • 9.4.1 Implement of DiCE
        • 9.4.2 Casuality
        • 9.4.3 First Order Variance Reduction
        • 9.4.4 Hessian-Vector Product
      • 9.5 Case Studies
        • 9.5.1 Empirical Verification
        • 9.5.2 DiCE For multi-agent RL
      • 9.6 Related Work
      • 9.7 Conclusion & Future Work
  • Reference
    • Reference
  • After
    • 보충
    • 역자 후기
Powered by GitBook
On this page

Was this helpful?

  1. III Learning to Reciprocate
  2. 9. DiCE: The Infinitely Differentiable Monte Carlo Estimator
  3. 9.5 Case Studies

9.5.2 DiCE For multi-agent RL

Previous9.5.1 Empirical VerificationNext9.6 Related Work

Last updated 4 years ago

Was this helpful?

이전 chapter에서 LOLA를 소개했었는데, 이는 opponent의 학습과정을 자신의 학습에 끌여들여 학습해 IPD에서 좋은 내쉬균형을 이룬 것을 보았습니다. 일반적인 policy gradient의 학습은 다른 agent에 대한 의존이 없습니다. LOLA는 테일러급수를 통해 상대방의 증분에 대한 근사를 할수 있게 되고, 이를 이용해 update term을 만들면 2차 gradient가 발생하게 됩니다. 이번 section에서는 DiCE를 통해 좀더 직접적으로 접근해 보겠습니다.

πθ1\pi_{\theta^1} πθ1​는 LOLA agent, πθ2\pi_{\theta^2}πθ2​는 opponent로 정의합니다. opponent는 policy gradient를 통해 학습한다고 할 때, LOLA-DiCE agent는 다음과같은 stochastic objective를 가지게 됩니다.

L1(θ1,θ2)LOLA=Eπθ1,πθ2+Δθ2(θ1,θ2)[L1],where  Δθ2(θ1,θ2)=α∇θ2Eπθ1,πθ2[L2] \mathcal{L}^1(\theta^1,\theta^2)_{\mathrm{LOLA}} = \mathbb{E}_{\pi_\theta^1,\pi_{\theta^2+\Delta\theta^2(\theta^1,\theta^2)}}[\mathcal{L^1}],\\ \mathrm{where}\ \ \Delta\theta^2(\theta^1,\theta^2) = \alpha\nabla_{\theta^2}\mathbb{E}_{\pi_{\theta^1},\pi_{\theta^2}}[\mathcal{L^2}]L1(θ1,θ2)LOLA​=Eπθ1​,πθ2+Δθ2(θ1,θ2)​​[L1],where  Δθ2(θ1,θ2)=α∇θ2​Eπθ1​,πθ2​​[L2]

α\alphaα는 learning rate이고, La=∑t=0Tγtrta\mathcal{L}^a = \sum^T_{t=0}\gamma^tr^a_tLa=∑t=0T​γtrta​ 입니다. SCG 형태로 만들기 위해, JaJ^aJa형태가 아닌 L\mathcal{L}L로 정의하였습니다. 이 term들을 직접 평가하기 위해 LOLA의 변형으로 opponent의 learning process를 전체를 보는데(이전 time step에 대한 action들을 봐야하기 때문에 unroll이라고 표현) model-agnostic meta-learning(MAML)이라는 것과 닮았습니다. 이를 MAML의 형태로 공식을 쓰면, opponent의 gradient update양 Δθ2\Delta\theta^2Δθ2는 inner loop에 대응되고, agent 자신의 학습은 outer loop에서 하게됩니다.

다음과 같은 DiCE-objective를 쓰면 모든 의존성을 보존한채 식을 사용할 수 있습니다.

L□(θ1,θ2)a=∑t□({ut′≤ta′∈{1,2}})γtrta \mathcal{L}^a_{\square(\theta^1,\theta^2)} = \sum_t\square (\{u^{a' \in \{1,2\}}_{t' \leq t}\})\gamma^t r^a_tL□(θ1,θ2)a​=∑t​□({ut′≤ta′∈{1,2}​})γtrta​

계산적인 이유로 inner loop에서 Δθa\Delta \theta^aΔθa를 저장해놓고 사용합니다.(반복 계산을 막기위해)

중요한 것은 LOLA의 성능은 높은 차수의 정확한 gradient값에 영향을 많이 받는 편이기 때문에 DiCE를 사용하여Δθ2\Delta \theta^2Δθ2를 구하는 것은 아주 중요한 일입니다. 반면에 SL-based 1차 gradient estimator를 사용한 Finn의 연구에서는 AL-Shedivat의 연구에서 주장했던 것 처럼 결과가 좋지 않았습니다.

LOLA-DiCE agent와 다른 LOLA의 agent 성능을 비교하면, LOLA는 opponent의 one-step만을 학습에 이용할 수 있지만, DiCE는 이전의 action에 대한 모든 정보가 있기 때문에, n-step에 대해 학습할 수가 있습니다.

2차 gradient를 가진 원래 LOLA는 안정적이지도않고 엄청나게 큰 batch size를 요구했으나, LOLA-DiCE는 결과도 좋으면서 안정적인 학습을 이뤄냈습니다.