7.3.3 Sampling Deterministic Partial Policies
Last updated
Was this helpful?
Last updated
Was this helpful?
각각의 public state에 대해 는 deterministic partial policies 를 선택해야합니다. 이는 의 크기에 따라 exponential하게 증가합니다.(의 수에 따라 partial policies가 대응되게 늘어나므로)그러나 다음과 같이 factorization하면 선형적으로 만들 수 있습니다.
이 때 우변을 Neural Network를 function approximator로 근사하면, 로 표현 가능합니다.
이 는 계속 나왔듯이 모든 agent가 public belief update를 수행하기위해서 는 public하게 선택되어야 합니다. 그렇기 때문에, 이 는 common knowledge random seed 에 의해 선택됩니다.