7.3.3 Sampling Deterministic Partial Policies

각각의 public state에 대해 $\pi_{\mathrm{BAD}}$ 는 deterministic partial policies $\pi_{\mathrm{BAD}}(\hat{\pi}|s_{\mathrm{BAD}})$ 를 선택해야합니다. 이는 $|f^a|$ 의 크기에 따라 exponential하게 증가합니다.( $f^a$ 의 수에 따라 partial policies가 대응되게 늘어나므로)그러나 다음과 같이 factorization하면 선형적으로 만들 수 있습니다.

$\pi_{\mathrm{BAD}}(\hat{\pi}|\mathcal{B}_t,f^{\mathrm{pub}}) = \prod_{f^a}\pi_{\mathrm{BAD}}(\hat{\pi}(f^a)|\mathcal{B}_t,f^{\mathrm{pub}},f^a)$

이 때 우변을 Neural Network를 function approximator로 근사하면, $\pi^\theta_{\mathrm{BAD}}(u^a|\mathcal{B}_t,f^{\mathrm{pub}},f^a)$ 로 표현 가능합니다.

이 $\pi_{\mathrm{BAD}}(\hat{\pi}|s_{\mathrm{BAD}})$ 는 계속 나왔듯이 모든 agent가 public belief update를 수행하기위해서 $\hat{\pi}$ 는 public하게 선택되어야 합니다. 그렇기 때문에, 이 $\hat{\pi}$ 는 common knowledge random seed $\xi_t$ 에 의해 선택됩니다.

Previous7.3.2 Public Belief MDP Next7.3.4 Factorized Belief Updates

Last updated 4 years ago

Was this helpful?