7.3.3 Sampling Deterministic Partial Policies

각각의 public state에 대해 πBAD \pi_{\mathrm{BAD}}는 deterministic partial policies πBAD(π^sBAD) \pi_{\mathrm{BAD}}(\hat{\pi}|s_{\mathrm{BAD}}) 를 선택해야합니다. 이는 fa|f^a|의 크기에 따라 exponential하게 증가합니다.(fa f^a의 수에 따라 partial policies가 대응되게 늘어나므로)그러나 다음과 같이 factorization하면 선형적으로 만들 수 있습니다.

πBAD(π^Bt,fpub)=faπBAD(π^(fa)Bt,fpub,fa) \pi_{\mathrm{BAD}}(\hat{\pi}|\mathcal{B}_t,f^{\mathrm{pub}}) = \prod_{f^a}\pi_{\mathrm{BAD}}(\hat{\pi}(f^a)|\mathcal{B}_t,f^{\mathrm{pub}},f^a)

이 때 우변을 Neural Network를 function approximator로 근사하면, πBADθ(uaBt,fpub,fa) \pi^\theta_{\mathrm{BAD}}(u^a|\mathcal{B}_t,f^{\mathrm{pub}},f^a)로 표현 가능합니다.

πBAD(π^sBAD) \pi_{\mathrm{BAD}}(\hat{\pi}|s_{\mathrm{BAD}})는 계속 나왔듯이 모든 agent가 public belief update를 수행하기위해서 π^ \hat{\pi}는 public하게 선택되어야 합니다. 그렇기 때문에, 이 π^ \hat{\pi}는 common knowledge random seed ξt\xi_t에 의해 선택됩니다.

Last updated