각각의 public state에 대해 πBAD는 deterministic partial policies πBAD(π^∣sBAD) 를 선택해야합니다. 이는 ∣fa∣의 크기에 따라 exponential하게 증가합니다.(fa의 수에 따라 partial policies가 대응되게 늘어나므로)그러나 다음과 같이 factorization하면 선형적으로 만들 수 있습니다.
πBAD(π^∣Bt,fpub)=∏faπBAD(π^(fa)∣Bt,fpub,fa)
이 때 우변을 Neural Network를 function approximator로 근사하면, πBADθ(ua∣Bt,fpub,fa)로 표현 가능합니다.
이 πBAD(π^∣sBAD)는 계속 나왔듯이 모든 agent가 public belief update를 수행하기위해서 π^는 public하게 선택되어야 합니다. 그렇기 때문에, 이 π^는 common knowledge random seed ξt에 의해 선택됩니다.