7.3.2 Public Belief MDP

public belief를 update하는 방법에 대해 알아보도록 하겠습니다. public belief는 다음처럼 나타낼 수 있습니다.

P(ftauta,Bt,ftpub,π^)P(f^a_t|u^a_t,\mathcal{B}_t,f^\mathrm{pub}_t,\hat{\pi})

π^\hat{\pi}utau^a_t는 public information이므로, 한 agent가 관측한 것 utau^a_t을 통해 이후의 가능한 private state features ftprif^\mathrm{pri}_t의 확률이 바로 public belief입니다. 이는 다시 다음과 같이 표현할 수 있습니다.

P(ftauta,Bt,ftpub,π^)=P(utafta,π^)P(ftaBt,ftpub)P(utaBt,ftpub,π^) P(f^a_t|u^a_t,\mathcal{B}_t,f^\mathrm{pub}_t,\hat{\pi}) = \frac{P(u^a_t|f^a_t,\hat{\pi})P(f^a_t|\mathcal{B}_t,f^\mathrm{pub}_t)}{P(u^a_t|\mathcal{B}_t,f^\mathrm{pub}_t,\hat{\pi})}

이는, Bt \mathcal{B_t}ftpubf^\mathrm{pub}_t를 알고 π^\hat{\pi}가 뽑힌 상황에서utau^a_t가 선택됐을 때, 이를 Bt \mathcal{B_t}ftpubf^\mathrm{pub}_t를 안상태에서 관측할 확률과 ftaf^a_tπ^\hat{\pi}를 안상태에서 uta u^a_t를 선택할 확률의 과 같습니다.

그리고 이는 당연히 1(π^(fta),uta)P(ftaBt,ftpub)\propto \bm{1}(\hat{\pi}(f^a_t),u^a_t)P(f^a_t|\mathcal{B}_t,f^\mathrm{pub}_t)(indicator)입니다.

이를 통해 우리는 새로운 MDP인 PuB-MDP를 생각할 수 있습니다. 아래 그림의 (b)를 살펴보겠습니다.

PuB-MDP의 state 에 대해 sBADSBADs_{\mathrm{BAD}} \in S_{\mathrm{BAD}}는 public observation과 public belief로 이루어져있습니다. deterministic partial policies는 private observation을 통해 action 으로 mapping합니다. 이를 transition probability로 나타내면 다음과 같습니다.

P(sBADsBAD,π^)P(s'_{\mathrm{BAD}}|s_\mathrm{BAD},\hat{\pi})

다음 state는 새로운 public belief를 가지고 있으니, 이를 public belief update식을 통해 구할 수 있습니다. 이때, 일반 MDP에서는 action에 의해 transition probability가 정의되지만 여기서는 π^ \hat{\pi}에 의해(private observation에 따른 실행되지 않은 action모두가 transition probability에 관여합니다.) 정의되는 것을 볼 수 있습니다.

reward function은 private state feature에 대한 marginality를 위해 다음과 같이 구성합니다.

rBAD(sBAD,π^)=fpriB(fpri)r(s,π^(fpri)) r_{\mathrm{BAD}}(s_{\mathrm{BAD}},\hat{\pi}) = \sum_{f^{pri}}{\mathcal{B}(f^\mathrm{pri})r(s,\hat{\pi}(f^\mathrm{pri}))}

이는 private observation에 대한Bt\mathcal{B}_t를 reward에 곱해 계산합니다.

Last updated