4.3 Dec-POMDP and Features

이 chapter에서는 MACKRL에서 문제를 정의할 때 가정하는 decentralized partially observable Markov decision processes(Dec-POMDP) 에서의 정의들에 대해 알아보겠습니다.

Dec-POMDP에서 state sS s \in S는 entities eξ e \in \xi으로 이루어져 있습니다. 그래서 다음과 같이 표현합니다. s={seeξ} s = \{ s^e |e \in \xi\} 그렇다면, agent또한 관측가능한 entities로 생각할 수 있습니다. aAξ a \in \mathcal{A} \subseteq \xi . 그 외에도, 적, 장애물, 목표등 모두 entities로 나타낼 수 있습니다.

각 timestep마다, 각 agent는 action을 것을 다음과 같이 정의할 수 있습니다.

uenvaUenva(s) u^a_{env} \in \mathcal{U}^a_{env}(s)

subscript는 environment에 직접 영향을 미친다는 의미의 env입니다. joint action은 다음과 같이 정의합니다.

uenv=(uenv1,...,uenvn)Uenva(s) \bold{u}_{env} = (u^1_{env}, ... ,u^n_{env})\in \mathcal{U}^a_{env}(s)

next state sS s' \in \mathcal{S}일 때, transition probability는 다음과 같이 정의합니.

P(ss,uenv) P(s'|s,\bold{u}_{env})

reward function 은 다음과 같이 정의합니다.

r(s,uenv) r(s,\bold{u}_{env})

agent는 partial observability를 가지는데, 각 time-step마다 각 agent aa는 observation oaZ o^a \in \mathcal{Z} (agent가 볼 수 있는 모든 entites들을 포함한 state features se s^e의 부분 집합을 포함하는 집합)를 받습니다. 이때 agent aa가 entities e e 를 관찰할 수 있는지에 여부는 다음과 같은 binary mask μa(sa,se){,} \mu^a(s^a,s^e)\in\{\top,\bot\}를 통해 결정됩니다. agent aa는 항상 자기자신을 관찰할 수 있기 때문에, 다음과 같이 표기할 수 있습니다. μa(sa,sa)=,aA \mu^a(s^a,s^a) = \top,\forall a \in \mathcal{A}. agent가 볼수 있는 모든 entities는 다음과 같이 정의 합니다.

Msa={eμa(sa,se)}ξ\mathcal{M}^a_s = \{e|\mu^a(s^a,s^e)\} \subseteq \xi .

agent의 모든 observation은 deterministic한 observation function O(s,a) O(s,a)를 통해 결정되는데 O(s,a) O(s,a)는 다음과 같이 정의할 수 있습니다.

oa=O(s,a)={seeMsa}Z o^a = O(s,a) = \{s^e|e\in \mathcal{M}^a_s\} \in \mathcal{Z}

agent들의 목표는 expected discount reward의 최대화이고, 이는 다음과 같습니다.

maxRt=t=tTγttr(st,ut,env) \max R_t = \sum^T_{t'=t}\gamma^{t'-t}r(s_{t'},\bold{u}_{t',env})

이때, joint policy π(uenvs) \pi(\bold{u}_{env}|s)는 독립적인 decentralized policies로 사용할 것이기 때문에 다음과 같이 표기합니다. 이는 자신만의 history를 통해 action을 결정하는 agent라고 해석할 수 있습니다.

πa(uenvaτa)\pi^a(u^a_{env}|\tau^a)

또한 agent group GA \mathcal{G} \subseteq\mathcal{A}일 때, joint action space 는 다음과 같이 표기 할 수 있습니다.

UenvG\mathcal{U}^\mathcal{G}_{env}

마지막으로 중요한 것은, MACKRL을 위한 정의들이 문제를 단순하고 간결하게 표현하기 위해 state를 entities로 낼 수 있고, observation function이 deterministic하다는 가정을 한 단순화된 Dec-POMDP라는 점입니다.

Last updated