4.3 Dec-POMDP and Features
이 chapter에서는 MACKRL에서 문제를 정의할 때 가정하는 decentralized partially observable Markov decision processes(Dec-POMDP) 에서의 정의들에 대해 알아보겠습니다.
Dec-POMDP에서 state s∈S는 entities e∈ξ으로 이루어져 있습니다. 그래서 다음과 같이 표현합니다. s={se∣e∈ξ} 그렇다면, agent또한 관측가능한 entities로 생각할 수 있습니다. a∈A⊆ξ. 그 외에도, 적, 장애물, 목표등 모두 entities로 나타낼 수 있습니다.
각 timestep마다, 각 agent는 action을 것을 다음과 같이 정의할 수 있습니다.
uenva∈Uenva(s)
subscript는 environment에 직접 영향을 미친다는 의미의 env입니다. joint action은 다음과 같이 정의합니다.
uenv=(uenv1,...,uenvn)∈Uenva(s)
next state s′∈S일 때, transition probability는 다음과 같이 정의합니.
P(s′∣s,uenv)
reward function 은 다음과 같이 정의합니다.
r(s,uenv)
agent는 partial observability를 가지는데, 각 time-step마다 각 agent a는 observation oa∈Z(agent가 볼 수 있는 모든 entites들을 포함한 state features se의 부분 집합을 포함하는 집합)를 받습니다. 이때 agent a가 entities e를 관찰할 수 있는지에 여부는 다음과 같은 binary mask μa(sa,se)∈{⊤,⊥}를 통해 결정됩니다. agent a는 항상 자기자신을 관찰할 수 있기 때문에, 다음과 같이 표기할 수 있습니다. μa(sa,sa)=⊤,∀a∈A. agent가 볼수 있는 모든 entities는 다음과 같이 정의 합니다.
Msa={e∣μa(sa,se)}⊆ξ.
agent의 모든 observation은 deterministic한 observation function O(s,a)를 통해 결정되는데 O(s,a)는 다음과 같이 정의할 수 있습니다.
oa=O(s,a)={se∣e∈Msa}∈Z
agent들의 목표는 expected discount reward의 최대화이고, 이는 다음과 같습니다.
maxRt=∑t′=tTγt′−tr(st′,ut′,env)
이때, joint policy π(uenv∣s)는 독립적인 decentralized policies로 사용할 것이기 때문에 다음과 같이 표기합니다. 이는 자신만의 history를 통해 action을 결정하는 agent라고 해석할 수 있습니다.
πa(uenva∣τa)
또한 agent group G⊆A일 때, joint action space 는 다음과 같이 표기 할 수 있습니다.
UenvG
마지막으로 중요한 것은, MACKRL을 위한 정의들이 문제를 단순하고 간결하게 표현하기 위해 state를 entities로 낼 수 있고, observation function이 deterministic하다는 가정을 한 단순화된 Dec-POMDP라는 점입니다.
Last updated