2.3 Centralized vs Decentralized Control

Centralized Control

전체를 관측할 수 있는 상황(fully observable)에서 Multi Agent를 만드는 것보다, 전체를 총괄하는 하나의 Agent(centralized controller) πC(ust)\pi^C(\bold{u}|s_t)를 만드는 것을 생각해 볼 수 있습니다. 이를 나타내면,

πC(ust):U×S[0,1] \pi^C(\bold{u}|s_t):\bold{U}\times S \rightarrow [0,1]

로 나타낼 수 있습니다. 하지만 이는 근본적으로 큰 문제점 두가지가 존재합니다.

  • joint action space U\bold{U}는 agent들의 action이 combinatorial하게 결합된 형태입니다.

    • P(u1s1)P(u2s2)...P(unsn) P(u^1|s^1)\cdot P(u^2|s^2) \cdot ...\cdot P(u^n|s^n)

    • 이는 agent의 action space의 exponential한 증가를 의미하므로 확장성에서 굉장한 제약이 됩니다.

  • local observation 상황에서의 적용이 불가합니다. 많은 다양한 상황에서 agent의 observation은 제한되는 상황이 오는데, 이는 centralized controller의 적용이 불가함을 나타냅니다.

Decentralized Control

Agent각자 local policy를 사용한다면, centralized control의 action space에 대한 단점을 극복할 수 있습니다. 이때 한 agent의 policy를 다음과 같이 표현 가능합니다.

πa(uast)\pi^a(u^a|s_t)

그렇다면, 전체 joint-action에 대한 확률은 다음과 같이 나타낼 수 있습니다.

P(ust)=aπa(uast)P(\bold{u}|s_t) = \prod_a{\pi^a(u^a|s_t)}

Last updated

Was this helpful?