Multi-Agent RL Notations and Formulation
Multi-Agent는 기본적으로 다수개의 Agent가 하나의 환경에서 상호작용 하는 것을 바탕으로 합니다.
이 섹션에서는 Multi-Agent의 훈련이 어려운 이유에 대해서 이야기 해보겠습니다.
Multi Agent를 위한 기본 설정은 다음과 같습니다.
$N$은 에이전트 수, $S$는 상태 공간, $A = {A_1, . . . , A_N }$는 모든 에이전트에 대한 action의 집합, $P$는 state-transition 확률, $R$은 보상 함수, $O = {O_1,...,O_N}$은 모든 에이전트에 대한 관찰 집합입니다. 이때 환경이 완전히 협조적인 경우 각 시간 단계에서 모든 에이전트는 공동 보상 값 $r_t$를 받습니다.
만약에 에이전트가 시스템 상태를 완전히 관찰할 수 없는 경우 각 에이전트는 자신의 로컬 관찰 $o_t^i$에만 접근 할 수 있다는 점도 우리가 기존에 살펴보았습니다.
한편으로 MARL에서 단일 에이전트의 경우와 유사하게 각 에이전트는 최적의 Q-값 또는 최적의 확률적 정책을 학습해 나갑니다. 그러나 학습이 진행됨에 따라 각 에이전트의 정책이 변경됩니다. 따라서 개별 에이전트의 관점에서 볼 때 환경은 고정적이지 않습니다.

즉, 각 에이전트의 이전 경험에는 서로 다른 Agent의 공동의 정책이 포함되게 되므로 특정 Agent 모델을 훈련시키려는 시도는 다른 agent의 훈련 변동을 초래하도록 Agent의 모델을 수정하므로 동시에 서로다른 에이전트를 훈련시킬 수 없게 됩니다.
참조 :

이에 Multi agent에서는 완전한 관찰 가능성을 가짐에도 불구하고 MDP가정을 유지하지 않으므로 Multi Agent 를 위한 Bellman Equation 또한 동작하지 않습니다.

다른 에이전트의 정책이 변경됨에 따라 $π_{-i}$가 시간이 지남에 따라 변경되므로 MARL에서는 기존의 Bellman 방정식을 사용하여 최적의 Q 값을 얻을 수 없다는 것을 확인 할 수 있습니다.
문제는 여기서 끝이 아닙니다. 각 에이전트의 정책은 훈련 중에 변경되기 때문에 non-stationarity를 처리하지 않고는 experience replay를 사용할 수 없습니다.
experience replay이 없으면 DQN 알고리즘과 기본적으로 근사치 기반 알고리즘을 직접 사용할 수 없게 됩니다. 또 대부분의 MARL 문제에서 에이전트는 분산형 POMDP(Dec-POMDP)로 분류되는 일종의 시스템에 대한 전체 상태 또한 관찰할 수 없게 됩니다.
정리 하면 Multi-agent RL에서는 각 에이전트의 독립된 행동으로 인한 보상에 잡음과 분산이 중첩적으로 증가히면서 학습이 불안정해집니다.
그 이유는 한 에이전트의 보상은 다른 에이전트의 행동에 의해 결정되며, 단일 에이전트의 행동에 대한 조건부 보상은 단일 에이전트의 보상보다 더 많은 잡음과 변동성을 나타낼 수 있기 때문입니다.
Uploaded by N2T