Notice
Recent Posts
Recent Comments
Link
«   2026/01   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

코코와 나

Multi-Agent Deep Reinforcement learning (2) 본문

논문리뷰

Multi-Agent Deep Reinforcement learning (2)

코코빵댕이 2023. 1. 6. 23:56

Multi-Agent RL Notations and Formulation

Multi-Agent는 기본적으로 다수개의 Agent가 하나의 환경에서 상호작용 하는 것을 바탕으로 합니다.

이 섹션에서는 Multi-Agent의 훈련이 어려운 이유에 대해서 이야기 해보겠습니다.

Multi Agent를 위한 기본 설정은 다음과 같습니다.

<N,S,A,R,P,O,γ><N,S,A,R,P,O,\gamma>

$N$은 에이전트 수, $S$는 상태 공간, $A = {A_1, . . . , A_N }$는 모든 에이전트에 대한 action의 집합, $P$는 state-transition 확률, $R$은 보상 함수, $O = {O_1,...,O_N}$은 모든 에이전트에 대한 관찰 집합입니다. 이때 환경이 완전히 협조적인 경우 각 시간 단계에서 모든 에이전트는 공동 보상 값 $r_t$를 받습니다.

만약에 에이전트가 시스템 상태를 완전히 관찰할 수 없는 경우 각 에이전트는 자신의 로컬 관찰 $o_t^i$에만 접근 할 수 있다는 점도 우리가 기존에 살펴보았습니다.

한편으로 MARL에서 단일 에이전트의 경우와 유사하게 각 에이전트는 최적의 Q-값 또는 최적의 확률적 정책을 학습해 나갑니다. 그러나 학습이 진행됨에 따라 각 에이전트의 정책이 변경됩니다. 따라서 개별 에이전트의 관점에서 볼 때 환경은 고정적이지 않습니다.

즉, 각 에이전트의 이전 경험에는 서로 다른 Agent의 공동의 정책이 포함되게 되므로 특정 Agent 모델을 훈련시키려는 시도는 다른 agent의 훈련 변동을 초래하도록 Agent의 모델을 수정하므로 동시에 서로다른 에이전트를 훈련시킬 수 없게 됩니다.

참조 :

Stabilising Experience Replay for Deep Multi-Agent Reinforcement Learning
Many real-world problems, such as network packet routing and urban traffic control, are naturally modeled as multi-agent reinforcement learning (RL) problems. However, existing multi-agent RL methods typically scale poorly in the problem size. Therefore, a key challenge is to translate the success of deep learning on single-agent RL to the multi-agent setting.
https://arxiv.org/abs/1702.08887

이에 Multi agent에서는 완전한 관찰 가능성을 가짐에도 불구하고 MDP가정을 유지하지 않으므로 Multi Agent 를 위한 Bellman Equation 또한 동작하지 않습니다.

다른 에이전트의 정책이 변경됨에 따라 $π_{-i}$가 시간이 지남에 따라 변경되므로 MARL에서는 기존의 Bellman 방정식을 사용하여 최적의 Q 값을 얻을 수 없다는 것을 확인 할 수 있습니다.

문제는 여기서 끝이 아닙니다. 각 에이전트의 정책은 훈련 중에 변경되기 때문에 non-stationarity를 처리하지 않고는 experience replay를 사용할 수 없습니다.

experience replay이 없으면 DQN 알고리즘과 기본적으로 근사치 기반 알고리즘을 직접 사용할 수 없게 됩니다. 또 대부분의 MARL 문제에서 에이전트는 분산형 POMDP(Dec-POMDP)로 분류되는 일종의 시스템에 대한 전체 상태 또한 관찰할 수 없게 됩니다.

정리 하면 Multi-agent RL에서는 각 에이전트의 독립된 행동으로 인한 보상에 잡음과 분산이 중첩적으로 증가히면서 학습이 불안정해집니다.

그 이유는 한 에이전트의 보상은 다른 에이전트의 행동에 의해 결정되며, 단일 에이전트의 행동에 대한 조건부 보상은 단일 에이전트의 보상보다 더 많은 잡음과 변동성을 나타낼 수 있기 때문입니다.


Uploaded by N2T

Comments