« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Multi-Agent RL Notations and Formulation

Multi-Agent는 기본적으로 다수개의 Agent가 하나의 환경에서 상호작용 하는 것을 바탕으로 합니다.

이 섹션에서는 Multi-Agent의 훈련이 어려운 이유에 대해서 이야기 해보겠습니다.

Multi Agent를 위한 기본 설정은 다음과 같습니다.

$<N,S,A,R,P,O,\gamma>$

$N$은 에이전트 수, $S$는 상태 공간, $A = {A_1, . . . , A_N }$는 모든 에이전트에 대한 action의 집합, $P$는 state-transition 확률, $R$은 보상 함수, $O = {O_1,...,O_N}$은 모든 에이전트에 대한 관찰 집합입니다. 이때 환경이 완전히 협조적인 경우 각 시간 단계에서 모든 에이전트는 공동 보상 값 $r_t$를 받습니다.

만약에 에이전트가 시스템 상태를 완전히 관찰할 수 없는 경우 각 에이전트는 자신의 로컬 관찰 $o_t^i$에만 접근 할 수 있다는 점도 우리가 기존에 살펴보았습니다.

한편으로 MARL에서 단일 에이전트의 경우와 유사하게 각 에이전트는 최적의 Q-값 또는 최적의 확률적 정책을 학습해 나갑니다. 그러나 학습이 진행됨에 따라 각 에이전트의 정책이 변경됩니다. 따라서 개별 에이전트의 관점에서 볼 때 환경은 고정적이지 않습니다.

즉, 각 에이전트의 이전 경험에는 서로 다른 Agent의 공동의 정책이 포함되게 되므로 특정 Agent 모델을 훈련시키려는 시도는 다른 agent의 훈련 변동을 초래하도록 Agent의 모델을 수정하므로 동시에 서로다른 에이전트를 훈련시킬 수 없게 됩니다.

참조 :

Stabilising Experience Replay for Deep Multi-Agent Reinforcement Learning

Many real-world problems, such as network packet routing and urban traffic control, are naturally modeled as multi-agent reinforcement learning (RL) problems. However, existing multi-agent RL methods typically scale poorly in the problem size. Therefore, a key challenge is to translate the success of deep learning on single-agent RL to the multi-agent setting.

https://arxiv.org/abs/1702.08887

이에 Multi agent에서는 완전한 관찰 가능성을 가짐에도 불구하고 MDP가정을 유지하지 않으므로 Multi Agent 를 위한 Bellman Equation 또한 동작하지 않습니다.

다른 에이전트의 정책이 변경됨에 따라 $π_{-i}$가 시간이 지남에 따라 변경되므로 MARL에서는 기존의 Bellman 방정식을 사용하여 최적의 Q 값을 얻을 수 없다는 것을 확인 할 수 있습니다.

문제는 여기서 끝이 아닙니다. 각 에이전트의 정책은 훈련 중에 변경되기 때문에 non-stationarity를 처리하지 않고는 experience replay를 사용할 수 없습니다.

experience replay이 없으면 DQN 알고리즘과 기본적으로 근사치 기반 알고리즘을 직접 사용할 수 없게 됩니다. 또 대부분의 MARL 문제에서 에이전트는 분산형 POMDP(Dec-POMDP)로 분류되는 일종의 시스템에 대한 전체 상태 또한 관찰할 수 없게 됩니다.

정리 하면 Multi-agent RL에서는 각 에이전트의 독립된 행동으로 인한 보상에 잡음과 분산이 중첩적으로 증가히면서 학습이 불안정해집니다.

그 이유는 한 에이전트의 보상은 다른 에이전트의 행동에 의해 결정되며, 단일 에이전트의 행동에 대한 조건부 보상은 단일 에이전트의 보상보다 더 많은 잡음과 변동성을 나타낼 수 있기 때문입니다.

Uploaded by N2T

DDPG (0)	2023.01.08
Multi-Agent Deep Reinforcement learning (3) (0)	2023.01.06
Multi-Agent Deep Reinforcement learning (1) (0)	2023.01.06
HSFL: Energy Efficient User Scheduling for Hybrid Split and Federated Learning in Wireless UAV Networks (0)	2023.01.05
CPSL : __Split Learning over Wireless Networks: Parallel Design and Resource Management__ (1)	2023.01.05

코코와 나

코코와 나

Multi-Agent Deep Reinforcement learning (2) 본문

Multi-Agent Deep Reinforcement learning (2)

Multi-Agent RL Notations and Formulation

$<N,S,A,R,P,O,\gamma>$

'논문리뷰' 카테고리의 다른 글

티스토리툴바

코코와 나

Multi-Agent Deep Reinforcement learning (2) 본문

Multi-Agent Deep Reinforcement learning (2)

Multi-Agent RL Notations and Formulation

@import url('https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.13.2/katex.min.css')<N,S,A,R,P,O,γ><N,S,A,R,P,O,\gamma><N,S,A,R,P,O,γ>﻿

'논문리뷰' 카테고리의 다른 글

티스토리툴바

$<N,S,A,R,P,O,\gamma>$