Notice
Recent Posts
Recent Comments
Link
«   2026/01   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

코코와 나

Multi-Agent Deep Reinforcement learning (3) 본문

논문리뷰

Multi-Agent Deep Reinforcement learning (3)

코코빵댕이 2023. 1. 6. 23:56

다중 에이전트 RL 문제를 해결하는 가장 단순한 접근 방식은 나머지 에이전트를 환경의 일부로 간주하고 현재 동작중인 각 에이전트를 독립적으로 처리하는 것입니다.

이 아이디어는 각 에이전트가 로컬 관찰에 액세스하고 전체 에이전트가 공동 보상을 최대화하려고 하는 독립적인 Q-Learning(IQL) 알고리즘으로 공식화됩니다.

참조:

https://web.media.mit.edu/~cynthiab/Readings/tan-MAS-reinfLearn.pdf

각 에이전트는 별도의 Q 학습 알고리즘을 실행합니다.

여기서 IQL은 (i) 에이전트 수를 늘려도 확장성 문제가 없고, (ii) 각 에이전트는 훈련 및 추론 시간 동안 local observation만 필요하기 때문에 문제가 단순해 집니다.

IQL은 일반적으로 잘 동작합니다. 하지만 함수 근사, 특히 심층 신경망(DNN)을 훈련하는 경우에 model convergence에 어려움을 겪습니다. 이 실패의 주된 이유 중 하나는 DNN으로 훈련을 안정화하기 위해 replay memory가 필요하기 때문입니다.

IQL의 확장의 일환인 Distributed Q-learning은 모든 에이전트가 시스템의 전체 상태를 관찰하고 다른 에이전트의 작업을 알지 못하는 분산된 완전 협력 다중 에이전트 문제를 해결하려고 했습니다.

공동의 action이 모든 에이전트에 대해 영향을 미치는 개념입니다. 공통의 action은 환경에서 적용되며 각 에이전트가 받는 전체에 대한 공동 보상을 반환해 모든 에이전트를 업데이트 합니다.

이 알고리즘은 기존에 비해 성능이 나아지는 경우에만 Q-값을 업데이트하며, 적은 보상을 반환 받을 경우에 다른에이전트에 대한 잘못된 탐색의 결과로 간주하고 업데이트 하지 않습니다.

즉, 에이전트 i에 대한 가능한 작업을 최대화하고 다른 에이전트가 로컬 최적 작업, 즉 $a_t=(a_t^1,...,a_t^N)$에서 주어진 공동 작업을 선택했다고 가정하고 에이전트 $i$의 $Q$ 값을 다음과 같이 업데이트합니다.

그러므로 Distributed Q-learning은 낮은 보상을 학습하지 않습니다. 그 과정에서 Q값이 과대 평가 되면서 모델이 포화 될 수 있습니다 .

Replay memory & DQN

Replay memory는 DQN 알고리즘의 핵심 요소입니다. 신경망 훈련을 안정화하고 관찰 이력의 샘플 효율성을 향상시키는 데 도움이 됩니다.

그러나 환경의 non-stationarity으로 인해 다중 에이전트 환경에서 Replay memory을 사용하는 것은 문제가 있습니다. 기본적으로 Replay memory에 대한 데이터를 생성하는 정책이 현재 정책과 기존 정책이 다르기 때문에 각 에이전트의 학습된 정책이 전파 될 수 있습니다.

이 문제를 해결하기 위해 몇몇 접근에서는 알고리즘의 재생 메모리 부분을 비활성화하거나 이전 기록의 다양성을 버리고 replay memory는 최근 경험만 저장하도록 합니다.

참조 :

Learning to Communicate with Deep Multi-Agent Reinforcement Learning
We consider the problem of multiple agents sensing and acting in environments with the goal of maximising their shared utility. In these environments, agents must learn communication protocols in order to share information that is needed to solve the tasks.
https://arxiv.org/abs/1605.06676

이러한 접근 방식은 환경의 non-stationarity을 줄이는 데 도움이 되지만 둘 다 샘플 효율성을 제한합니다.

참조 :

Stabilising Experience Replay for Deep Multi-Agent Reinforcement Learning
Many real-world problems, such as network packet routing and urban traffic control, are naturally modeled as multi-agent reinforcement learning (RL) problems. However, existing multi-agent RL methods typically scale poorly in the problem size. Therefore, a key challenge is to translate the success of deep learning on single-agent RL to the multi-agent setting.
https://arxiv.org/abs/1702.08887

이 문제를 해결하기 위해 위 논문에서는 IQL 유형의 알고리즘에서 replay memory를 안정화하기 위한 두 가지 알고리즘을 제안합니다.

구체적으로 local observation의 action과 완전히 협력적인 MARL을 제시합니다.

이러한 방식으로 다양한 에이전트에서 생성된 서로 다른 정책에서 일어난 transition의 효과는 그래디언트에 영향을 미치고 normalize 됩니다.

그러나 DNN의 매개변수의 수는 일반적으로 많기 때문에 실제로 모든 gradient에 전파 하기에는 더 많은 iteration이 필요해 수렴보장이 어렵습니다.

따라서 반복 횟수 $e$와 $epsilon$-greedy 알고리즘으로 replay memory의 각 인스턴스를 증가시켜 훈련을 안정화 합니다.


Uploaded by N2T

Comments