Notice
Recent Posts
Recent Comments
Link
«   2026/01   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

코코와 나

DDPG 본문

논문리뷰

DDPG

코코빵댕이 2023. 1. 8. 03:02

이전 포스트에서 multi agent training의 어려움과 다양한 접근법에 대해서 알아보았습니다.

multi agent 강화학습을 기존의 single agent 강화학습과 유사하게 Fully Centralized 방식으로 훈련하게 되면 Action Space가 기하급수적으로 늘어나기 때문에 현실적으로 최적에 가까운 해를 찾기 어려워집니다.

한편 Fully Decentralized 방식을 통하는 경우, multi agent 강화학습을 통해 훈련하고자 하는 협업 또는 경쟁적 action에 대해 학습하기 어렵게 됩니다.

이러한 이유로 대다수의 접근에서 는 알고리즘의 훈련도중에는 모든 에이전트의 관측 정보를 이용하고, inference에서는 각 에이전트 자신의 관측 정보만을 이용하여 실행하는 방식인 중앙집중형 훈련-분산형 실행 (CTDE: Centralized Training and Decentralized Execution) 메커니즘을 기반으로 multi agent 강화학습 알고리즘을 구성하고 있습니다.

Continuous control with deep reinforcement learning
We adapt the ideas underlying the success of Deep Q-Learning to the continuous action domain. We present an actor-critic, model-free algorithm based on the deterministic policy gradient that can operate over continuous action spaces.
https://arxiv.org/abs/1509.02971

multi agent의 확장을 시작하기 전에 먼저 DQN알고리즘을 연속공간 상태 변수와 행동에도 적용할 수 있는지에 대해서 먼저 생각해 보고 DDPG에 대해서 알아보도록 하겠습니다.

DDPG(Deep Deterministic Policy Gradient)는 Q-함수와 정책을 동시에 학습하는 알고리즘입니다. 오프 정책 데이터와 Bellman 방정식을 사용하여 Q-함수를 학습하고 Q-함수를 사용하여 정책을 학습합니다.

이 접근 방식은 Q-러닝과 밀접하게 연결되어 있으며 동일한 방식으로 동기 부여됩니다. 최적의 행동 가치 함수를 알고 있으면 주어진 상태에서 최적의 행동을 해결하여 찾을 수 있습니다.

DDPG는 에 대한 근사값 최적 가치 함수의 학습과 최적 행동에 대한 근사값 학습을하며 연속 작업 공간이 있는 환경에 적합한 방식으로 수렴합니다. 

DDPG가 연속적인 행동 공간이 있는 환경에 적응된다는 것은 무엇일까요? 

이는 maxaQ(s,a)max_aQ^*(s,a)에서 작업에 대한 최대값을 계산하는 방법을 살펴야 합니다.

제한된 수의 불연속 행동이 있는 경우 max 값은 문제가 되지 않습니다.

각 행동에 대한 Q-값을 개별적으로 계산하고 직접 비교할 수 있기 때문입니다. (이것은 또한 Q-값을 최대화하는 정책을 반드시 찾을 수 있게 합니다.)

그러나 action 공간이 연속적일 때 공간을 완전히 평가할 수 없으며 그과정에서 최적화 문제를 해결하는 것은 굉장히 어려워 집니다.

 일반 최적화 알고리즘을 사용 하면 높은 비용 소요되며 에이전트가 환경에서 action을 수행할때마다 실행되어야 하므로 바람직 하지 않습니다.

DDPG

DDPG의 특징은 다음과 같습니다.

  • DDPG는 오프 정책 알고리즘이다.
  • DDPG는 연속 행동 공간이 있는 환경에서만 사용가능
  • DDPG는 지속적인 행동 공간을 위한 딥 Q-러닝임

DDPG의 Q-learning

먼저 최적 행동 가치 함수를 설명하는 Bellman 방정식을 요약해 보면 다음과 같습니다.

그리고 신경망이 평균적으로 일정 수치 이상의 훈련 세트를 수집한 경우에 다음과 같은 MSBE(평균 제곱 벨만 오류)를 설정해 오차를 수치화 합니다.

Calculating the Max Over Actions in the Target

앞서 언급한 바와 같이, 대상에서 행동에 대한 최대값을 계산하는 것은 연속적인 행동 공간에서 어려운 일입니다. DDPG는 대상 정책 네트워크 를 사용하여 대략적으로 최대화하는 조치를 계산함으로써 이를 처리 합니다.

종합하면 DDPG의 Q-learning은 SGD를 통한 MSBE 손실을 최소화 합니다.

Policy learning of DDPG

DDPG는 μθ(s)\mu_\theta(s)를 최대화 하는 action을 정책을 훈련하는 것을 목적으로 합니다. 행동 공간이 연속적이면 Q function이 행동에 대해 미분 가능하기 때문에 다음과 같은 경사상승을 수행할 수 있습니다.

알고리즘은 다음과 같습니다.


Uploaded by N2T

Comments