Notice
Recent Posts
Recent Comments
Link
«   2026/01   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

코코와 나

Dynamic power allocation in cellular network based on multi-agent double deep reinforcement learning 본문

논문리뷰

Dynamic power allocation in cellular network based on multi-agent double deep reinforcement learning

코코빵댕이 2023. 1. 8. 03:33

강화 학습은 ML 기술의 주요 갈래중 하나 이며 순차적인 의사 결정 프로세스를 해결하는 데 효과적으로 동작합니다.

RL은 목표 지향적 방법이며 임의의 환경과의 상호 작용을 통해 최적의 목표에 도달하는것을 aim으로 합니다.

특히 RL은 에이전트가 관찰에 따라 action를 취하는 방법을 훈련하고 그 과정에서 미지의 환경에서 action에 대한 보상을 얻는 방식의 반복으로 훈련된다고 배웠습니다.

에이전트는 축적된 학습 경험을 바탕으로 획득한 보상을 극대화하기 위한 최적의 정책을 탐색합니다.

이 paper는 Cellular network의 최적의 Resource 할당을 목적으로 작성되었지만 그중에서 Multi-Agent를 훈련하는 과정만 추려서 살펴보도록 하겠습니다.

참고 :

Dynamic power allocation in cellular network based on multi-agent double deep reinforcement learning | Computer Networks: The International Journal of Computer and Telecommunications Networking
Abstract With the massively growing wireless data traffic, the dense cellular network has become a significant mode for the fifth generation (5G) network. To fully utilize the benefit of the cellul...
https://dl.acm.org/doi/abs/10.1016/j.comnet.2022.109342

Training Algorithm

RL의 목표는 다음과 같습니다.

미래 에 얻을 수 있는 최적 정책의 보상의 할인 값을 maximize 하는것 입니다.

Q-learning 알고리즘은 정책 $𝜋$에 대한 행동 가치 함수 $𝑄_𝜋(𝑠,𝑎)$ 즉 현재 상태에 대한 action의 기대값을 Q로 합니다.

기본적인 Q-learning은 다음과 같이 업데이트 됩니다.

첫 번째 에피소드에서 조회 테이블은 무작위로 초기화되며 에피소드가 진행됨에 따라 점진적으로 업데이트 됩니다.

각 단계에서 $\epsilon$-greedy에 의해 랜덤 탐색과 최적 정책을 번갈아 가며 탐색합니다.

일반적으로 Q-Learning 방법은 상태 및 행동 공간이 작을 때 유효합니다. 최적의 전략을 찾기 위해 Q-테이블을 방문하는 데 추가 시간이 소요되고 네트워크 규모가 큰 경우 테이블을 저장하기 위해 많은 메모리 공간이 필요합니다.

DQN은 큰 공간의 최적화 문제를 해결하는 데 사용됩니다. DQN에서 가중치 $𝜃$가 있는 DNN(심층 신경망)은 Q 함수, 즉 $𝑞(𝑠, 𝑎, 𝜃) ≈ 𝑞^∗(𝑠, 𝑎)$를 추정하는 용도로 사용됩니다.

이때 DQN은 두 개의 신경망, 즉 target Q-네트워크와 training Q-네트워크를 사용하여 네트워크 성능을 안정화화 합니다.

가중치 $𝜃−$가 있는 target Q-네트워크는 가중치 $𝜃$가 있는 train Q-네트워크와 동일한 네트워크 구조를 갖습니다. 훈련이 진행되면서 $𝜃$는 매 단계마다 업데이트되지만 $𝜃−$는 $𝑁$개의 단계마다 동기화되고 나머지 단계에서는 고정된 채로 유지됩니다.

훈련 분포를 원활하게 하고 학습 불안정성을 극복하기 위해 훈련 과정의 주요 요소$(𝑠(𝑡) , 𝑎(𝑡) , 𝑟(𝑡+1) , 𝑠(𝑡+1))$ 를 experience-replay memory를 큐 형태로 구성하여 FIFO(First Input First Output)로 관리 합니다. 메모리 길이는 에이전트 수와 비례적으로 증가해야 하는 관계가 있습니다.

각 에피소드에서 기차 Q-네트워크의 최소 제곱 손실은 확률적 경사 하강법(SGD) 방법으로 최소화됩니다.

그릭호 target network는

로 정의 됩니다.

하지만 여기서 max를 선택하는게 동일한 값이 사용되므로 Q-값이 낙관적으로 추정됩니다.

그러므로 Double DQN을 통해 값을 안정화 합니다. (이전 포스트 참조 )

이에 따른 최소 제곱 손실은 다음과 같습니다.

Multi Agent DQN

다중 에이전트 훈련 시스템에서 환경의 다음 상태는 각기 다른 공동의 에이전트의 action에 따라 달라집니다.

그 과정에서 훈련 정책을 위해 중앙 집중식 및 분산형 아키텍처가 제안되었습니다. 중앙 집중식 아키텍처에서는 각 에이전트의 로컬 상태가 중앙 에이전트로 전송됩니다. 그러면 모든 정보에 대한 접근으로 환경이 안정화 (노이즈 감소) 될 수 있습니다. 중앙 집중식 정책은 모든 에이전트에 대해 훈련되고 중앙 에이전트의 DNN은 모든 작업의 조합을 출력합니다.

하지만 에이전트의 수가 많아질수록 입력 차원은 선형적으로 증가하고 출력 차원은 기하급수적으로 증가합니다.

대조적으로 분산형 아키텍처는 다중 에이전트 학습 시스템을 여러 단일 에이전트 시스템과 독립적인 Q-러닝의 조합으로 취급해 단순화 합니다.

Independent한 Q-러닝 훈련 방식에서 각 에이전트는 자신의 action과 observation을 기반으로 독립적인 전략을 학습합니다. 그 과정에서 다른 에이전트는 환경의 일부로 취급됩니다.

분산형 아키텍처에서는 다른 에이전트가 현재 에이전트와 동시에 환경을 변경하고 정책도 변경하기 때문에 각 에이전트의 학습 환경은 고정되어 있지 않습니다. 또 이러한 분산형 아키텍처는 각 에이전트의 DNN 매개 변수를 저장하기 위해 많은 메모리가 요구 될 수 있습니다.

이 논문에서는 전력 할당 문제를 해결하기 위해 중앙 집중식 및 분산형 아키텍처 조합의 변형 다시말해 중앙 집중식 교육 및 분산 실행을 제안합니다.

위 그림은 이 아키텍처가 훈련 단계에서 모든 에이전트가 수집한 replay memory를 통해 중앙 집중식 학습절차를 통해 모델을 훈련합니다.

각 에이전트는 각 단계 $𝑡$에서 동일한 DQN 구조를 갖습니다. 그리고 주기적으로 배포됩니다.

또 각 에이전트는 서버측으로 각 local stateㄹ흘 동기화 하고 동일한 훈련된 정책을 분산 방식으로 실행하면서 훈련합니다. 즉, 서버는 각 개별 에이전트에 대해 동일한 DDQN을 구현하는 셈입니다.

알고리즘은 위와 같습니다.


Uploaded by N2T

'논문리뷰' 카테고리의 다른 글

Multi-Agent DQN  (0) 2023.01.21
DDPG  (0) 2023.01.08
Multi-Agent Deep Reinforcement learning (3)  (0) 2023.01.06
Multi-Agent Deep Reinforcement learning (2)  (0) 2023.01.06
Multi-Agent Deep Reinforcement learning (1)  (0) 2023.01.06
Comments