목록분류 전체보기 (43)
코코와 나
지금까지 포스팅 되어 온 Q-learning, Policy gradient, actor-critic, DQN, DDQN 과 같은 알고리즘은 특정 환경에서 하나의 에이전트를 훈련하고 동작하는데 의미가 있었습니다. 하지만 환경이 커지고 변수가 많아지면 (action) 하나의 “똑똑한” 에이전트가 모든 문제를 해결하는것으로 올바른 환경의 변화를 이끌 수 있는 것만은 아닙니다. 그림과 같이 다수의 에이전트가 네트워크 에 의해 동작하는 경우를 가정해 봅니다. Multi-Agent 환경에서 각 에이전트의 Action은 환경의 변화만이 아니라 다른 에이전트의 행동을 위한 정책에도 유의미한 영향을 끼치게 됩니다. 다시 말해 각 에이전트의 상호 작용이 non-stationary합니다. 환경은 각 에이전트 $a_1, …,..
강화 학습은 ML 기술의 주요 갈래중 하나 이며 순차적인 의사 결정 프로세스를 해결하는 데 효과적으로 동작합니다.RL은 목표 지향적 방법이며 임의의 환경과의 상호 작용을 통해 최적의 목표에 도달하는것을 aim으로 합니다. 특히 RL은 에이전트가 관찰에 따라 action를 취하는 방법을 훈련하고 그 과정에서 미지의 환경에서 action에 대한 보상을 얻는 방식의 반복으로 훈련된다고 배웠습니다. 에이전트는 축적된 학습 경험을 바탕으로 획득한 보상을 극대화하기 위한 최적의 정책을 탐색합니다. 이 paper는 Cellular network의 최적의 Resource 할당을 목적으로 작성되었지만 그중에서 Multi-Agent를 훈련하는 과정만 추려서 살펴보도록 하겠습니다.참고 : Dynamic power alloc..
참조 : http://incompleteideas.net/papers/barto-sutton-anderson-83.pdfhttps://proceedings.neurips.cc/paper/1999/file/6449f44a102fde848669bdd9eb6b76fa-Paper.pdfDueling DQN이 Q 값을 구하기기 위해 신경망 네트워크의 결과를 $V$ 와 $A$ 로 나누고 후에 다시 합치는 형태를 취했습니다. 한편 Actor-Critic은 Actor 네트워크와 Critic 네트워크, 즉 두 개의 네트워크를 사용해 Q값을 결정합니다.Actor는 State에 대한 action을 결정하고 Critic은 state의 value를 추정합니다. Dueling DQN과 유사한 구조를 갖는것 같지만 Dueling ..
이전 포스트에서 multi agent training의 어려움과 다양한 접근법에 대해서 알아보았습니다. multi agent 강화학습을 기존의 single agent 강화학습과 유사하게 Fully Centralized 방식으로 훈련하게 되면 Action Space가 기하급수적으로 늘어나기 때문에 현실적으로 최적에 가까운 해를 찾기 어려워집니다. 한편 Fully Decentralized 방식을 통하는 경우, multi agent 강화학습을 통해 훈련하고자 하는 협업 또는 경쟁적 action에 대해 학습하기 어렵게 됩니다. 이러한 이유로 대다수의 접근에서 는 알고리즘의 훈련도중에는 모든 에이전트의 관측 정보를 이용하고, inference에서는 각 에이전트 자신의 관측 정보만을 이용하여 실행하는 방식인 중앙집..
다중 에이전트 RL 문제를 해결하는 가장 단순한 접근 방식은 나머지 에이전트를 환경의 일부로 간주하고 현재 동작중인 각 에이전트를 독립적으로 처리하는 것입니다. 이 아이디어는 각 에이전트가 로컬 관찰에 액세스하고 전체 에이전트가 공동 보상을 최대화하려고 하는 독립적인 Q-Learning(IQL) 알고리즘으로 공식화됩니다. 참조: https://web.media.mit.edu/~cynthiab/Readings/tan-MAS-reinfLearn.pdf각 에이전트는 별도의 Q 학습 알고리즘을 실행합니다. 여기서 IQL은 (i) 에이전트 수를 늘려도 확장성 문제가 없고, (ii) 각 에이전트는 훈련 및 추론 시간 동안 local observation만 필요하기 때문에 문제가 단순해 집니다. IQL은 일반적으로 ..
Multi-Agent RL Notations and Formulation Multi-Agent는 기본적으로 다수개의 Agent가 하나의 환경에서 상호작용 하는 것을 바탕으로 합니다. 이 섹션에서는 Multi-Agent의 훈련이 어려운 이유에 대해서 이야기 해보겠습니다.Multi Agent를 위한 기본 설정은 다음과 같습니다. $N$은 에이전트 수, $S$는 상태 공간, $A = {A_1, . . . , A_N }$는 모든 에이전트에 대한 action의 집합, $P$는 state-transition 확률, $R$은 보상 함수, $O = {O_1,...,O_N}$은 모든 에이전트에 대한 관찰 집합입니다. 이때 환경이 완전히 협조적인 경우 각 시간 단계에서 모든 에이전트는 공동 보상 값 $r_t$를 받습니..
본문 : https://www.researchgate.net/publication/335135046_A_Review_of_Cooperative_Multi-Agent_Deep_Reinforcement_Learning/link/5ef3a6614585153fb1b389ed/download 다중 에이전트 강화 학습(MARL)은 주어진 환경 내에서 상호 작용하는 다수개의 에이전트를 기반으로 하는 특정 시스템입니다. 각 에이전트는 각 시간 단계에서 결정( action )을 내리고 다른 에이전트와 협력하여 주어진 목표를 달성합니다. 기본적으로 에이전트는 환경과의 상호 작용을 통해 장기적인 보상을 극대화하기 위해 주어진 정책을 학습하려는 학습 가능한 요소로 정의 될 수 있습니다. 환경의 복잡성과 문제의 조합적 특성으로..
본문 : https://ieeexplore.ieee.org/document/9882277 FL은 모든 사용자가 Server로부터 ML 모델을 수신하고 동시에 로컬 데이터 세트로 로컬 교육을 수행한 다음 모델 집계를 수행하기 위해 로컬 모델 업데이트를 Server로 보내는 병렬 모델 훈련을 수행했습니다. FL에서 모든 사용자는 모델을 훈련 가능한 충분한 계산 자원을 가지고 있어야 하며 통신 오버헤드는 모델 크기에 따라 결정되었습니다. FL과 달리 분할 학습(SL)은 ML 모델을 컷 레이어에 의해 하위 모델로 나누고 모델 학습을 위해 client에 배포합니다. , Server의 하위 모델 (Server-side 모델이라고 함)은 서버측에서 훈련되며 여기서 절단 레이어의 스매시된 데이터만 전송되었습니다. 이를..