Notice
Recent Posts
Recent Comments
Link
«   2026/01   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

코코와 나

Actor-Critic 본문

기계학습

Actor-Critic

코코빵댕이 2023. 1. 8. 03:03

참조 :

http://incompleteideas.net/papers/barto-sutton-anderson-83.pdf
https://proceedings.neurips.cc/paper/1999/file/6449f44a102fde848669bdd9eb6b76fa-Paper.pdf

Dueling DQN이 Q 값을 구하기기 위해 신경망 네트워크의 결과를 $V$ 와 $A$ 로 나누고 후에 다시 합치는 형태를 취했습니다. 한편 Actor-Critic은 Actor 네트워크와 Critic 네트워크, 즉 두 개의 네트워크를 사용해 Q값을 결정합니다.

Actor는 State에 대한 action을 결정하고 Critic은 state의 value를 추정합니다. Dueling DQN과 유사한 구조를 갖는것 같지만 Dueling DQN에서는 최종적으로 $V$와 $A$를 merging해 Q 값을 구하는 한편 Actor-Critic 은 값을 합치지 않습니다.

DQN 과 Actor-Critic 의 차이는 Replay Buffer를 통해 기존 training의 log를 집계하는지의 여부 입니다.

이에 Actor-Critic은 Replay memory 없이 매 순간에서 얻어진 <S,A,R,S><S,A,R,S'>을 통해 모델을 훈련합니다.

DQN 은 신경망에 의한 Q-table을 통해 $Q(s,a)$ 값을 도출했지만 Actor-Critic 은 $π(s,a)$값과 $V(s)$ 값을 따로 구합니다. $π(s,a)$는 특정 State에서 특정 Action을 취할 확률분포를 의미합니다.

에이전트의 action에 대한 확률분포를 training하는 방법을 policy gradient라고 했습니다. policy는 에이전트의 행동을 결정하는 정책이며 gradient 는 미분을 통해 policy 값을 갱신하면서 최적의 policy를 위한 수렴을 유도한다는 개념입니다. 하지만 에이전트의 action에 대한 확률분포를 training하는것은 적은 모수에 있어 불안정하므로 value-Function을 함꼐 업데이트 하며 global model의 안정성을 높이도록 합니다. 이를 Actor-Critic이라고 합니다.

action value function을 update하는 것은 TD(0)를 사용하여 update합니다. 이에 매 time step마다 update하며 model을 갱신합니다. 또 update과정에서 policy의 parameter와 action value function의 parameter를 같은 시간에 update합니다.


Uploaded by N2T

'기계학습' 카테고리의 다른 글

Deep Q network (4)  (0) 2022.12.31
Deep Q-Network(3)  (0) 2022.12.31
Deep Q-Network (2)  (0) 2022.12.31
DQN(Deep Q-network)  (1) 2022.12.31
ICML 2021  (1) 2022.12.31
Comments