Actor-Critic

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

참조 :

http://incompleteideas.net/papers/barto-sutton-anderson-83.pdf

https://proceedings.neurips.cc/paper/1999/file/6449f44a102fde848669bdd9eb6b76fa-Paper.pdf

Dueling DQN이 Q 값을 구하기기 위해 신경망 네트워크의 결과를 $V$ 와 $A$ 로 나누고 후에 다시 합치는 형태를 취했습니다. 한편 Actor-Critic은 Actor 네트워크와 Critic 네트워크, 즉 두 개의 네트워크를 사용해 Q값을 결정합니다.

Actor는 State에 대한 action을 결정하고 Critic은 state의 value를 추정합니다. Dueling DQN과 유사한 구조를 갖는것 같지만 Dueling DQN에서는 최종적으로 $V$와 $A$를 merging해 Q 값을 구하는 한편 Actor-Critic 은 값을 합치지 않습니다.

DQN 과 Actor-Critic 의 차이는 Replay Buffer를 통해 기존 training의 log를 집계하는지의 여부 입니다.

이에 Actor-Critic은 Replay memory 없이 매 순간에서 얻어진 $<S,A,R,S'>$ 을 통해 모델을 훈련합니다.

DQN 은 신경망에 의한 Q-table을 통해 $Q(s,a)$ 값을 도출했지만 Actor-Critic 은 $π(s,a)$값과 $V(s)$ 값을 따로 구합니다. $π(s,a)$는 특정 State에서 특정 Action을 취할 확률분포를 의미합니다.

에이전트의 action에 대한 확률분포를 training하는 방법을 policy gradient라고 했습니다. policy는 에이전트의 행동을 결정하는 정책이며 gradient 는 미분을 통해 policy 값을 갱신하면서 최적의 policy를 위한 수렴을 유도한다는 개념입니다. 하지만 에이전트의 action에 대한 확률분포를 training하는것은 적은 모수에 있어 불안정하므로 value-Function을 함꼐 업데이트 하며 global model의 안정성을 높이도록 합니다. 이를 Actor-Critic이라고 합니다.

action value function을 update하는 것은 TD(0)를 사용하여 update합니다. 이에 매 time step마다 update하며 model을 갱신합니다. 또 update과정에서 policy의 parameter와 action value function의 parameter를 같은 시간에 update합니다.

Uploaded by N2T

Deep Q network (4) (0)	2022.12.31
Deep Q-Network(3) (0)	2022.12.31
Deep Q-Network (2) (0)	2022.12.31
DQN(Deep Q-network) (1)	2022.12.31
ICML 2021 (1)	2022.12.31

코코와 나

코코와 나

Actor-Critic 본문

Actor-Critic

'기계학습' 카테고리의 다른 글

티스토리툴바