참조 :
Dueling DQN이 Q 값을 구하기기 위해 신경망 네트워크의 결과를 $V$ 와 $A$ 로 나누고 후에 다시 합치는 형태를 취했습니다. 한편 Actor-Critic은 Actor 네트워크와 Critic 네트워크, 즉 두 개의 네트워크를 사용해 Q값을 결정합니다.
Actor는 State에 대한 action을 결정하고 Critic은 state의 value를 추정합니다. Dueling DQN과 유사한 구조를 갖는것 같지만 Dueling DQN에서는 최종적으로 $V$와 $A$를 merging해 Q 값을 구하는 한편 Actor-Critic 은 값을 합치지 않습니다.

DQN 과 Actor-Critic 의 차이는 Replay Buffer를 통해 기존 training의 log를 집계하는지의 여부 입니다.
이에 Actor-Critic은 Replay memory 없이 매 순간에서 얻어진 을 통해 모델을 훈련합니다.
DQN 은 신경망에 의한 Q-table을 통해 $Q(s,a)$ 값을 도출했지만 Actor-Critic 은 $π(s,a)$값과 $V(s)$ 값을 따로 구합니다. $π(s,a)$는 특정 State에서 특정 Action을 취할 확률분포를 의미합니다.

에이전트의 action에 대한 확률분포를 training하는 방법을 policy gradient라고 했습니다. policy는 에이전트의 행동을 결정하는 정책이며 gradient 는 미분을 통해 policy 값을 갱신하면서 최적의 policy를 위한 수렴을 유도한다는 개념입니다. 하지만 에이전트의 action에 대한 확률분포를 training하는것은 적은 모수에 있어 불안정하므로 value-Function을 함꼐 업데이트 하며 global model의 안정성을 높이도록 합니다. 이를 Actor-Critic이라고 합니다.

action value function을 update하는 것은 TD(0)를 사용하여 update합니다. 이에 매 time step마다 update하며 model을 갱신합니다. 또 update과정에서 policy의 parameter와 action value function의 parameter를 같은 시간에 update합니다.
Uploaded by N2T