Action-Value function

가치 함수는 특정 상태에서의 반환값들의 기댓값 이였습니다.

현재의 특정 상태에서 하나의 에피소드가 끝날때까지 받은 보상의 합은 현재 상태의 잠재적 가치입니다. 즉 State value function은 지금부터 기대되는 return 입니다.
한편 Q(s,a)는 에이전트에게 특정 상태에서 가능한 행동의 가치를 알려줍니다. 상태가 주어지면 행동가치 함수는 어떤 상태에서 가능한 각 행동의 가치를 수치적으로 나타냅니다.

첫번째 식에서 처럼 기댓값을 붙이면 확률적으로 동작하는 새로운 행동-가치함수를 얻을 수 있습니다.
환경에 의해 결정되는 어떤 상태에서 다음 상태로의 전이 확률 입니다.

즉 지금 행동으로부터 기대되는 return 입니다. 지금 State로부터 하는 행동에 대한 기대되는 리턴입니다.
Q-learning
Q-러닝은 off-policy, 즉 모델이 없는 RL 알고리즘입니다. on-policy agent는 현재 정책에서 파생된 현재 action을 기반으로 값을 학습하는 반면 off-policy는 다른 정책에서 가져온 작업 a*를 기반으로 값을 학습합니다. Q-러닝에서 그러한 정책은 greedy policy입니다.

즉 가장 높은 값인 Q만 가지고 갑니다.

지금까지 정책이 확률적으로 무작위로 움직였던 Action-value에 이 greedy policy를 넣으면 다음과 같습니다.

여기서 TD method를 붙이면 더욱 간단해 집니다.

이렇게 greedy 정책으로 업데이트된 td를 통해 업데이트 하는것을 Q-learning이라고 합니다.
Uploaded by
N2T