Notice
Recent Posts
Recent Comments
Link
«   2026/01   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

코코와 나

Deep Q-Network(3) 본문

기계학습

Deep Q-Network(3)

코코빵댕이 2022. 12. 31. 05:20

Action-Value function

 

가치 함수는 특정 상태에서의 반환값들의 기댓값 이였습니다.

현재의 특정 상태에서 하나의 에피소드가 끝날때까지 받은 보상의 합은 현재 상태의 잠재적 가치입니다. 즉 State value function은 지금부터 기대되는 return 입니다.

 

한편 Q(s,a)는 에이전트에게 특정 상태에서 가능한 행동의 가치를 알려줍니다. 상태가 주어지면 행동가치 함수는 어떤 상태에서 가능한 각 행동의 가치를 수치적으로 나타냅니다.

 

 

첫번째 식에서 처럼 기댓값을 붙이면 확률적으로 동작하는 새로운 행동-가치함수를 얻을 수 있습니다.

환경에 의해 결정되는 어떤 상태에서 다음 상태로의 전이 확률 입니다.

즉 지금 행동으로부터 기대되는 return 입니다. 지금 State로부터 하는 행동에 대한 기대되는 리턴입니다.

 


 

Q-learning

Q-러닝은 off-policy, 즉 모델이 없는 RL 알고리즘입니다. on-policy agent는 현재 정책에서 파생된 현재 action을 기반으로 값을 학습하는 반면 off-policy는 다른 정책에서 가져온 작업 a*를 기반으로 값을 학습합니다. Q-러닝에서 그러한 정책은 greedy policy입니다.

 

 

즉 가장 높은 값인 Q만 가지고 갑니다.

지금까지 정책이 확률적으로 무작위로 움직였던 Action-value에 이 greedy policy를 넣으면 다음과 같습니다.

 

여기서 TD method를 붙이면 더욱 간단해 집니다.

 

 

 

이렇게 greedy 정책으로 업데이트된 td를 통해 업데이트 하는것을 Q-learning이라고 합니다.


Uploaded by

N2T

'기계학습' 카테고리의 다른 글

Actor-Critic  (0) 2023.01.08
Deep Q network (4)  (0) 2022.12.31
Deep Q-Network (2)  (0) 2022.12.31
DQN(Deep Q-network)  (1) 2022.12.31
ICML 2021  (1) 2022.12.31
Comments