Deep Q-Network(3)

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Action-Value function

가치 함수는 특정 상태에서의 반환값들의 기댓값 이였습니다.

현재의 특정 상태에서 하나의 에피소드가 끝날때까지 받은 보상의 합은 현재 상태의 잠재적 가치입니다. 즉 State value function은 지금부터 기대되는 return 입니다.

한편 Q(s,a)는 에이전트에게 특정 상태에서 가능한 행동의 가치를 알려줍니다. 상태가 주어지면 행동가치 함수는 어떤 상태에서 가능한 각 행동의 가치를 수치적으로 나타냅니다.

첫번째 식에서 처럼 기댓값을 붙이면 확률적으로 동작하는 새로운 행동-가치함수를 얻을 수 있습니다.

환경에 의해 결정되는 어떤 상태에서 다음 상태로의 전이 확률 입니다.

즉 지금 행동으로부터 기대되는 return 입니다. 지금 State로부터 하는 행동에 대한 기대되는 리턴입니다.

Q-learning

Q-러닝은 off-policy, 즉 모델이 없는 RL 알고리즘입니다. on-policy agent는 현재 정책에서 파생된 현재 action을 기반으로 값을 학습하는 반면 off-policy는 다른 정책에서 가져온 작업 a*를 기반으로 값을 학습합니다. Q-러닝에서 그러한 정책은 greedy policy입니다.