Notice
Recent Posts
Recent Comments
Link
«   2026/01   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

코코와 나

Deep Q-Network (2) 본문

기계학습

Deep Q-Network (2)

코코빵댕이 2022. 12. 31. 05:20

State transition

에이전트는 현재 상태에서 확률 분포에 의해 다음 상태로 전환할 수 있습니다 . 이때 상태 가치 함수는 기본적으로 모든 상태 변환 에 대한 반환의 예상 값입니다. 이제 동일한 정의를 사용하여 다음 상태의 return을 다음 상태의 가치 함수로 재귀적으로 대체할 수 있습니다 . 이것이 바로 Bellman 방정식이 하는 일입니다.

 


 

MDP(MARKOV DECISION PROCESS)를 위한 상태 가치 함수

 

이는 마르코프 보상 체계에서의 가치 함수와 비슷하게 생겼습니다. 하지만 약간의 차이가 있습니다.


 

MDP(MARKOV DECISION PROCESS)를 위한 행동 가치 함수

MDP는 동작을 상태 전환의 매개변수로 간주하여 MRP에 직접적으로 동작을 수행합니다. 따라서 상태와 함께 action을 평가합니다. 이에 행동에 대한 예상 리워드를 반환하는 행동 가치 함수를 정의합니다.


 

BELLMAN 기대 방정식(MDP)

 

앞서 설명한 상태가치함수는 해당 상태의 가치를 앞으로 받을 보상들의 합인 리턴값의 기댓값(평균)으로 '상태의 가치'를 표현한 함수였습니다.

 

한편 행동가치함수는 각 행동에 대한 가치를 알려줍니다.

 

이는 어떤 상태에서 어떤 행동이 얼마나 좋은지 알려주는 척도가 될 수 있습니다.

 

행동가치함수는 Q-function이라고 하며, 상태, 행동이라는 두 가지 변수를 가지면서 $q_π(s,a)$ 로 나타냅니다. 큐함수를 상태 가치함수와 같이 수식으로 나타내면 위 그림과 같습니다.

 

qπ(s,a) = Eπ [ Rt+1 + γqπ(St+1, At+1) | St = s, At = a ]

 

다른점은 변수로 A action이 들어간다는 점이 됩니다. 현재 상태의 큐함수와 다음 상태의 가치 함수의 관계는 상태 가치 함수와 같습니다. 이를 Q-dunction에서의 bellan equation이 됩니다.

 

즉, 각 행동에 대해 그 행동을 할 확률을 고려해주고(π(a|s)), 각 행동을 했을 때 받을 보상과(Rt+1) γ로 할인된 다음 상태의 가치함수와 상태 변환 확률의 곱을 고려하는 것입니다.

 


 

Markov 의사 결정 프로세스 최적 가치 함수

 

선택 가능한 모든 action에 대해 MDP의 모든 State-action 값을 알게 되면 그중 가장 높은 것을 취하는것으로 최적의 정책을 달성 할 수 있습니다.

 

그러면 주어진 모든 상태에 대해 최대 값을 갖는 행동에 1을 부여하고 나머지는 0을 부여 합니다.

 


 

벨만 최적 방정식

 

최적의 가치함수는 이렇게 생겼습니다.

 

현재의 가치 함수가 최적이라고 하면 에이전트의 가장 높은 Q 값을 가져갑니다.

 

여기서 max(q_*)는 maxE[Rt+1 + γv*(St+1) | St = s, At = a] 입니다.

최적 정책을 따라가고 있을 때 현재의 큐함수는 다음 상태에서 선택 가능한 행동에서 가장 높은 큐값을 가중 합 하며 점진적으로 더한 것과 같을 것입니다. q*(s,a)는 다음과 같습니다.

E[Rt+1 + γmaxq*(St+1,a') | St = s, At = a]

여기서 a'는 바로 다음 상태에서 선택 가능한 행동 중 가장 가치가 높은 행동을 의미합니다. 이 벨만 기대 방정식과 벨만 최적 방정식으로 순차적 의사결정 문제를 풀어낼 수 있습니다.


Uploaded by

N2T

'기계학습' 카테고리의 다른 글

Deep Q network (4)  (0) 2022.12.31
Deep Q-Network(3)  (0) 2022.12.31
DQN(Deep Q-network)  (1) 2022.12.31
ICML 2021  (1) 2022.12.31
Temporal Diff & SARSA  (0) 2022.12.25
Comments