Notice
Recent Posts
Recent Comments
Link
«   2026/01   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

코코와 나

POMDP(partially observable Markov decision process) 본문

기계학습

POMDP(partially observable Markov decision process)

코코빵댕이 2022. 12. 22. 23:28

많은 실제 애플리케이션에서 에이전트는 환경의 전체 상태를 알지 못합니다. 

 

 

이러한 경우 에이전트는 시스템의 현재 상태를 조건으로 하는 관찰을 통해서 환경과 상호작용하는 결정을 내려야 합니다.

 

이러한 유형의 문제는 POMDP로 모델링할 수 있습니다.

 

POMDP는 6-튜플(S, A, T, R, Z, O)로 공식화할 수 있습니다.

여기서 S, A, T, R은 이전 포스트에서 살펴보았듯이 Markov 결정 프로세스에서와 같이 상태, 작업, 전환 및 보상입니다.

Z,O는 각각 관찰 공간과 관찰 모델입니다.

POMDP 모델을 정의하면 에이전트는 환경과 상호 작용할 때 일종의 신념 $b(s)$를 업데이트할 수 있습니다.

 

신념은 어떤 행동 action 및 관찰 기록 observation 에 따라 상태 state 에 있을 확률을 정의합니다.

 

불연속 신념을 가진 시스템은 다음 식을 통해 업데이트할 수 있습니다.

 

Environment 모델이 알려진 경우 최적의 POMDP 정책을 근사화하기 위한 많은 접근 방식이 연구 되었습니다.

 

본문 : http://www.roboticsproceedings.org/rss04/p9.pdf

SARSOP는 POMDP 정책을 효율적으로 계산하기 위해 최적으로 도달 가능한 신뢰 공간을 샘플링하는것을 목적으로 합니다.

이를 통해 최종적으로 POMDP의 최적 함수는 다음 형식을 취하는 조각별 선형 볼록 함수로 근사할 수 있습니다.

만약에 알파 벡터 α와 관련된 행동이 내적 α · b를 최대화하는 경우에 해당 행동이 최적입니다.

이와 같이 강화 학습은 확률적 정책을 나타내는 함수 근사를 사용하여 POMDP의 맥락에서도 사용될 수 있습니다.

유사한 접근 방식을 사용하여 POMDP를 사용한 강화 학습에 대한 DQN에 접목하는 경우에 POMDP RL이라고 합니다.

 

 

'기계학습' 카테고리의 다른 글

Monte Carlo Method(몬테카를로 방법)  (0) 2022.12.25
Deep Q network (DQN)  (1) 2022.12.25
Markov Decision Process  (0) 2022.12.22
9. SVM (Support Vector Machine)  (0) 2021.08.31
8. 규제가 있는 선형모델 (LASSO,ElasticNet)  (0) 2021.08.31
Comments