코코와 나
POMDP(partially observable Markov decision process) 본문
많은 실제 애플리케이션에서 에이전트는 환경의 전체 상태를 알지 못합니다.

이러한 경우 에이전트는 시스템의 현재 상태를 조건으로 하는 관찰을 통해서 환경과 상호작용하는 결정을 내려야 합니다.
이러한 유형의 문제는 POMDP로 모델링할 수 있습니다.
POMDP는 6-튜플(S, A, T, R, Z, O)로 공식화할 수 있습니다.
여기서 S, A, T, R은 이전 포스트에서 살펴보았듯이 Markov 결정 프로세스에서와 같이 상태, 작업, 전환 및 보상입니다.

Z,O는 각각 관찰 공간과 관찰 모델입니다.
POMDP 모델을 정의하면 에이전트는 환경과 상호 작용할 때 일종의 신념 $b(s)$를 업데이트할 수 있습니다.
신념은 어떤 행동 action 및 관찰 기록 observation 에 따라 상태 state 에 있을 확률을 정의합니다.
불연속 신념을 가진 시스템은 다음 식을 통해 업데이트할 수 있습니다.

Environment 모델이 알려진 경우 최적의 POMDP 정책을 근사화하기 위한 많은 접근 방식이 연구 되었습니다.

본문 : http://www.roboticsproceedings.org/rss04/p9.pdf
SARSOP는 POMDP 정책을 효율적으로 계산하기 위해 최적으로 도달 가능한 신뢰 공간을 샘플링하는것을 목적으로 합니다.
이를 통해 최종적으로 POMDP의 최적 함수는 다음 형식을 취하는 조각별 선형 볼록 함수로 근사할 수 있습니다.

만약에 알파 벡터 α와 관련된 행동이 내적 α · b를 최대화하는 경우에 해당 행동이 최적입니다.

이와 같이 강화 학습은 확률적 정책을 나타내는 함수 근사를 사용하여 POMDP의 맥락에서도 사용될 수 있습니다.
유사한 접근 방식을 사용하여 POMDP를 사용한 강화 학습에 대한 DQN에 접목하는 경우에 POMDP RL이라고 합니다.
'기계학습' 카테고리의 다른 글
| Monte Carlo Method(몬테카를로 방법) (0) | 2022.12.25 |
|---|---|
| Deep Q network (DQN) (1) | 2022.12.25 |
| Markov Decision Process (0) | 2022.12.22 |
| 9. SVM (Support Vector Machine) (0) | 2021.08.31 |
| 8. 규제가 있는 선형모델 (LASSO,ElasticNet) (0) | 2021.08.31 |