POMDP与MDP的一句话区别:POMDP的state具有不确定性,由七元数组定义,多了观测空间、观测函数、初始置信(belief),根据观测概率矩阵求出最可能是的状态
利用值迭代法解决POMDP问题
MDP | POMDP |
状态→动作 | 信念状态→动作 |
信念状态:状态的概率分布
Beliefd的更新:在当前belief下,执行完动作a和得到观测o后,更新置信为b'
b'→s状态下,执行了动作a,获得观测值o,下一状态为s'的概率
评估当前环境后更新belief完成对当前状态的估计
优化目标同马尔可夫决策,以最优价值函数的应用为多
关于POMDP在RL
已知:观测空间Ω(观测值o),动作空间A(动作值a)
未知:状态空间S,状态转移函数T,观测函数O,且无法初始Belief