马尔可夫决策过程和贝尔曼方程

article/2025/8/2 20:40:28

马尔可夫决策过程(MDP)简介

下一个状态 S t + 1 S_{t+1} St+1是从概率分布P中得到的,该概率分布P取决于整个历史,因此我们需要考虑从 s 0 s_0 s0开始到t时刻的状态。马尔可夫是具有马尔可夫性质的随机过程

  • 定义
    P [ S t + 1 ∣ S t ] = P [ S t + 1 ∣ S 1 , . . . , S t ] \Bbb{P}[S_{t+1}|S_t]=\Bbb{P}[S_{t+1}|S_1,...,S_t] P[St+1St]=P[St+1S1,...,St]

“The future is independent of the past given the present”
也就是说,未来只与现在有关,与过去无关,根据现在可以推衍未来(过去无可挽回,未来可以知晓)。如此问题就简化了,得到 S t + 1 S_{t+1} St+1,只需要知道 S t S_{t} St

  • 性质
    • 状态从历史(history)中捕获了所有相关信息 S = f ( H ) S=f(H) S=f(H)
    • 当状态已知的时候,可以抛开历史不管
    • 也就是说,当前状态是未来的充分统计量

举例:马尔可夫性质意味着t时刻的状态(和动作)包含了足够的信息来完全确定t+1时刻的下一个状态转移概率。斐波那契序列,可以用动态规划的方式让式子 s t + 1 = s t − 1 + s t s_{t+1}=s_{t-1}+s_{t} st+1=st1+st成立。

  • MDP五元组
    • S S S是状态的集合
    • A A A是动作的集合
    • P s a P_{sa} Psa是状态转移函数
    • γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ[0,1]是对未来奖励的折扣因子
    • R R R是奖励,有时候仅仅与状态有关系

动态过程


如上图所示,MDP的动态过程如下:

  • 从状态 s 0 s_0 s0开始
  • 智能体(Agent)选择一个动作 a 0 ∈ A a_0\in A a0A
  • 智能体获得奖励 R ( s 0 , a 0 ) R(s_0,a_0) R(s0,a0)
  • MDP随机转移到下一个状态 s 1 s_1 s1~ P s 0 a 0 P_{s_0a_0} Ps0a0

上述过程会不断循环执行,直至终止状态 S t S_t St出现

贝尔曼方程

贝尔曼方程

贝尔曼方程是对价值函数的一个简化,可将价值函数分解为及时奖励和衰减后的未来奖励之和
V ( s ) = E π [ G t ∣ S t = s ] = E π [ R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . ∣ S t = s ] = E π [ R t + 1 + γ ( R t + 2 + γ R t + 3 + . . . ) ∣ S t = s ] = E π [ R t + 1 + γ V ( s ) ∣ S t = s ] V(s)=\Bbb{E}_\pi[G_{t}|S_t=s]{\kern 135pt}\\ =\Bbb{E}_\pi[R_{t+1}+\gamma R_{t+2}+\gamma ^2R_{t+3}+...|S_t=s]{\kern 4pt}\\ =\Bbb{E}_\pi[R_{t+1}+\gamma (R_{t+2}+\gamma R_{t+3}+...)|S_t=s]{\kern 0pt}\\ =\Bbb{E}_\pi[R_{t+1}+\gamma V(s)|S_t=s]{\kern 65pt} V(s)=Eπ[GtSt=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γ(Rt+2+γRt+3+...)St=s]=Eπ[Rt+1+γV(s)St=s]
同理,动作价值函数可以表示为:
Q ( s ) = E [ R t + 1 + γ V ( s ) ∣ S t = s , A t = a ] = E [ R t + 1 + γ E a ∼ π Q ( S t + 1 , a ) ∣ S t = s , A t = a ] Q(s)=\Bbb{E}[R_{t+1}+\gamma V(s)|S_t=s,A_t=a]{\kern 64pt}\\ =\Bbb{E}[R_{t+1}+\gamma \Bbb{E}_{a\sim\pi}Q(S_{t+1,a})|S_t=s,A_t=a]{\kern 0pt} Q(s)=E[Rt+1+γV(s)St=s,At=a]=E[Rt+1+γEaπQ(St+1,a)St=s,At=a]

贝尔曼期望方程

P s a P_{sa} Psa是状态转移概率,有其它的写法 P s π ( s ) P_{s\pi(s)} Psπ(s) P s s ′ a P_{ss'}^a Pssa,表示在当前的状态s,经过动作a后,转移到其它状态的概率分布。

V π ( s ) = E π [ R t + 1 + γ V π ( s ) ∣ S t = s ] = R ( s ) + γ ∑ s ′ ∈ S P s s ′ a V π ( s ′ ) V_\pi(s)=\Bbb{E}_\pi[R_{t+1}+\gamma V_\pi(s)|S_t=s]{\kern 18pt}\\ =R(s)+\gamma \sum_{s'\in S}P_{ss'}^aV_\pi(s'){\kern 0pt} Vπ(s)=Eπ[Rt+1+γVπ(s)St=s]=R(s)+γsSPssaVπ(s)
同理
Q π ( s ) = R ( s , a ) + γ ∑ s ′ ∈ S P s s ′ a ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q_\pi(s)=R(s,a)+\gamma \sum_{s'\in S}P_{ss'}^a\sum_{a'\in A}\pi(a'|s')Q_\pi(s',a'){\kern 0pt} Qπ(s)=R(s,a)+γsSPssaaAπ(as)Qπ(s,a)

贝尔曼最优方程

对状态𝑠来说的最优价值函数是所有策略可获得的最大可能折扣奖励的和
V ∗ ( s ) = m a x π V π ( s ) V ∗ ( s ) = R ( s ) + m a x a ∈ A γ ∑ s ′ ∈ S P s s ′ a V ∗ ( s ′ ) V_*(s)=\underset {\pi}{max}V_{\pi}(s){\kern 0pt}\\ V_*(s)=R(s)+\underset {a\in A}{max}\gamma \sum_{s'\in S}P_{ss'}^aV_*(s'){\kern 0pt} V(s)=πmaxVπ(s)V(s)=R(s)+aAmaxγsSPssaV(s)
同理
Q ∗ ( s , a ) = m a x π Q π ( s , a ) Q ∗ ( s , a ) = R ( s , a ) + γ ∑ s ′ ∈ S P s s ′ a m a x a ′ ∈ A Q ∗ ( s ′ , a ′ ) Q_*(s,a)=\underset {\pi}{max}Q_{\pi}(s,a)\\ Q_*(s,a)=R(s,a)+\gamma \sum_{s'\in S}P_{ss'}^a\underset {a'\in A}{max}Q_*(s',a'){\kern 0pt} Q(s,a)=πmaxQπ(s,a)Q(s,a)=R(s,a)+γsSPssaaAmaxQ(s,a)


http://chatgpt.dhexx.cn/article/6GygvbYU.shtml

相关文章

贝尔曼方程(Bellman Equation)

贝尔曼方程(Bellman Equation)也被称作动态规划方程(Dynamic Programming Equation),由理查贝尔曼(Richard Bellman)发现,由于其中运用了变分法思想,又被称之为现代变分法…

强化学习:贝尔曼方程(Bellman Equation)

∗ ∗ 重点:状态值、贝尔曼方程 ∗ ∗ **重点:状态值、贝尔曼方程** ∗∗重点:状态值、贝尔曼方程∗∗ return评估策略 在前面概念介绍中,我们知道了可以用 return 来评估一个策略的好坏。如图,有三个不同的策略&…

贝尔曼方程推导

马尔可夫的动态特性: 回报:(两种定义) 或 (折扣率大于等于0小于等于1,折扣率决定了未来收益的现值) 状态价值函数:从状态s开始,智能体按照策略π进行决策所获得回报的…

【机器学习】带你轻松理解什么是强化学习中的贝尔曼方程

系列文章目录 第十八章 Python 机器学习入门之强化学习 目录 系列文章目录 前言 一、什么是贝尔曼方程 二、贝尔曼方程为什么有用 三、贝尔曼方程是怎么来的 总结 前言 贝尔曼方程是强化学习中最重要的一个方程式。如果可以计算状态S 的状态动作函数 Q(s,a)&#xff0c…

强化学习/动态规划:贝尔曼方程的解读 Bellman Equation 贝尔曼方程组 / 贝尔曼最优方程

前言: 读书《Reinforcement Learning: An Introduction Second Edition》,读到第三章有限马尔科夫决策过程MDP中,提到了贝尔曼方程的理解。一开始我是有点懵逼的,现在看懂了其意思,在这里解释一下。 贝尔曼方程理解 下…

贝尔曼方程

贝尔曼方程在强化学习中无处不在,对于理解强化学习算法的工作原理是非常必要的。贝尔曼方程让我们可以开始解决MDPs问题。 贝尔曼期望方程 贝尔曼最优方程 将贝尔曼期望方程与贝尔曼最优方程进行对比,可以发现,贝尔曼期望方程是对于某一个给…

【RL】Bellman Equation 贝尔曼方程(动态规划)

参考:蘑菇书-《EasyRL》 本文只是为了方便自己今后的查阅对原文做出的一些概括。 马尔可夫奖励过程MRP 马尔可夫奖励过程是马尔可夫链加上奖励函数,奖励函数R是一个期望,表示到达某一个状态时可以获得多大的奖励。如果状态数是有限的&#x…

3.1 贝尔曼(bellman)方程

假设智能体观测到状态 s 0 s_0 s0​,并且有 N N N个可用action,每个action都会导致另一种状态,及相应的奖励。另外,假设我们知道与状态s0相连的所有状态的价值 V i V_i Vi​。在这种情况下,智能体可以采取的最佳行动是…

强化学习之贝尔曼方程

强化学习 强化学习注重智能体(agent)与环境之间的交互式学习: 强化学习的数据集不是训练初始阶段就有的,而是来自智能体与环境交互才能获得;强化学习不追求单步决策的最优策略,而是追求与环境交互获得的长…

强化学习笔记:策略评估--贝尔曼方程求解示例

目录 1. 前言 2. MDP模型 3. 求解贝尔曼方程 1. 前言 策略评估(Policy Evaluation),简单来说,就是针对某个既定的策略求其状态值函数和动作值函数。求得了状态值函数和动作值函数,事实上就很容易进行不同候补策略之…

强化学习笔记:策略、值函数及贝尔曼方程

目录 1. 前言 2. 策略和值函数的定义 3. 值函数的估计 4. 状态值函数的贝尔曼方程 1. 前言 本篇介绍策略、两种值函数(状态值函数和动作值函数),以及大名鼎鼎的贝尔曼方程。补充了一点关于贝尔曼方程的推导过程,希望能够帮助理…

贝尔曼最优方程(Bellman Optimality Equation)

贝尔曼最优方程 目录回顾 补充逻辑场景设置 贝尔曼最优方程最优策略与最优价值函数最优状态价值函数最优状态-动作价值函数 小小的题外话 - 最大值/期望值最大值和期望值之间的大小关系 最优策略与两种价值函数间的关系贝尔曼最优方程表达式 本节使用 更新图的方式对 V π ( …

价值函数与贝尔曼方程

一.价值函数 由于在面对不同的状态时,智能体需要选择最优的动作,到达更优的状态以得到更多的奖励.那么我们根据什么判别一个状态或动作的的好坏程度呢?我们引入价值函数。 价值函数的定义是:获得回报的期望。 1.状态价值函数 …

强化学习: 贝尔曼方程与马尔可夫决策过程

强化学习: 贝尔曼方程与马尔可夫决策过程 一、简介 贝尔曼方程和马尔可夫决策过程是强化学习非常重要的两个概念,大部分强化学习算法都是围绕这两个概念进行操作。尤其是贝尔曼方程,对以后理解蒙特卡洛搜索、时序差分算法以及深度强化学习算…

贝尔曼方程(Bellman Equation)的解读

这个算法只适用于没有变化的环境 在解释下面几个专业术语前 我先来说一下这个Agent,中文的意思是 代理,代理人 但是实际上他大概表示的意思就相当于变量,就给你某一个状态贴上了一个标签一样 **状态(State) :**用一个数值来作为…

贝尔曼方程讲解

网格世界示例如下: 贝尔曼方程 在这个网格世界示例中,一旦智能体选择一个动作, 它始终沿着所选方向移动(而一般 MDP 则不同,智能体并非始终能够完全控制下个状态将是什么) 可以确切地预测奖励(…

Bellman 贝尔曼方程究竟是什么

贝尔曼方程是一种思想,而不是一个具体的公式 贝尔曼方程是由美国一位叫做理查德-贝尔曼科学家发现并提出的。 它的核心思想是:当我们在特定时间点和状态下去考虑下一步的决策,我们不仅仅要关注当前决策立即产生的Reward,同时也要…

(详细)强化学习--贝尔曼方程

原文链接:https://zhuanlan.zhihu.com/p/86525700 我有一个疑问,就是在推导过程中,状态s不是变量,st 是t阶段的状态相当于是一个常数,那么为什么sts,常数在等号的左边,变量在等号的右边&#x…

什么是强化学习?(贝尔曼方程)

文章目录 什么是强化学习?(贝尔曼方程)3.贝尔曼方程(Bellman equation)3.1贝尔曼期望方程(Bellman expectation equation)3.2 贝尔曼最优方程(Bellman optimality equation) 4. M D P MDP MDP 的动态编程(dynamic programming)4.1 M D P MD…

Bellman Equation 贝尔曼方程

Bellman equation(贝尔曼方程),是以Richard E.Bellman命名,是数值最优化方法的一个必要条件,又称为动态规划。它以一些初始选择的收益以及根据这些初始选择的结果导致的之后的决策问题的“值”,来给出一个决策问题在某一个时间点的…