强化学习:贝尔曼方程(Bellman Equation)

article/2025/8/2 20:37:00

∗ ∗ 重点:状态值、贝尔曼方程 ∗ ∗ **重点:状态值、贝尔曼方程** 重点:状态值、贝尔曼方程

return评估策略

  在前面概念介绍中,我们知道了可以用 return 来评估一个策略的好坏。如图,有三个不同的策略,那么哪一种策略最好呢?这时,就需要借助 return 来进行评估了。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
return的计算
  既然 return 这么重要,那么怎么计算呢?上述例子 return 的计算是用的return 的定义,实际上还有更好的计算方法。
在这里插入图片描述
如何计算上图的return?为了方便计算,我们引入 v i v_i vi ,用来记录从状态 s 1 s_1 s1 出发得到的 return。
在这里插入图片描述
将上述式子变形,得到下列式子:
在这里插入图片描述
上面式子表明从不同状态出发得到的 return 依赖于从其他状态出发得到的 return 。可以发现,上面式子有这样一个特征,可以通过自身不断迭代得到自身,如下图,该方法被称为 Bootstrapping 。
在这里插入图片描述
为什么可以通过自身不断迭代得到自身?我们可以用数学来描述就知道其中的原因了。首先,将上面式子写成矩阵形式,如下图。根据线性代数知识可以得到最终 v v v

在这里插入图片描述
v = r + γ p v v=r+γpv v=r+γpv v = ( E − γ p ) − 1 r v=(E-γp)^{-1}r v=(Eγp)1r

  上面式子 v = r + γ p v v=r+γpv v=r+γpv 即就是贝尔曼方程(对于这个特定的确定性问题)。虽然很简单,但它展示了核心思想:一个状态的value 依赖于其他状态的 value。

状态值 state value

  为了更好的理解 state value ,我们首先以一个单步过程为例引入一些符号。
在这里插入图片描述
   S t S_t St t t t 时刻的状态
   A t A_t At S t S_t St 状态下采取的行为
   R t + 1 R_{t+1} Rt+1:在 S t S_t St 状态下采取 A t A_t At 行为后获得的奖励
   S t + 1 S_{t+1} St+1 S t S_t St 状态下采取行为 A t A_t At后转移到的新状态

上面式子所涉及的所有跳跃,都是基于概率分布来的
   S t S_t St A t A_t At:依赖于 π ( A t = a ∣ S t = s ) π(A_t=a|S_t=s) π(At=aSt=s)
   S t S_t St A t A_t At:依赖于 p ( R t + 1 = r ∣ S t = s , A t = a ) p(R_{t+1}=r|S_t=s,A_t=a) p(Rt+1=rSt=s,At=a)
   S t S_t St A t A_t At:依赖于 p ( S t + 1 = s ′ ∣ S t = s , A t = a ) p(S_{t+1}=s'|S_t=s,A_t=a) p(St+1=sSt=s,At=a)

注意:其中的 R t + 1 R_{t+1} Rt+1 有时也会写成 R t R_t Rt ,两者从数学上来说没有区别,但我们习惯性写成 R t + 1 R_{t+1} Rt+1
  由单步过程可以推广出多步过程,并求得 discount return 我们用 G t G_t Gt 表示。
在这里插入图片描述
在这里插入图片描述
.
  有了上面的基础,现在我们可以正式来定义 state value 了,我们将state value 即 v v v 定义为 G t G_t Gt 的期望(或称为期望值或均值):
在这里插入图片描述
  1、 v π ( s ) v_π(s) vπ(s) S S S 的一个函数,是带有条件的条件期望,从不同状态出发得到 trajectory 不同,对应的期望也是不同的
  2、 v π ( s ) v_π(s) vπ(s) 是基于策略 π π π 的,对于不同的策略得到的状态值可能是不同。
  3、 v π ( s ) v_π(s) vπ(s) 不仅仅代表一个状态值,也可以代表一种价值,状态值比较大说这个状态是有价值的,因为从这个状态出发回获得更大的 return

return 与 state value 的区别:
   return 是针对单个 trajectory 求得的,而 state value 状态值是针对多个 trajectory 求得的 return 再求平均值得到的。如果所有的 π ( A t = a ∣ S t = s ) π(A_t=a|S_t=s) π(At=aSt=s) p ( R t + 1 = r ∣ S t = s , A t = a ) p(R_{t+1}=r|S_t=s,A_t=a) p(Rt+1=rSt=s,At=a) p ( S t + 1 = s ′ ∣ S t = s , A t = a ) p(S_{t+1}=s'|S_t=s,A_t=a) p(St+1=sSt=s,At=a)是确定性的,则return 与 state value 相同。
   例如,下面的三个策略对应的 trajectory 不同,而 π 1 π_1 π1 π 2 π_2 π2得到的 return 与 state value 值是相同的; π 3 π_3 π3对应得到的则是 state value 。
在这里插入图片描述
在这里插入图片描述

贝尔曼方程:推导

   通过上述的介绍,现在我们可以试着推到一般性的贝尔曼方程了。现在,下列的式子相信都可理解。第二个式子表明,t时刻获得的 return 可以表示为立即得到的奖励与从下一时刻出发的到的 return 乘以衰减系数的和。将第二个式子代入 state value 方程得到第三个式子。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
.
   现在,分别来看第三式子的两部分:
在这里插入图片描述
   第一项的本质是及时奖励的平均值。首先,在状态 s s s 下有多个行为可以选择,采取行为 a a a 的概率就是 π π π ;而执行行为 a a a 所得到的奖励就是期望 E E E(从状态 s s s 出发采取行为 a a a 得到奖励 r r r 的概率乘以它本身的值 r r r ,即枚举所有动作对应的概率和奖励,将对应的概率乘以奖励求和就得到了期望)

.
在这里插入图片描述
   第二项的本质是未来奖励的平均值。从当前状态 s s s 出发通过不同的行为 a a a 跳到不同的 s ′ s' s 的概率 p ( s ′ ∣ s ) p(s'|s) p(ss) ; 与第一项同理得到跳到状态 s ′ s' s 获得的值是期望 E E E ,又因为无后效性,所以跳到状态 s ′ s' s 获得的值就等于状态 s ′ s' s 对应的状态值。从状态 s s s 到状态 s ′ s' s 的概率等于 从状态 s s s 出发通过选择不同的行为 a a a 的概率 π π π 乘以选择行为 a a a 跳转到 s ′ s' s 的的概率 p ( s ′ ∣ s , a ) p(s'|s,a) p(ss,a),再累计相加。

在这里插入图片描述
   因此,我们得到上面这个式子,即为一般形式的贝尔曼方程。可以看出贝尔曼方程实际上是描述不同状态下的状态值之间的关系;由两项组成:及时奖励的平均值和未来奖励的平均值;另外该式子对状态空间中的所有状态都成立。可以看到 v π ( s ) v_π(s) vπ(s) v π ( s ′ ) v_π(s') vπ(s) 都是要计算的状态值,计算方法为 Bootstrapping ,因为实际上是有一组这样的式子,把这些式子联立起来就可以求解了,解的过程依赖与很多概率。

.
为了更好的理解贝尔曼方程,我们以一个例子进行讲解。
在这里插入图片描述
  首先把这个问题中所有的贝尔曼公式全部写出来,我们首先考虑状态 s 1 s_1 s1 ,根据给出的策略可以把贝尔曼涉及的变量全部确定出。
在这里插入图片描述
π ( a = a 3 ∣ s 1 ) = 1 π ( a ≠ a 3 ∣ s 1 ) = 0 π(a=a_3|s_1)=1 \quad π(a≠a_3|s_1)=0 π(a=a3s1)=1π(a=a3s1)=0 p ( s ′ = s 3 ∣ s 1 , a 3 ) = 1 p ( s ′ ≠ s 3 ∣ s 1 , a 3 ) = 0 p(s'=s_3|s_1,a_3)=1 \quad p(s'≠s_3|s_1,a_3)=0 p(s=s3s1,a3)=1p(s=s3s1,a3)=0 p ( r = 0 ∣ s 1 , a 3 ) = 1 p ( r ≠ 0 ∣ s 1 , a 3 ) = 0 p(r=0|s_1,a_3)=1 \quad p(r≠0|s_1,a_3)=0 p(r=0∣s1,a3)=1p(r=0∣s1,a3)=0
我们很容易得到状态 s 1 s_1 s1 的贝尔曼方程,同理得到其他状态的贝尔曼方程,如下:
v π ( s 1 ) = 0 + γ v π ( s 3 ) v_π(s_1)=0+γv_π(s_3) vπ(s1)=0+γvπ(s3) v π ( s 2 ) = 1 + γ v π ( s 4 ) v_π(s_2)=1+γv_π(s_4) vπ(s2)=1+γvπ(s4) v π ( s 3 ) = 1 + γ v π ( s 4 ) v_π(s_3)=1+γv_π(s_4) vπ(s3)=1+γvπ(s4) v π ( s 4 ) = 1 + γ v π ( s 4 ) v_π(s_4)=1+γv_π(s_4) vπ(s4)=1+γvπ(s4)
得到了所有状态对应的贝尔曼方程,求解结果如下:
在这里插入图片描述
如果 γ = 0.9 γ=0.9 γ=0.9 则有:
在这里插入图片描述
  可以看到 v π ( s 1 ) v_π(s_1) vπ(s1)= v π ( s , 2 ) v_π(s,2) vπ(s,2) = v π ( s 3 ) v_π(s_3) vπ(s3)=10,为什么全大于 v π ( s 1 ) v_π(s_1) vπ(s1) 呢?因为状态值代表它的价值,这里显示出来的价值是因为他们离目标近。

.
例子2:
在这里插入图片描述
同理,得到每个状态的贝尔曼公式,如下:
在这里插入图片描述
解得的结果如下:
在这里插入图片描述
γ = 0.9 γ=0.9 γ=0.9 则有:
v π ( s 1 ) = 8.5 v_π(s_1)=8.5 vπ(s1)=8.5 v π ( s 2 ) = 10 v_π(s_2)=10 vπ(s2)=10 v π ( s 3 ) = 10 v_π(s_3)=10 vπ(s3)=10 v π ( s 4 ) = 10 v_π(s_4)=10 vπ(s4)=10
表明这个策略没有之前的例1策略好。

.

贝尔曼公式:向量形式

  贝尔曼公式在实际问题中这样的公式不止一组,把所有的式子联立就可以整理成向量形式。为了能够写成向量形式,需要对贝尔曼方程进行变形。其中 r π ( s ) r_π(s) rπ(s) 代表从当前状态出发所能得到的及时奖励的平均值, p π ( s ′ ∣ s ) p_π(s'|s) pπ(ss) 表示从状态 s s s s ′ s' s 的概率。
在这里插入图片描述
在这里插入图片描述
为了区分,我们引入下标,得到的贝尔曼方程如下:
在这里插入图片描述
因此,我们可以得到如下形式:
其中 [ p π ] i , j [p_π]_{i,j} [pπ]i,j 代表的意思是矩阵 [ p π ] [p_π] [pπ] 的第 i i i 行第 j j j 列的元素是从状态 s i s_i si 跳到状态 s j s_j sj 的概率
在这里插入图片描述
为了更好的理解上述的向量形式,我们通过一个例子进行说明:
在这里插入图片描述
现在考虑这两例子,已经给出策略(箭头),如下图,那么他的贝尔曼方程的矩阵形式怎么写呢?
在这里插入图片描述
在这里插入图片描述
.
在这里插入图片描述
在这里插入图片描述

贝尔曼公式:求解

  我们知道,给出一个策略我们就会很容易列出其对应的贝尔曼方程,通过求解贝尔曼公式得到 state value ,这样的过程我们称为策略评估,策略评估是强化学习中非常关键的一步,也是最重要的工具,通过策略评估我们才会找出最优的策略。
  如何求解贝尔曼公式,通常有矩阵法和迭代法两种方法
  矩阵法!通过线性代数知识可轻易得到解的形式,但是在实际问题中我们并不常用,因为实际问题的矩阵空间很大,求解逆矩阵的计算量就会很大。
在这里插入图片描述
  迭代法!通过随机给定一个初始值 v 0 v_0 v0 ,不断迭代可以得到一组序列 { v 0 , v 0 , v 0 , … {v_0,v_0,v_0,…} v0,v0,v0,},当迭代次数 k k k 足够大时,那么得到的值就会接近真实值。
在这里插入图片描述
为了更好理解贝尔曼方程解的过程,我们给一个例子,如下如,设置的规则为 r 边界 = r 陷阱 = − 1 r_{边界}=r_{陷阱}=-1 r边界=r陷阱=1 r 终点 = + 1 r_{终点}=+1 r终点=+1 γ = 0.9 γ=0.9 γ=0.9
在这里插入图片描述
在这里插入图片描述
我们可以发现,通过比较 state value ,表明策略1和策略2是比较好的,策略3和策略4是比较差的。

.

动作值 action value

state value 与 action value 的区别与联系:状态值:是机械人从一个状态出发所得到的 return 平均值。动作值:是机械人从一个状态出发并且选择了一个行为得到的 return 平均值。本质上来说 state value 是 action value 的期望。

  为什么我们要关心动作值?是因为强化学习中的策略指的就是在一个状态如何选择一个行为使得最后得到的状态值更大,而如何选择一个好的行为就需要用 action value 来判断。
  动作值 action value 的定义如下:
在这里插入图片描述
从数学角度来看 state value 与 action value 的联系:
在这里插入图片描述
(2)式说明如果知道了动作值求平均就可以得到状态值。
(4)式说明如果知道了所有的状态值就可以得到动作值。

通过下列的例子,我们来理解 action value
在这里插入图片描述
我们可以很容易得到状态 s 1 s_1 s1 的 action value
q π ( s 1 , a 2 ) = − 1 + γ v π ( s 2 ) q_π(s_1,a_2)=-1+γv_π(s_2) qπ(s1,a2)=1+γvπ(s2)
虽然给出的策略是执行 a 2 a_2 a2 ,但是这个策略可能是不好的,需要重新选择策略时,需要计算其他的 action value 。同理,我们可以求出执行其他行为的动作值,如下:
q π ( s 1 , a 1 ) = − 1 + γ v π ( s 1 ) q_π(s_1,a_1)=-1+γv_π(s_1) qπ(s1,a1)=1+γvπ(s1) q π ( s 1 , a 3 ) = 0 + γ v π ( s 3 ) q_π(s_1,a_3)=0+γv_π(s_3) qπ(s1,a3)=0+γvπ(s3) q π ( s 1 , a 4 ) = − 1 + γ v π ( s 1 ) q_π(s_1,a_4)=-1+γv_π(s_1) qπ(s1,a4)=1+γvπ(s1) q π ( s 1 , a 5 ) = 0 + γ v π ( s 1 ) q_π(s_1,a_5)=0+γv_π(s_1) qπ(s1,a5)=0+γvπ(s1)


http://chatgpt.dhexx.cn/article/UgPYnjep.shtml

相关文章

贝尔曼方程推导

马尔可夫的动态特性: 回报:(两种定义) 或 (折扣率大于等于0小于等于1,折扣率决定了未来收益的现值) 状态价值函数:从状态s开始,智能体按照策略π进行决策所获得回报的…

【机器学习】带你轻松理解什么是强化学习中的贝尔曼方程

系列文章目录 第十八章 Python 机器学习入门之强化学习 目录 系列文章目录 前言 一、什么是贝尔曼方程 二、贝尔曼方程为什么有用 三、贝尔曼方程是怎么来的 总结 前言 贝尔曼方程是强化学习中最重要的一个方程式。如果可以计算状态S 的状态动作函数 Q(s,a)&#xff0c…

强化学习/动态规划:贝尔曼方程的解读 Bellman Equation 贝尔曼方程组 / 贝尔曼最优方程

前言: 读书《Reinforcement Learning: An Introduction Second Edition》,读到第三章有限马尔科夫决策过程MDP中,提到了贝尔曼方程的理解。一开始我是有点懵逼的,现在看懂了其意思,在这里解释一下。 贝尔曼方程理解 下…

贝尔曼方程

贝尔曼方程在强化学习中无处不在,对于理解强化学习算法的工作原理是非常必要的。贝尔曼方程让我们可以开始解决MDPs问题。 贝尔曼期望方程 贝尔曼最优方程 将贝尔曼期望方程与贝尔曼最优方程进行对比,可以发现,贝尔曼期望方程是对于某一个给…

【RL】Bellman Equation 贝尔曼方程(动态规划)

参考:蘑菇书-《EasyRL》 本文只是为了方便自己今后的查阅对原文做出的一些概括。 马尔可夫奖励过程MRP 马尔可夫奖励过程是马尔可夫链加上奖励函数,奖励函数R是一个期望,表示到达某一个状态时可以获得多大的奖励。如果状态数是有限的&#x…

3.1 贝尔曼(bellman)方程

假设智能体观测到状态 s 0 s_0 s0​,并且有 N N N个可用action,每个action都会导致另一种状态,及相应的奖励。另外,假设我们知道与状态s0相连的所有状态的价值 V i V_i Vi​。在这种情况下,智能体可以采取的最佳行动是…

强化学习之贝尔曼方程

强化学习 强化学习注重智能体(agent)与环境之间的交互式学习: 强化学习的数据集不是训练初始阶段就有的,而是来自智能体与环境交互才能获得;强化学习不追求单步决策的最优策略,而是追求与环境交互获得的长…

强化学习笔记:策略评估--贝尔曼方程求解示例

目录 1. 前言 2. MDP模型 3. 求解贝尔曼方程 1. 前言 策略评估(Policy Evaluation),简单来说,就是针对某个既定的策略求其状态值函数和动作值函数。求得了状态值函数和动作值函数,事实上就很容易进行不同候补策略之…

强化学习笔记:策略、值函数及贝尔曼方程

目录 1. 前言 2. 策略和值函数的定义 3. 值函数的估计 4. 状态值函数的贝尔曼方程 1. 前言 本篇介绍策略、两种值函数(状态值函数和动作值函数),以及大名鼎鼎的贝尔曼方程。补充了一点关于贝尔曼方程的推导过程,希望能够帮助理…

贝尔曼最优方程(Bellman Optimality Equation)

贝尔曼最优方程 目录回顾 补充逻辑场景设置 贝尔曼最优方程最优策略与最优价值函数最优状态价值函数最优状态-动作价值函数 小小的题外话 - 最大值/期望值最大值和期望值之间的大小关系 最优策略与两种价值函数间的关系贝尔曼最优方程表达式 本节使用 更新图的方式对 V π ( …

价值函数与贝尔曼方程

一.价值函数 由于在面对不同的状态时,智能体需要选择最优的动作,到达更优的状态以得到更多的奖励.那么我们根据什么判别一个状态或动作的的好坏程度呢?我们引入价值函数。 价值函数的定义是:获得回报的期望。 1.状态价值函数 …

强化学习: 贝尔曼方程与马尔可夫决策过程

强化学习: 贝尔曼方程与马尔可夫决策过程 一、简介 贝尔曼方程和马尔可夫决策过程是强化学习非常重要的两个概念,大部分强化学习算法都是围绕这两个概念进行操作。尤其是贝尔曼方程,对以后理解蒙特卡洛搜索、时序差分算法以及深度强化学习算…

贝尔曼方程(Bellman Equation)的解读

这个算法只适用于没有变化的环境 在解释下面几个专业术语前 我先来说一下这个Agent,中文的意思是 代理,代理人 但是实际上他大概表示的意思就相当于变量,就给你某一个状态贴上了一个标签一样 **状态(State) :**用一个数值来作为…

贝尔曼方程讲解

网格世界示例如下: 贝尔曼方程 在这个网格世界示例中,一旦智能体选择一个动作, 它始终沿着所选方向移动(而一般 MDP 则不同,智能体并非始终能够完全控制下个状态将是什么) 可以确切地预测奖励(…

Bellman 贝尔曼方程究竟是什么

贝尔曼方程是一种思想,而不是一个具体的公式 贝尔曼方程是由美国一位叫做理查德-贝尔曼科学家发现并提出的。 它的核心思想是:当我们在特定时间点和状态下去考虑下一步的决策,我们不仅仅要关注当前决策立即产生的Reward,同时也要…

(详细)强化学习--贝尔曼方程

原文链接:https://zhuanlan.zhihu.com/p/86525700 我有一个疑问,就是在推导过程中,状态s不是变量,st 是t阶段的状态相当于是一个常数,那么为什么sts,常数在等号的左边,变量在等号的右边&#x…

什么是强化学习?(贝尔曼方程)

文章目录 什么是强化学习?(贝尔曼方程)3.贝尔曼方程(Bellman equation)3.1贝尔曼期望方程(Bellman expectation equation)3.2 贝尔曼最优方程(Bellman optimality equation) 4. M D P MDP MDP 的动态编程(dynamic programming)4.1 M D P MD…

Bellman Equation 贝尔曼方程

Bellman equation(贝尔曼方程),是以Richard E.Bellman命名,是数值最优化方法的一个必要条件,又称为动态规划。它以一些初始选择的收益以及根据这些初始选择的结果导致的之后的决策问题的“值”,来给出一个决策问题在某一个时间点的…

贝尔曼方程详尽推导(无跳步|带图)

贝尔曼方程推导(无跳步) 这两天学习MDP,对于贝尔曼方程有很大的困惑,而且找了很多资料都没有详尽的推导,我这里把详尽推导写出来,希望能帮到正在学习的同学们。 V π ( s ) E [ G t ∣ S t s ] E [ R t…

20张图深度详解MAC地址表、ARP表、路由表

本文我们以两个案例为例,深度来讲解一下网络中我们经常要用到的mac地址表、ARP表、路由表,掌握了这3张表,基本上就能够掌握了网络中数据通信的原理,成为网络中的武林高手! 数据网络的本质就是为了传递数据,…