【机器学习】带你轻松理解什么是强化学习中的贝尔曼方程

article/2025/10/7 21:55:10

系列文章目录

第十八章 Python 机器学习入门之强化学习


目录

系列文章目录

前言

一、什么是贝尔曼方程

二、贝尔曼方程为什么有用

三、贝尔曼方程是怎么来的

总结


前言

贝尔曼方程是强化学习中最重要的一个方程式。如果可以计算状态S 的状态动作函数 Q(s,a),那么它为我们提供了一种从每个场景中选择一个好的动作的方法。只需选择动作A,它会为什么提供Q(s,a) 的最大值。现在的问题是,如何计算Q(s,a)?在强化学习中,有一个称为贝尔曼方程(bellman equation) 可以帮助我们计算状态动作函数Q。


一、什么是贝尔曼方程

贝尔曼方程是强化学习中最重要的一个方程式。

如果可以计算状态S 的状态动作函数 Q(s,a),那么它为我们提供了一种从每个场景中选择一个好的动作的方法。只需选择动作A,它会提供Q(s,a) 的最大值。

现在的问题是,如何计算Q(s,a)?

在强化学习中,有一个称为贝尔曼方程(bellman equation) 可以帮助我们计算状态动作函数Q。

下面我们来看看什么是贝尔曼方程bellman equation

我们使用s表示当前状态,R(s) 表示当前状态的奖励,对于我们的马尔科夫决策的例子,R(1)=100,R(2)=0,,,R(6)=40。

我们使用a 表示当前的动作,

使用s'表示采取该行动后所达到的状态

使用a’表示在状态s’下,可能采取的行动

使用上面定义的元素,我们可以得到贝尔曼方程,如图

二、贝尔曼方程为什么有用

让我们来看几个例子,看看为什么这个方程有用。

来看看状态2 的Q 和动作A,将贝尔曼方程应用于此,看看它给我们带来了什么价值。

如果当前状态S是状态2,并且动作A 是向右运行,采取该行动后所达到的状态s'=3,

这时候应用贝尔曼方程,带入公式,如图,确保Q(s', a')最大,所以下一步会向左运行,最后的结果为12.5.

如果当前状态S是状态4,并且动作A 是向左运行,采取该行动后所达到的状态s'=3,

这时候应用贝尔曼方程,带入公式,如图,确保Q(s', a')最大,所以下一步会向左运行,最后的结果为12.5.

如果我们处于终端状态,则贝尔曼方程会简化为 Q(s,a)=R(S)

三、贝尔曼方程是怎么来的

回顾一下状态动作函数Q的定义:如果你从某个状态 S 开始,并只采取行动 A 一次, 在采取行动 A 一次之后,你就会表现得最佳。

我们知道,任何状态S 的最佳可能回报是Q(s,a) 上的最大值,

同样,对于任何状态S ' 的最佳可能回报是Q(s',a') 上的最大值

联系贝尔曼方程,如果从状态s开始,我们将采取行动a,然后采取最佳行动,

然后我们会看到,随着时间的推移,一些奖励序列。特别的是,回报将从第一步的奖励中计算出来,

一直加到终端状态。

贝尔曼方程所说的是这个奖励序列,折扣因子是什么,这个可以分解成两个组成部分。

第一部分是R(S) 是我们马上得到的奖励,也被叫做即时奖励,也就是我们从某个状态开始获得的奖励;

第二部分是在我们从状态s 开始并采取行动a之后,我们会得到一些新的状态s',Q(s',a')的定义就是假设我们将在此后表现最佳,在我们达到状态s' 后,我们将表现出最佳状态 并得到 状态的最佳回报。

其中max Q(s',a')就是从最优行动a' 中得到的回报,从状态s' 开始。

将上面的等式变化一下,我们就可以得到贝尔曼方程是怎么来的了。 


总结

总结一下,我们得到的总回报,在强化学习问题中有两个部分,第一部分是我们马上得到的奖励,然后第二部分是gamma γ 乘以我们从下一个状态开始获得的回报 Q(s',a')。这两部分组合在一起,即得到总回报,这就是贝尔曼方程的本质。

活动地址:CSDN21天学习挑战赛


http://chatgpt.dhexx.cn/article/unNWrVWS.shtml

相关文章

强化学习/动态规划:贝尔曼方程的解读 Bellman Equation 贝尔曼方程组 / 贝尔曼最优方程

前言: 读书《Reinforcement Learning: An Introduction Second Edition》,读到第三章有限马尔科夫决策过程MDP中,提到了贝尔曼方程的理解。一开始我是有点懵逼的,现在看懂了其意思,在这里解释一下。 贝尔曼方程理解 下…

贝尔曼方程

贝尔曼方程在强化学习中无处不在,对于理解强化学习算法的工作原理是非常必要的。贝尔曼方程让我们可以开始解决MDPs问题。 贝尔曼期望方程 贝尔曼最优方程 将贝尔曼期望方程与贝尔曼最优方程进行对比,可以发现,贝尔曼期望方程是对于某一个给…

【RL】Bellman Equation 贝尔曼方程(动态规划)

参考:蘑菇书-《EasyRL》 本文只是为了方便自己今后的查阅对原文做出的一些概括。 马尔可夫奖励过程MRP 马尔可夫奖励过程是马尔可夫链加上奖励函数,奖励函数R是一个期望,表示到达某一个状态时可以获得多大的奖励。如果状态数是有限的&#x…

3.1 贝尔曼(bellman)方程

假设智能体观测到状态 s 0 s_0 s0​,并且有 N N N个可用action,每个action都会导致另一种状态,及相应的奖励。另外,假设我们知道与状态s0相连的所有状态的价值 V i V_i Vi​。在这种情况下,智能体可以采取的最佳行动是…

强化学习之贝尔曼方程

强化学习 强化学习注重智能体(agent)与环境之间的交互式学习: 强化学习的数据集不是训练初始阶段就有的,而是来自智能体与环境交互才能获得;强化学习不追求单步决策的最优策略,而是追求与环境交互获得的长…

强化学习笔记:策略评估--贝尔曼方程求解示例

目录 1. 前言 2. MDP模型 3. 求解贝尔曼方程 1. 前言 策略评估(Policy Evaluation),简单来说,就是针对某个既定的策略求其状态值函数和动作值函数。求得了状态值函数和动作值函数,事实上就很容易进行不同候补策略之…

强化学习笔记:策略、值函数及贝尔曼方程

目录 1. 前言 2. 策略和值函数的定义 3. 值函数的估计 4. 状态值函数的贝尔曼方程 1. 前言 本篇介绍策略、两种值函数(状态值函数和动作值函数),以及大名鼎鼎的贝尔曼方程。补充了一点关于贝尔曼方程的推导过程,希望能够帮助理…

贝尔曼最优方程(Bellman Optimality Equation)

贝尔曼最优方程 目录回顾 补充逻辑场景设置 贝尔曼最优方程最优策略与最优价值函数最优状态价值函数最优状态-动作价值函数 小小的题外话 - 最大值/期望值最大值和期望值之间的大小关系 最优策略与两种价值函数间的关系贝尔曼最优方程表达式 本节使用 更新图的方式对 V π ( …

价值函数与贝尔曼方程

一.价值函数 由于在面对不同的状态时,智能体需要选择最优的动作,到达更优的状态以得到更多的奖励.那么我们根据什么判别一个状态或动作的的好坏程度呢?我们引入价值函数。 价值函数的定义是:获得回报的期望。 1.状态价值函数 …

强化学习: 贝尔曼方程与马尔可夫决策过程

强化学习: 贝尔曼方程与马尔可夫决策过程 一、简介 贝尔曼方程和马尔可夫决策过程是强化学习非常重要的两个概念,大部分强化学习算法都是围绕这两个概念进行操作。尤其是贝尔曼方程,对以后理解蒙特卡洛搜索、时序差分算法以及深度强化学习算…

贝尔曼方程(Bellman Equation)的解读

这个算法只适用于没有变化的环境 在解释下面几个专业术语前 我先来说一下这个Agent,中文的意思是 代理,代理人 但是实际上他大概表示的意思就相当于变量,就给你某一个状态贴上了一个标签一样 **状态(State) :**用一个数值来作为…

贝尔曼方程讲解

网格世界示例如下: 贝尔曼方程 在这个网格世界示例中,一旦智能体选择一个动作, 它始终沿着所选方向移动(而一般 MDP 则不同,智能体并非始终能够完全控制下个状态将是什么) 可以确切地预测奖励(…

Bellman 贝尔曼方程究竟是什么

贝尔曼方程是一种思想,而不是一个具体的公式 贝尔曼方程是由美国一位叫做理查德-贝尔曼科学家发现并提出的。 它的核心思想是:当我们在特定时间点和状态下去考虑下一步的决策,我们不仅仅要关注当前决策立即产生的Reward,同时也要…

(详细)强化学习--贝尔曼方程

原文链接:https://zhuanlan.zhihu.com/p/86525700 我有一个疑问,就是在推导过程中,状态s不是变量,st 是t阶段的状态相当于是一个常数,那么为什么sts,常数在等号的左边,变量在等号的右边&#x…

什么是强化学习?(贝尔曼方程)

文章目录 什么是强化学习?(贝尔曼方程)3.贝尔曼方程(Bellman equation)3.1贝尔曼期望方程(Bellman expectation equation)3.2 贝尔曼最优方程(Bellman optimality equation) 4. M D P MDP MDP 的动态编程(dynamic programming)4.1 M D P MD…

Bellman Equation 贝尔曼方程

Bellman equation(贝尔曼方程),是以Richard E.Bellman命名,是数值最优化方法的一个必要条件,又称为动态规划。它以一些初始选择的收益以及根据这些初始选择的结果导致的之后的决策问题的“值”,来给出一个决策问题在某一个时间点的…

贝尔曼方程详尽推导(无跳步|带图)

贝尔曼方程推导(无跳步) 这两天学习MDP,对于贝尔曼方程有很大的困惑,而且找了很多资料都没有详尽的推导,我这里把详尽推导写出来,希望能帮到正在学习的同学们。 V π ( s ) E [ G t ∣ S t s ] E [ R t…

20张图深度详解MAC地址表、ARP表、路由表

本文我们以两个案例为例,深度来讲解一下网络中我们经常要用到的mac地址表、ARP表、路由表,掌握了这3张表,基本上就能够掌握了网络中数据通信的原理,成为网络中的武林高手! 数据网络的本质就是为了传递数据,…

观察交换机学习MAC地址表的过程

查看交换机的mac地址表 dis mac-address 此时路由表为空 为pc配置IP地址 由pc3 ping 数据包 通过发送arp数据包 可使交换机学习到 pc3的mac地址 此时交换机学习到了pc3的mac地址 通过 E0/0/1接口 通过数据抓包可见 ping pc4 交换机也学习到了相应的mac地址

LAN---MAC表简介(MAC地址分类、MAC地址表生成方式、MAC表报文转发方式、MAC地址表分类、AC地址老化、端口安全、安全MAC地址分类、MAC地址漂移、MAC地址防漂移)

MAC表简介 介绍MAC表的定义、由来和作用。 MAC(MediaAccessControl)地址用来定义网络设备的位置。MAC地址由48比特长、12位的16进制数字组成,0到23位是厂商向IETF等机构申请用来标识厂商的代码,24到47位由厂商自行分派&#xff0c…