强化学习笔记：策略评估--贝尔曼方程求解示例

article/2025/10/7 22:26:18

目录

1. 前言

2. MDP模型

3. 求解贝尔曼方程

1. 前言

策略评估（Policy Evaluation），简单来说，就是针对某个既定的策略求其状态值函数和动作值函数。求得了状态值函数和动作值函数，事实上就很容易进行不同候补策略之间的性能对比并进而求得最优策略。

假定MDP的动力学函数p(s',r|s,a)（或者称迁移函数）是完全知道，理论上来说，就可以针对特定策略的值函数的进行精确的闭式解求解。

2. MDP模型

本文中的例子取自郭宪，方勇纯《深入浅出强化学习：原理入门》，略有调整。

MDP模型的状态迁移图如下所示：

这个图事实上包含了MDP模型的所有信息，动力学函数p(s',r|s,a)和策略 $\pi(a|s)$ 可以直接从以上状态转移图中提取出来，如下所示：

基于以上这些信息，可以精确地求得 $\pi(a|s)$ 的值函数。下一节给出状态值函数的求解示例。

3. 求解贝尔曼方程

状态值函数的贝尔曼方程如下所示：

将上一节所示的两张表分别代入这个贝尔曼方程，可以得到：

这就得到了一个4元一次线性方程组。需要注意的是，从以上状态转移图来看，状态5(s5)是终止状态，所以根据定义，它的值函数为0，所以它不是未知数。

对以上方程组进行整理求解可得：

当然，以上模型相当简单，所以可以以手算的方式进行求解。如果状态集合、动作集合、奖励集合的大小到了一定的规模后，很快手算求解就成了一件噩梦般的事情了。这是就是借助python或者matlab等内置的线性方程求解工具来进行求解。

求得了状态值函数，由于动作值函数可以用状态值函数表示，用于基于状态值函数的动作值函数的表示就可以进一步求得动作值函数值。这里就不再赘述。

进一步，当模型中的各个概率值以及奖励不是明确的数值，而是以符号表示的话，可以利用python或matlab的符号计算功能求解。

这个基于python和matlab的求解将在后续文章中介绍。参见：强化学习笔记：策略评估--基于numpy的贝尔曼方程数值求解https://chenxiaoyuan.blog.csdn.net/article/details/123258526

回到本系列总目录：强化学习笔记总目录https://chenxiaoyuan.blog.csdn.net/article/details/121715424

http://chatgpt.dhexx.cn/article/Gr7HF6Cy.shtml

相关文章

强化学习笔记：策略、值函数及贝尔曼方程

目录 1. 前言 2. 策略和值函数的定义 3. 值函数的估计 4. 状态值函数的贝尔曼方程 1. 前言本篇介绍策略、两种值函数（状态值函数和动作值函数），以及大名鼎鼎的贝尔曼方程。补充了一点关于贝尔曼方程的推导过程，希望能够帮助理…

阅读更多...

贝尔曼最优方程(Bellman Optimality Equation)

贝尔曼最优方程(Bellman Optimality Equation)

贝尔曼最优方程目录回顾补充逻辑场景设置贝尔曼最优方程最优策略与最优价值函数最优状态价值函数最优状态-动作价值函数小小的题外话 - 最大值/期望值最大值和期望值之间的大小关系最优策略与两种价值函数间的关系贝尔曼最优方程表达式本节使用更新图的方式对 V π ( …

阅读更多...

$价值函数与贝尔曼方程$

价值函数与贝尔曼方程

一.价值函数由于在面对不同的状态时，智能体需要选择最优的动作，到达更优的状态以得到更多的奖励.那么我们根据什么判别一个状态或动作的的好坏程度呢？我们引入价值函数。价值函数的定义是：获得回报的期望。 1.状态价值函数 …

阅读更多...

强化学习：贝尔曼方程与马尔可夫决策过程

强化学习：贝尔曼方程与马尔可夫决策过程

强化学习： 贝尔曼方程与马尔可夫决策过程一、简介贝尔曼方程和马尔可夫决策过程是强化学习非常重要的两个概念，大部分强化学习算法都是围绕这两个概念进行操作。尤其是贝尔曼方程，对以后理解蒙特卡洛搜索、时序差分算法以及深度强化学习算…

阅读更多...

贝尔曼方程(Bellman Equation)的解读

贝尔曼方程(Bellman Equation)的解读

这个算法只适用于没有变化的环境在解释下面几个专业术语前我先来说一下这个Agent，中文的意思是代理，代理人但是实际上他大概表示的意思就相当于变量，就给你某一个状态贴上了一个标签一样 **状态(State) ：**用一个数值来作为…

阅读更多...

贝尔曼方程讲解

贝尔曼方程讲解

网格世界示例如下： 贝尔曼方程在这个网格世界示例中，一旦智能体选择一个动作， 它始终沿着所选方向移动（而一般 MDP 则不同，智能体并非始终能够完全控制下个状态将是什么） 可以确切地预测奖励（…

阅读更多...

Bellman 贝尔曼方程究竟是什么

Bellman 贝尔曼方程究竟是什么

贝尔曼方程是一种思想，而不是一个具体的公式贝尔曼方程是由美国一位叫做理查德-贝尔曼科学家发现并提出的。它的核心思想是：当我们在特定时间点和状态下去考虑下一步的决策，我们不仅仅要关注当前决策立即产生的Reward，同时也要…

阅读更多...

（详细）强化学习--贝尔曼方程

（详细）强化学习--贝尔曼方程

原文链接：https://zhuanlan.zhihu.com/p/86525700 我有一个疑问，就是在推导过程中，状态s不是变量，st 是t阶段的状态相当于是一个常数，那么为什么sts，常数在等号的左边，变量在等号的右边&#x…

阅读更多...

什么是强化学习？（贝尔曼方程）

什么是强化学习？（贝尔曼方程）

文章目录什么是强化学习？（贝尔曼方程）3.贝尔曼方程(Bellman equation)3.1贝尔曼期望方程(Bellman expectation equation)3.2 贝尔曼最优方程(Bellman optimality equation) 4. M D P MDP MDP 的动态编程(dynamic programming)4.1 M D P MD…

阅读更多...

$Bellman Equation 贝尔曼方程$

Bellman Equation 贝尔曼方程

Bellman equation(贝尔曼方程)，是以Richard E.Bellman命名，是数值最优化方法的一个必要条件，又称为动态规划。它以一些初始选择的收益以及根据这些初始选择的结果导致的之后的决策问题的“值”，来给出一个决策问题在某一个时间点的…

阅读更多...

贝尔曼方程详尽推导（无跳步|带图）

贝尔曼方程详尽推导（无跳步|带图）

贝尔曼方程推导（无跳步） 这两天学习MDP，对于贝尔曼方程有很大的困惑，而且找了很多资料都没有详尽的推导，我这里把详尽推导写出来，希望能帮到正在学习的同学们。 V π ( s ) E [ G t ∣ S t s ] E [ R t…

阅读更多...

20张图深度详解MAC地址表、ARP表、路由表

20张图深度详解MAC地址表、ARP表、路由表

本文我们以两个案例为例，深度来讲解一下网络中我们经常要用到的mac地址表、ARP表、路由表，掌握了这3张表，基本上就能够掌握了网络中数据通信的原理，成为网络中的武林高手！ 数据网络的本质就是为了传递数据，…

阅读更多...

观察交换机学习MAC地址表的过程

观察交换机学习MAC地址表的过程

查看交换机的mac地址表 dis mac-address 此时路由表为空为pc配置IP地址由pc3 ping 数据包通过发送arp数据包可使交换机学习到 pc3的mac地址此时交换机学习到了pc3的mac地址通过 E0/0/1接口通过数据抓包可见 ping pc4 交换机也学习到了相应的mac地址

阅读更多...

LAN---MAC表简介（MAC地址分类、MAC地址表生成方式、MAC表报文转发方式、MAC地址表分类、AC地址老化、端口安全、安全MAC地址分类、MAC地址漂移、MAC地址防漂移）

LAN---MAC表简介（MAC地址分类、MAC地址表生成方式、MAC表报文转发方式、MAC地址表分类、AC地址老化、端口安全、安全MAC地址分类、MAC地址漂移、MAC地址防漂移）

MAC表简介介绍MAC表的定义、由来和作用。 MAC（MediaAccessControl）地址用来定义网络设备的位置。MAC地址由48比特长、12位的16进制数字组成，0到23位是厂商向IETF等机构申请用来标识厂商的代码，24到47位由厂商自行分派&#xff0c…

阅读更多...

华为交换机MAC地址表分类与实验

华为交换机MAC地址表分类与实验

MAC地址表分类： 动态表项由接口通过对报文中的源MAC地址学习方式动态获取到，这类MAC地址有老化的时间，并且可以自己修改，老化时间越短，交换机对周边的网络变化越敏感，适合在网络拓扑变化比较环境中&#xf…

阅读更多...

华为路由器上有没有mac表_MAC地址表、ARP缓存表、路由表及交换机、路由器基本原理...

华为路由器上有没有mac表_MAC地址表、ARP缓存表、路由表及交换机、路由器基本原理...

MAC地址表说到MAC地址表，就不得不说一下交换机的工作原理了，因为交换机是根据MAC地址表转发数据帧的。在交换机中有一张记录着局域网主机MAC地址与交换机接口的对应关系的表，交换机就是根据这张表负责将数据帧传输到指定的主机上的。交换机的工作原理交换机在接收到数据帧…

阅读更多...

MAC地址表+端口安全+MAC地址漂移

MAC地址表+端口安全+MAC地址漂移

目录一、MAC地址表的组成二、端口安全（Port Security） 三、MAC地址漂移 1、配置接口mac地址学习优先级（MAC地址表就不会被抢占覆盖了） 2、配置不允许相同优先级接口mac地址漂移（不要轻易配置） 四、…

阅读更多...

怎么管理思科交换机MAC地址表？

怎么管理思科交换机MAC地址表？

【欢迎关注微信公众号：厦门微思网络】实验目的 1、理解交换机的工作原理 2、掌握交换机MAC地址表的管理方法实验拓扑【欢迎关注微信公众号：厦门微思网络】实验需求 1、根据实验拓扑图，完成设备的基本配置； 2、测试主机之间…

阅读更多...

交换机MAC地址表实验任务

交换机MAC地址表实验任务

一、实验目的 1、掌握交换机学习MAC地址的过程二、实验内容 1、跟据所给题目完成MAC地址表实验三、实验过程 1、实验任务说明如图1-1所示，在GNS3软件中，使用一台三层交换机（S3950）以及两台PC机，进行配置后根据…

阅读更多...

MAC地址、MAC地址表、端口安全、MAC地址漂移

MAC地址、MAC地址表、端口安全、MAC地址漂移

一、MAC地址 mac地址主要工作在数据链路层，主要用于单个广播域内的数据传输 1.组成总共48Bit，前24bit是通过向IETF等机构申请用来标识厂商的代码，后24bit由是厂商分配给产品的唯一数值 2.作用 mac地址工作在数据链路层数据的封装和解封…

阅读更多...

推荐文章