什么是强化学习?(贝尔曼方程)

article/2025/8/2 22:34:04

文章目录

什么是强化学习?(贝尔曼方程)

3.贝尔曼方程(Bellman equation)

贝尔曼方程表示上述状态价值函数与状态-行为价值函数之间的关系。贝尔曼方程有贝尔曼期望方程和贝尔曼最佳方程。

3.1贝尔曼期望方程(Bellman expectation equation)

贝明期望方程可将状态价值函数和状态-行为价值函数表示为期望值 E E E。状态价值函数的贝尔曼期望方程表示如下:
V π ( s ) = E [ R t + 1 + γ V π ( S t + 1 ) ∣ S t = s ] V_{\pi}(s)=\mathbb{E}\left[R_{t+1}+\gamma V_{\pi}\left(S_{t+1}\right) \mid S_{t}=s\right] Vπ(s)=E[Rt+1+γVπ(St+1)St=s]当前状态 S t S_t St 的价值减价到下一状态 S t + 1 S_{t+1} St+1的价值 γ \gamma γ 乘以的期望值。
状态-行为价值函数的贝尔曼期望方程如下:
Q π ( s , a ) = E [ R t + 1 + γ Q π ( S t + 1 , A t + 1 ) ∣ S t = s , A t = a ] Q_{\pi}(s, a)=\mathbb{E}\left[R_{t+1}+\gamma Q_{\pi}\left(S_{t+1}, A_{t+1}\right) \mid S_{t}=s, A_{t}=a\right] Qπ(s,a)=E[Rt+1+γQπ(St+1,At+1)St=s,At=a]在当前状态 S t S_t St上执行动作 A t A_t At,这意味着期望补偿 R t + 1 R_{t+1} Rt+1加上下一个状态 S t + 1 S_{t+1} St+1 和动作 A t + 1 A_{t+1} At+1的状态-动作价值乘以折扣率。
在状态价值函数中,可以将此期望值转换为遵循策略 π π π 的状态-行为价值函数,如下所示: V π ( s ) = ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V_{\pi}(s)=\sum_{a \in A} \pi(a \mid s) Q_{\pi}(s, a) Vπ(s)=aAπ(as)Qπ(s,a)状态 s s s 根据策略 π π π 选择行为 a a a 的概率乘以状态 s s s 根据 π π π 执行行为 a a a 的价值。在此公式中,状态-行为价值函数也可以用状态价值函数重新求解。
Q π ( s , a ) = R s a + γ ∑ s ′ ∈ S P s , s ′ a V π ( s ′ ) Q_{\pi}(s, a)=R_{s}^{a}+\gamma \sum_{s^{\prime} \in S} P_{s, s^{\prime}}^{a} V_{\pi}\left(s^{\prime}\right) Qπ(s,a)=Rsa+γsSPs,saVπ(s)在当前状态 s s s 中执行行为 a a a 时,期望补偿和对下一状态 s s s 的期望值乘以状态转移概率,并加上加上折扣。
将此公式代入上面的状态值函数:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R s a + γ ∑ s ′ ∈ S P s , s ′ a V π ( s ′ ) ) V_{\pi}(s)=\sum_{a \in A} \pi(a \mid s)\left(R_{s}^{a}+\gamma \sum_{s^{\prime} \in S} P_{s, s^{\prime}}^{a} V_{\pi}\left(s^{\prime}\right)\right) Vπ(s)=aAπ(as)(Rsa+γsSPs,saVπ(s))这样,在价值函数表达式中,模糊期望值表达式 E E E 被减去并递归地表示。
类似地,状态-行为价值函数也可以递归地表示:
Q π ( s , a ) = R s a + γ ∑ s ′ ∈ S P s , s ′ a ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q_{\pi}(s, a)=R_{s}^{a}+\gamma \sum_{s^{\prime} \in S} P_{s, s^{\prime}}^{a} \sum_{a^{\prime} \in A} \pi\left(a^{\prime} \mid s^{\prime}\right) Q_{\pi}\left(s^{\prime}, a^{\prime}\right) Qπ(s,a)=Rsa+γsSPs,saaAπ(as)Qπ(s,a)
我们通过贝尔曼方程对状态价值函数和状态-行为价值函数进行了递归求解。

3.2 贝尔曼最优方程(Bellman optimality equation)

最佳状态价值和最佳状态-行动价值可以表述为:最佳价值是指在遵循可获得最大总回报的政策时所获得的价值。
V ∗ ( s ) = max ⁡ π V π ( s ) Q ∗ ( s , a ) = max ⁡ π Q π ( s , a ) \begin{aligned} V_{*}(s) &=\max _{\pi} V_{\pi}(s) \\ Q_{*}(s, a) &=\max _{\pi} Q_{\pi}(s, a) \end{aligned} V(s)Q(s,a)=πmaxVπ(s)=πmaxQπ(s,a) V V V Q Q Q 上加上星星(*)表示最佳价值。
用贝尔曼最佳方程表示最佳价值和最佳行动价值:
V ∗ ( s ) = max ⁡ a R s a + γ ∑ s ′ ∈ S P s , s ′ a V ∗ ( s ′ ) Q ∗ ( s , a ) = R s a + γ ∑ s ′ ∈ S P s , s ′ a V ∗ ( s ′ ) \begin{gathered} V_{*}(s)=\max _{a} R_{s}^{a}+\gamma \sum_{s^{\prime} \in S} P_{s, s^{\prime}}^{a} V_{*}\left(s^{\prime}\right) \\ Q_{*}(s, a)=R_{s}^{a}+\gamma \sum_{s^{\prime} \in S} P_{s, s^{\prime}}^{a} V_{*}\left(s^{\prime}\right) \end{gathered} V(s)=amaxRsa+γsSPs,saV(s)Q(s,a)=Rsa+γsSPs,saV(s)

4. M D P MDP MDP 的动态编程(dynamic programming)

4.1 M D P MDP MDP

让我们看一下使用达伦贝尔曼方程求解 M D P MDP MDP 的动态编程。动态编程(Dynamic Programming,DP)是一种解决递归优化问题的方法,DP由策略迭代和价值迭代组成。
重复策略(policy iteration)
重复策略将重复刷新状态价值函数,如下所示:
V k + 1 ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R s a + γ ∑ s ′ ∈ S P s , s ′ a V k ( s ′ ) ) V_{k+1}(s)=\sum_{a \in A} \pi(a \mid s)\left(R_{s}^{a}+\gamma \sum_{s^{\prime} \in S} P_{s, s^{\prime}}^{a} V_{k}\left(s^{\prime}\right)\right) Vk+1(s)=aAπ(as)(Rsa+γsSPs,saVk(s))
其中 k k k 表示重复过程。重复 N N N 次更新价值函数V以创建 V 1 、 V 2 、 … 和 V N V_1、V_2、…和V_N V1V2VN。这与贝尔曼期望方程的形式相同。
我们将重新导入上面的 M D P MDP MDP 示例。以下是3x3网格区域中的策略
在这里插入图片描述最初,我们允许在所有状态下以相同的0.25概率执行所有操作。未应用折扣。即,即 γ \gamma γ=1。
到达陷阱时-0.1,到达目的地时奖励1。现在,让我们看一下重复刷新状态价值函数会发生什么。
下面显示了状态价值函数在策略重复过程中的变化
在这里插入图片描述
策略迭代中的状态值函数变化。当 k=8 时,策略可以更新为在这里插入图片描述在这里插入图片描述

基于状态价值函数的策略更新
如果下一个状态具有与基于状态价值函数的策略更新相同的价值,则可以赋予相同的概率,使其移动到具有最高价值的状态。价值重复(value iteration)价值重复类似于策略重复。区别在于,我们首先来看一下价值重复的公式
V k + 1 ( s ) = max ⁡ a ∈ A R s a + γ ∑ s ′ ∈ S P s , s ′ a V k ( s ′ ) V_{k+1}(s)=\max a \in A R_{s}^{a}+\gamma \sum_{s^{\prime} \in S} P_{s, s^{\prime}}^{a} V_{k}\left(s^{\prime}\right) Vk+1(s)=maxaARsa+γsSPs,saVk(s)在策略重复中,我们将以下状态的价值乘以策略函数的概率相加,而在策略重复中,我们贪婪地选择最大的下一个价值。从公式可以看出,只有贝尔是最佳方程。在策略重复中,我们更新了状态价值函数,随后又更新了策略;而在价值重复中,我们没有单独更新策略的步骤。价值循环假定当前的策略是最佳的,并获得最大的补偿。

下面的示例显示了重复值状态价值函数在上述相同示例中的变化情况:
在这里插入图片描述

4.2.动态规划的局限性以及为什么需要强化学习

动态规划很难应用于大多数现实世界的问题,其中状态转移概率和奖励函数在现实中无法提前知道,因为必须给出 MDP 的状态转移概率和奖励函数。

这个问题定义得非常好,即使状态转移概率和奖励函数是已知的,随着状态数量的增加,也很难实际求解贝尔曼方程。
这使得很难将动态规划应用于大多数实际问题,其中状态转移概率和奖励函数事先不知道并且状态是无限的。这些缺点可以通过处理强化学习的问题来克服。


http://chatgpt.dhexx.cn/article/2UenNJP6.shtml

相关文章

Bellman Equation 贝尔曼方程

Bellman equation(贝尔曼方程),是以Richard E.Bellman命名,是数值最优化方法的一个必要条件,又称为动态规划。它以一些初始选择的收益以及根据这些初始选择的结果导致的之后的决策问题的“值”,来给出一个决策问题在某一个时间点的…

贝尔曼方程详尽推导(无跳步|带图)

贝尔曼方程推导(无跳步) 这两天学习MDP,对于贝尔曼方程有很大的困惑,而且找了很多资料都没有详尽的推导,我这里把详尽推导写出来,希望能帮到正在学习的同学们。 V π ( s ) E [ G t ∣ S t s ] E [ R t…

20张图深度详解MAC地址表、ARP表、路由表

本文我们以两个案例为例,深度来讲解一下网络中我们经常要用到的mac地址表、ARP表、路由表,掌握了这3张表,基本上就能够掌握了网络中数据通信的原理,成为网络中的武林高手! 数据网络的本质就是为了传递数据,…

观察交换机学习MAC地址表的过程

查看交换机的mac地址表 dis mac-address 此时路由表为空 为pc配置IP地址 由pc3 ping 数据包 通过发送arp数据包 可使交换机学习到 pc3的mac地址 此时交换机学习到了pc3的mac地址 通过 E0/0/1接口 通过数据抓包可见 ping pc4 交换机也学习到了相应的mac地址

LAN---MAC表简介(MAC地址分类、MAC地址表生成方式、MAC表报文转发方式、MAC地址表分类、AC地址老化、端口安全、安全MAC地址分类、MAC地址漂移、MAC地址防漂移)

MAC表简介 介绍MAC表的定义、由来和作用。 MAC(MediaAccessControl)地址用来定义网络设备的位置。MAC地址由48比特长、12位的16进制数字组成,0到23位是厂商向IETF等机构申请用来标识厂商的代码,24到47位由厂商自行分派&#xff0c…

华为交换机MAC地址表分类与实验

MAC地址表分类: 动态表项由接口通过对报文中的源MAC地址学习方式动态获取到,这类MAC地址有老化的时间,并且可以自己修改,老化时间越短,交换机对周边的网络变化越敏感,适合在网络拓扑变化比较环境中&#xf…

华为路由器上有没有mac表_MAC地址表、ARP缓存表、路由表及交换机、路由器基本原理...

MAC地址表 说到MAC地址表,就不得不说一下交换机的工作原理了,因为交换机是根据MAC地址表转发数据帧的。在交换机中有一张记录着局域网主机MAC地址与交换机接口的对应关系的表,交换机就是根据这张表负责将数据帧传输到指定的主机上的。 交换机的工作原理 交换机在接收到数据帧…

MAC地址表+端口安全+MAC地址漂移

目录 一、MAC地址表的组成 二、端口安全(Port Security) 三、MAC地址漂移 1、配置接口mac地址学习优先级(MAC地址表就不会被抢占覆盖了) 2、配置不允许相同优先级接口mac地址漂移(不要轻易配置) 四、…

怎么管理思科交换机MAC地址表?

【欢迎关注微信公众号:厦门微思网络】 实验目的 1、理解交换机的工作原理 2、掌握交换机MAC地址表的管理方法 实验拓扑 【欢迎关注微信公众号:厦门微思网络】 实验需求 1、根据实验拓扑图,完成设备的基本配置; 2、测试主机之间…

交换机MAC地址表实验任务

一、实验目的 1、掌握交换机学习MAC地址的过程 二、实验内容 1、跟据所给题目完成MAC地址表实验 三、实验过程 1、实验任务说明 如图1-1所示,在GNS3软件中,使用一台三层交换机(S3950)以及两台PC机,进行配置后根据…

MAC地址、MAC地址表、端口安全、MAC地址漂移

一、MAC地址 mac地址主要工作在数据链路层,主要用于单个广播域内的数据传输 1.组成 总共48Bit,前24bit是通过向IETF等机构申请用来标识厂商的代码,后24bit由是厂商分配给产品的唯一数值 2.作用 mac地址工作在数据链路层 数据的封装和解封…

网络之MAC地址表学习

MAC地址表是在交换机中记录局域网主机和对应接口关系的表,交换机就是根据这张表负责将数据帧传输到指定的主机上的。 MAC表一般包含动态MAC地址、静态MAC地址和黑洞MAC地址。 动态MAC地址:由接口通过报文中的源MAC地址学习获得,表项可老化&…

linux mac地址表 大小写吗,04-MAC地址表命令

1MAC地址表配置命令 MAC地址表中对于接口的相关配置,目前只能在二层以太网端口以及二层聚合接口等二层接口上进行。 本章节内容只涉及单播的静态、动态、黑洞MAC地址表项的配置。有关静态组播MAC地址表项的相关介绍和配置内容,请参见“IP组播配…

SW转发与MAC地址表

一个心胸狭隘的人讲不出来大格局的话,一个没有使命感的人呢讲不出来有责任的话。—翟鸿燊 文章目录 一、MAC地址表二、拓扑三、基础配置与分析四、SW的数据转发五、MAC地址表安全5.1 攻击原理5.2 防御措施 一、MAC地址表 1、作用: MAC表记录了相连设备的…

1、MAC地址表项实验配置步骤

实验拓扑图&#xff1a; 实验配置思路&#xff1a; 1、查看动态MAC地址表项 2、配置静态MAC地址表项 3、配置黑洞MAC地址表项 静态表项和黑洞表项都优于动态表项 静态表项和黑洞表项重启后不会消失&#xff0c;动态表项重启之后会消失 实验摘要重点命令&#xff1a; <Hua…

华为-MAC地址表

一. MAC地址表的定义 MAC地址表记录了交换机学习到的其他设备的MAC地址与接口的对应关系&#xff0c;以及接口所属VLAN等信息。设备在转发报文时&#xff0c;根据报文的目的MAC地址查询MAC地址表&#xff0c;如果MAC地址表中包含与报文目的MAC地址对应的表项&#xff0c;则直接…

MAC地址表

MAC地址表 MAC地址表记录了相连设备的MAC地址、接口号以及所属的VLAN ID之间的对应关系&#xff0c;是VLAN内数据转发的决策表&#xff0c;是决定交换机转发行为的标准&#xff0c;交换机就是根据这张表负责将数据帧传输到指定的主机上的。 MAC表一般包含动态MAC地址、静态MAC…

win+E打开文件资源管理器,但是打开的是快速访问

当使用快捷键&#xff0c;WinE的时候&#xff0c;打开的不是此电脑&#xff0c;而是快速访问的界面的时候&#xff0c;可以进行如下的处理&#xff1a; 1、继续WinE&#xff0c;然后找到查看&#xff0c;如下&#xff1a; 将快速访问换成->此电脑就可以了&#xff0c;这样就…

Win10 文件夹右键菜单打不开,快速访问点击卡死

如题&#xff0c;win10文件夹卡死了&#xff0c;人也好焦虑~ --------------------------------------------------------------- 一通百度&#xff0c;最后发现是右键菜单的问题&#xff0c;不知道安装啥软件&#xff0c;给我在文件夹右键菜单里加入了有问题的项&#xff0c;…

win10 如何关闭系统中的快速访问

在 Win10 系统中 快速访问 功能默认是打开的&#xff0c;这个功能会在你打开某些文件后&#xff0c;记录下你最近访问过的最新文件。这个功能比较有利的一面是提高了工作效率。它将我们经常访问的文件夹都直接记录下来了&#xff0c;访问了我们下一次的访问&#xff0c;但另一个…