【强化学习】n步Bootstrapping

article/2025/10/22 17:25:41

目录

n步TD 预测

n-step Sarsa

n步off - policy学习

Per-reward Off - policy 方法

n步Tree Backup算法


BootStrapping原是推论统计学里的概念。所谓推论统计学,就是根据样本统计量来推算总体的统计量。n部方法通常会被用作eligibility trace思想的一个例子,这个思想允许BootStrapping在多个时间段同时开展操作。n 步BootStrapping的性能一般要比MC方法和TD方法要好。

n步TD 预测

TD(0)实际上是1步TD算法,之所以是“1”,是因为它只需要计算1个后继行为和1个后继状态来更新当前状态。以此类推,当计算了n个后继行为及n个后继状态来更新当前状态时,则为n步TD预测。当n\rightarrow\infty时,即为MC算法。如下图所示:

考虑根据“状态-收益”序列S_t,R_{t+1},S_{t+1},R_{t+2},...,R_T,S_T(省略行为A)来更新S_t的价值。在MC算法中,价值v_\pi(S_\pi),的估计会沿着一条完整的episode进行更新:

其中,T是终止状态的时刻。在TD(0)中,累计收益是即时收益加上后继状态的价值函数估计值乘以折扣系数,称其为单步回报:

G_{t:t+1}的下标表示一种截断回报,由当前时刻t到时刻t+1的累积收益和折后回报\gamma V_t(S_{t+1})组成,这种想法扩展到两步的情况为两步回报:

类似地,任意n步更新的目标是n步回报

 n步回报可以看做是一个完整episode回报的近似,上式第n步(不包含n)以后的其余部分用V_{t+n-1}(S_{t+n})来替代。如果t+n\geqslant T(即n步回报超出了终止状态),则其余部分的值都为0。基于n步回报的状态价值函数更新算法是:

在更新时,其他状态的价值估计保持不变:V_{t+n}(S)=V_{t+n-1}(S),这个算法被称为n步时序差分(n步TD)算法。 

 n步TD算法伪代码如下:

不同的n\alpha比较

n-step Sarsa

该方法的核心思想是将状态替换为“状态-动作”二元组,然后使用\epsilon-贪心策略。n Sarsa的回溯图和n TD的回溯图类似,都是由交替出现的状态和动作构成。唯一不同的是Sarsa的回溯图首末两端都是动作而不是状态。根据动作的价值估计定义n-step方法的回报如下:

t+n\geqslant T时,G_{t:t+n}=G_t。基于此,会得到算法

除了上面更新的状态之外,所有其他状态的价值都保持不变,即对于所有满足s\neq S_ta\neq A_tsa来说,Q_{t+n}(s,a)=Q_{t+n-1}(s,a),这就是n步Sarsa算法。

n步off - policy学习

off - policy使用策略b来学习策略\pi,需要考虑两个策略\pib的不同,所以需要使用相对概率。由于方法中,回报根据n步来建立,所以需要考虑n步的相对概率。例如实现一个简单off-policy版本的n步TD学习,对于t时刻状态价值的更新,可以用\rho_{t:t+n-1}来加权。

其中\rho_{t:t+n-1}是重要度采样率,是两种策略采取A_t \sim A_{t+n}n个动作的相对概率。

假设策略\pi永远不会采取某个特定动作,即\pi(A_k|S_k)=0,则n步回报的权重为0,即完全忽略。另一方面,如何策略\pi采取某个动作的概率很大,则这个权重也会增加。所以n步Sarsa更新方法的off - policy版如下:

off - policy n - step Sarsa方法如下: 

Per-reward Off - policy 方法

对于普通n步方法的回报,像所有回报一样,可以写成递归方式。

然后考虑off - policy的影响(不同的策略,目标策略\pi和行为策略b而产生的影响),对于t时刻的第一次收益R_{t+1}和下一个状态S_{t+1}都必须用重要度采样率加权,除了可以对上式等号右侧直接加权之外,还有更好的方法,就是加多一项V_{h-1}(S_t),这一项被称为控制变量。最后该n步回报的off - policy策略可以定义成:

在这个方法中,如果\rho_t=0,则它不会使得目标为0并导致估计值收缩,而是使得目标和估计值一样,因而不会带来任何变化。重要度采样率为0意味着忽略样本,所以让估计值保持不变是合理的。

n步Tree Backup算法

如下图所示:

包含两个采样动作A_{t+1}A_{t+2},在MC,TD中,这个图就是一条分支,直到终止状态。不同点在于这里只采样有限步,用估计的价值函数替代后续的采样回报(BootStrapping)。这里有采样,但是也包含没有采样到的动作价值函数(图中的左右节点)。没有采样到的动作节点叫做叶子节点。(所谓叶子节点就是没有子节点的节点,在状态S_{t+3}的时候,一个动作都没选择,对应它的子节点都是叶子节点)

目标更新

一般情况下,会使用实际采样的序列S_t,A_t,R_{t+1},S_{t+1},A_{t+1},...,S_{t+3}这条分支(中间)来构造更新的目标。但是在tree backup更新中,不仅包含采样的动作序列,还需要考虑旁边的动作。类似于从叶子节点到根节点的一次回溯,叫做tree backup。

更新目标(父节点)是通过叶子节点的价值函数构造。这里首先给每一个叶子节点分配一个权重。这个权重是叶子节点对应动作a在目标策略\pi下的概率。而更新时,就是以此概率作为权重的,所有的叶子节点的加权之和。对于第一层的叶子节点(S_{t+1}下面的两个叶子节点),权重是\pi(a|S_{t+1})。而对于该层的非叶子节点,也就是A_{t+1},它发生的概率\pi(A_{t+1}|S_{t+1})用来给所有第2层的节点加权,以此类推。

对于每个叶子节点以及他们的加权权重如上图所示。对于单步tree backup算法,其回报与Expected Sarsa算法相同。对于t< T-1,有

对于t<T-2,也就是2步tree backup 算法,它的回报是

G_{t:t+2}=R_{t+1}+\gamma\sum_{a\neq A_{t+1}}\pi(a|S_{t+1})Q_{t+1}(S_{t+1},a)+\gamma\pi(A_{t+1}|S_{t+1})(R_{t+2}+\gamma \sum_a\pi(a|S_{t+2})Q_{t+1}(S_{t+2},a))

对于tree backup算法的n步回报的地柜定义的一般形式。即对于t<T-1,n\geqslant 2,有

n步tree backup算法的伪代码如下:


http://chatgpt.dhexx.cn/article/aMmlvBHS.shtml

相关文章

Bootstrapping

Bootstrapping从字面意思翻译是拔靴法&#xff0c;从其内容翻译又叫自助法&#xff0c;是一种再抽样的统计方法。自助法的名称来源于英文短语“to pull oneself up by one’s bootstrap”&#xff0c;表示完成一件不能自然完成的事情。1977年美国Standford大学统计学教授Efron提…

Bootstrapping?

一、什么是Bootstrapping&#xff1f; 中文翻译也叫“自助法(自举法)”。 类似于给鞋子穿鞋带&#xff0c;把鞋带穿进去在穿出来再穿进去。 举个例子&#xff0c;一个总体有五十人&#xff0c;没有办法直接测量总体的情况&#xff0c;我们就从总体中抽取一些样本&#xff0c;用…

华为机试题整理

1、整数反转后求和 #include <iostream> using namespace std; int reversenum(int x) {int a0;while (x>0) {aa*10x%10;x/10;}return a; } int reverseAdd(int a,int b) {if(a<1||a>70000||b<1||b>70000){return -1;}int num1reversenum(a);int num2re…

2021.华为机试某题

问题描述&#xff1a; 有M*N的节点矩阵&#xff0c;每个节点可以向8个方向&#xff08;上、下、左、右及四个斜线方向&#xff09;转发数据包&#xff0c;每个节点转发时会消耗固定时延&#xff0c;连续两个相同时延可以减少一个时延值&#xff08;即当有K个相同时延的节点连续…

牛客网华为机试题训练汇总(JavaScript)

牛客网华为机试题训练&#xff08;JavaScript Node环境&#xff09; 文章目录 牛客网华为机试题训练&#xff08;JavaScript Node环境&#xff09;前言一、题目1. HJ11 数字颠倒2. HJ22 汽水瓶3. HJ53 杨辉三角的变形4. HJ2 计算某字母出现次数5. HJ8 合并表记录6. HJ17 坐标移…

1、华为机试题记录

1、小型机通常采用RISC和unix操作系统。 RISC&#xff1a;精简指令集计算机&#xff0c;指令少&#xff0c;运行效率更高。 unix&#xff1a;商用UNIX现在主要是三大分支IBM的AIX,SUN的solaris&#xff0c;HP的hp-ux&#xff0c;运行在小型机上。金融电信等行业应用广泛&#x…

华为机试练习题汇总

华为机试练习广场&#xff1a; [华为机试练习题]1.周期串问题 - Yoona - 博客频道 - CSDN.NET[华为机试练习题]2.大数求和 - Yoona - 博客频道 - CSDN.NET[华为机试练习题]3.分解字符串 - Yoona - 博客频道 - CSDN.NET[华为机试练习题]4.简单密码破解 - Yoona - 博客频道 - CSD…

华为OD机试真题大全,用 Python 解华为机试题 | 机试宝典

文章目录 2023 年用 Python 语言解华为 OD 机试题&#xff0c;一篇博客找全。华为 OD 机试题清单&#xff08;机试题库还在逐日更新&#xff09; 2023 年用 Python 语言解华为 OD 机试题&#xff0c;一篇博客找全。 在 2023 年&#xff0c;Python 已成为广泛使用的编程语言之一…

华为OD机试真题2022Q4 A + 2023 B卷(JavaJavaScript)

大家好&#xff0c;我是哪吒。 五月份之前&#xff0c;如果你参加华为OD机试&#xff0c;收到的应该是2022Q4或2023Q1&#xff0c;这两个都是A卷题。 5月10日之后&#xff0c;很多小伙伴收到的是B卷&#xff0c;那么恭喜你看到本文了&#xff0c;抓紧刷题吧。B卷新题库正在更…

EntityWrapper的in用法

EntityWrapper<UserLife> wrapper new EntityWrapper<>(); wrapper.eq("is_valid", 1); wrapper.in("life_name", "ge,edu,career"); List<UserLife> userLabelList userLabelService.selectList(wrapper); in的第二个参数…

QueryWrapper

官方文档&#xff1a;https://mp.baomidou.com/guide/wrapper.html#querywrapper select("id", "name", "age") select(i -> i.getProperty().startsWith("test")) controller中使用的例子

wrapper.and

多条件查询时 如果使用这种的话&#xff0c;会出现只要这个条件成功了&#xff0c;不管你后面或者前面有没有and条件&#xff0c;它都成功&#xff0c; 可以看出来整个条件都在一个括号里面 //创建查询对象LambdaQueryWrapper<PublishWorksRemit> wrapper new Lambd…

MyBatis-Plus使用条件构造器Wrapper

Wrapper &#xff1a;条件构造抽象类&#xff0c;最顶端父类。AbstractWrapper类比较重要。 AbstractWrapper类是 QueryWrapper(LambdaQueryWrapper) 和 UpdateWrapper(LambdaUpdateWrapper) 的父类。用于生成 sql 的 where 条件,&#xff0c;entity 属性也用于生成 sql 的 whe…

MybatisPlus使用Wrapper实现增删改查功能

条件构造器的格式说明 导入maven依赖 <dependency><groupId>com.github.jeffreyning</groupId><artifactId>mybatisplus-plus</artifactId><version>1.5.1-RELEASE</version><scope>compile</scope></dependency>…

java wrapper作用_java Wrapper类基本用法详解

在封装中有一种特殊的类,能够把基本的数据类型进行转换来方便实际的使用。我们在之前提到的一些数据类型,最明显的特征是所有字母为小写状态,那么经过Wrapper的包装后,首字母就变成了大写。下面我们就这种特殊的封装类Wrapper的概念、转换图解、模式以及实例带来分享。 1.概…

MybatisPlus学习 条件构造器Wrapper方法详解

目录 1、条件构造器 2、AbstractWrapper 2.1、eq、allEq、ne、 2.2、gt、ge、lt、le 2.3、between、notBetween 2.4、like、notLike、likeLeft、likeRight 2.5、isNull、isNotNull 2.6、in、notIn 2.7、inSql、notInSql 2.8、or、and 2.9、exists、notExists 2.10、…

MybatisPlus--QueryWrapper

QueryWrapper wrapper介绍 Wrapper &#xff1a; 条件构造抽象类&#xff0c;最顶端父类 AbstractWrapper &#xff1a; 用于查询条件封装&#xff0c;生成 sql 的 where 条件 QueryWrapper &#xff1a; Entity 对象封装操作类&#xff0c;不是用lambda语法UpdateWrapper &…

Gradle基础:9:wrapper的使用

Gradle Wrapper是gradle建议的使用方式&#xff0c;这篇文章将会结合具体的例子来说明一下如何使用。 Gradle Wrapper Gradle Wrapper实际上就是一个脚本&#xff0c;使用它可以下载和使用指定版本的gradle&#xff0c;根据需要进行在使用之前进行下载&#xff0c;有效避免本…

spring boot之maven-wrapper

Spring Boot有很多功能特性值得借鉴和学习&#xff0c;很多玩Spring Boot的人知道不需要安装Tomcat很方便&#xff0c;其实并没有发现Maven也是不需要提前安装。它这样做的好处在于解决了开发环境maven版本不一致导致的各种问题&#xff0c;spring boot中集成了maven-wrapper的…

dubbo之SPI Wrapper分析

写在前面 本文需要dubbo SPI的简单基础知识&#xff0c;对dubbo SPI不了解的朋友可以参考dubbo之SPI分析 。 源码&#xff01;&#xff01;&#xff01;。 在dubbo之SPI分析 文章中我们分析了SPI机制&#xff0c;其中有种SPI是一个Wrapper类的情况&#xff0c;本文一起来看下Wr…