PPO实战

article/2025/9/21 9:03:51

哈哈初学,复现龙龙老师的实例!

state:是平衡小车上的杆子,观测状态由 4 个连续的参数组成:推车位置 [-2.4,2.4],车速 [-∞,∞],杆子角度 [~-41.8°,~41.8°] 与杆子末端速度 [-∞,∞]。

游戏结束:当极点与垂直方向的夹角超过15度时,或者推车从中心移出2.4个单位以上
向推车施加+1或-1的力来控制系统
杆保持直立的每个时间步长都提供+1的奖励

代码分析

经验池缓存

批训练条件

Transition = namedtuple('Transition', ['state', 'action', 'a_log_prob', 'reward', 'next_state'])
trans = Transition(state, action, action_prob, reward, next_state)
agent.store_transition(trans)
self.buffer.append(transition)
            if done: # 合适的时间点训练网络(回合结束done=True才训练)if len(agent.buffer) >= batch_size:agent.optimize() # 训练网络break

数据迭代次数:round()函数不设四舍五入位数,默认计算到整数。

 # 对缓冲池数据大致迭代10遍for _ in range(round(10*len(self.buffer)/batch_size)):

奖励计算

 Rs = []for r in reward[::-1]:R = r + gamma * RRs.insert(0, R)  #在List 列表前添加新的RRs = tf.constant(Rs, dtype=tf.float32) #将List转换为Tensor格式

重要性采样old_action_log_prob为Actor策略网络得出的已经生成的buffer动作概率(策略采样offline);pi_a为index对应的(历史)buffer中的状态再进行Actor网络在线得出的动作概率(目标策略online)

ratio = (pi_a / tf.gather(old_action_log_prob, index, axis=0))

PPO2误差
在这里插入图片描述

ratio = (pi_a / tf.gather(old_action_log_prob, index, axis=0))
surr1 = ratio * advantage
surr2 = tf.clip_by_value(ratio, 1 - epsilon, 1 + epsilon) * advantage
# PPO误差函数
policy_loss = -tf.reduce_mean(tf.minimum(surr1, surr2))

函数备注

tf.reshape(tensor,[-1,1])将张量变为一维列向量
tf.reshape(tensor,[1,-1])将张量变为一维行向量

tf.gather 可以根据索引号收集数据的目的。
如:考虑班级成绩册的例子,共有 4 个班
级,每个班级 35 个学生,8 门科目,保存成绩册的张量 shape 为[4,35,8]。例如在班级的维度上面我们可以像下面这样收集1和2班级的成绩册。

x = tf.random.uniform([4,35,8],maxval=100,dtype=tf.int32)
y=tf.gather(x,[0,1],axis=0)

buffer.append(transition) 在列表后面添加存储数据。

range()返回从0到4的5个数构成的list,而arange()返回一个array对象。不过他们的元素都是一样的。

Transition = namedtuple('Transition', ['state', 'action', 'a_log_prob', 'reward', 'next_state'])

下面的函数的作用为从数组x中取出n个元素,false表示每个元素不一样

**np.random.choice**(x,n,replace=false)

np.arange(len(self.buffer)) :生成长度的数组,这里为0~39,40个数(buffer的数目),后面会用这些抽取的随机数作为训练样本的索引下标。

中间prob概率截图
在这里插入图片描述
a = tf.random.categorical(tf.math.log(prob), 1)[0]

变量监视:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

PPO实战代码

import  matplotlib
from matplotlib import pyplot as plt
matplotlib.rcParams['font.size'] = 18
matplotlib.rcParams['figure.titlesize'] = 18
matplotlib.rcParams['figure.figsize'] = [9, 7]
matplotlib.rcParams['font.family'] = ['Microsoft YaHei']
matplotlib.rcParams['axes.unicode_minus']=Falseplt.figure()import  gym,os
import  numpy as np
import  tensorflow as tf
from    tensorflow import keras
from    tensorflow.keras import layers,optimizers,losses
from    collections import namedtuple
#from    torch.utils.data import SubsetRandomSampler,BatchSamplerenv = gym.make('CartPole-v1')  # 创建游戏环境
env.seed(2222)
tf.random.set_seed(2222)
np.random.seed(2222)
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'
assert tf.__version__.startswith('2.')gamma = 0.98 # 激励衰减因子
epsilon = 0.2 # PPO误差超参数0.8~1.2
batch_size = 32 # batch size# 创建游戏环境
env = gym.make('CartPole-v0').unwrapped
Transition = namedtuple('Transition', ['state', 'action', 'a_log_prob', 'reward', 'next_state'])class Actor(keras.Model):def __init__(self):super(Actor, self).__init__()# 策略网络,也叫Actor网络,输出为概率分布pi(a|s)self.fc1 = layers.Dense(100, kernel_initializer='he_normal')self.fc2 = layers.Dense(2, kernel_initializer='he_normal')def call(self, inputs):x = tf.nn.relu(self.fc1(inputs))x = self.fc2(x)x = tf.nn.softmax(x, axis=1) # 转换成概率return xclass Critic(keras.Model):def __init__(self):super(Critic, self).__init__()# 偏置b的估值网络,也叫Critic网络,输出为v(s)self.fc1 = layers.Dense(100, kernel_initializer='he_normal')self.fc2 = layers.Dense(1, kernel_initializer='he_normal')def call(self, inputs):x = tf.nn.relu(self.fc1(inputs))x = self.fc2(x)return xclass PPO():# PPO算法主体def __init__(self):super(Actor, self).__init__()self.actor = Actor() # 创建Actor网络self.critic = Critic() # 创建Critic网络self.buffer = [] # 数据缓冲池self.actor_optimizer = optimizers.Adam(1e-3) # Actor优化器self.critic_optimizer = optimizers.Adam(3e-3) # Critic优化器def select_action(self, s):# 送入状态向量,获取策略: [4]s = tf.constant(s, dtype=tf.float32)# s: [4] => [1,4]s = tf.expand_dims(s, axis=0)# 获取策略分布: [1, 2]prob = self.actor(s)# 从类别分布中采样1个动作, shape: [1]a = tf.random.categorical(tf.math.log(prob), 1)[0]a = int(a)  # Tensor转数字return a, float(prob[0][a]) # 返回动作及其概率def get_value(self, s):# 送入状态向量,获取策略: [4]s = tf.constant(s, dtype=tf.float32)# s: [4] => [1,4]s = tf.expand_dims(s, axis=0)# 获取策略分布: [1, 2]v = self.critic(s)[0]return float(v) # 返回v(s)def store_transition(self, transition):# 存储采样数据self.buffer.append(transition)def optimize(self):# 优化网络主函数# 从缓存中取出样本数据,转换成Tensorstate = tf.constant([t.state for t in self.buffer], dtype=tf.float32)action = tf.constant([t.action for t in self.buffer], dtype=tf.int32)action = tf.reshape(action,[-1,1])reward = [t.reward for t in self.buffer]old_action_log_prob = tf.constant([t.a_log_prob for t in self.buffer], dtype=tf.float32)old_action_log_prob = tf.reshape(old_action_log_prob, [-1,1])# 通过MC方法循环计算R(st)R = 0Rs = []for r in reward[::-1]:R = r + gamma * RRs.insert(0, R)Rs = tf.constant(Rs, dtype=tf.float32)# 对缓冲池数据大致迭代10遍for _ in range(round(10*len(self.buffer)/batch_size)):# 随机从缓冲池采样batch size大小样本index = np.random.choice(np.arange(len(self.buffer)), batch_size, replace=False)# 构建梯度跟踪环境with tf.GradientTape() as tape1, tf.GradientTape() as tape2:# 取出R(st),[b,1]v_target = tf.expand_dims(tf.gather(Rs, index, axis=0), axis=1)# 计算v(s)预测值,也就是偏置b,我们后面会介绍为什么写成vv = self.critic(tf.gather(state, index, axis=0))delta = v_target - v # 计算优势值advantage = tf.stop_gradient(delta) # 断开梯度连接# 由于TF的gather_nd与pytorch的gather功能不一样,需要构造# gather_nd需要的坐标参数,indices:[b, 2]# pi_a = pi.gather(1, a) # pytorch只需要一行即可实现a = tf.gather(action, index, axis=0) # 取出batch的动作at# batch的动作分布pi(a|st)pi = self.actor(tf.gather(state, index, axis=0))indices = tf.expand_dims(tf.range(a.shape[0]), axis=1)indices = tf.concat([indices, a], axis=1)pi_a = tf.gather_nd(pi, indices)  # 动作的概率值pi(at|st), [b]pi_a = tf.expand_dims(pi_a, axis=1)  # [b]=> [b,1]# 重要性采样ratio = (pi_a / tf.gather(old_action_log_prob, index, axis=0))surr1 = ratio * advantagesurr2 = tf.clip_by_value(ratio, 1 - epsilon, 1 + epsilon) * advantage# PPO误差函数policy_loss = -tf.reduce_mean(tf.minimum(surr1, surr2))# 对于偏置v来说,希望与MC估计的R(st)越接近越好value_loss = losses.MSE(v_target, v)# 优化策略网络grads = tape1.gradient(policy_loss, self.actor.trainable_variables)self.actor_optimizer.apply_gradients(zip(grads, self.actor.trainable_variables))# 优化偏置值网络grads = tape2.gradient(value_loss, self.critic.trainable_variables)self.critic_optimizer.apply_gradients(zip(grads, self.critic.trainable_variables))self.buffer = []  # 清空已训练数据def main():agent = PPO()returns = [] # 统计总回报total = 0 # 一段时间内平均回报for i_epoch in range(1000): # 训练回合数state = env.reset() # 复位环境for t in range(500): # 最多考虑500步# 通过最新策略与环境交互action, action_prob = agent.select_action(state)next_state, reward, done, _ = env.step(action)# 构建样本并存储trans = Transition(state, action, action_prob, reward, next_state)agent.store_transition(trans)state = next_state # 刷新状态total += reward # 累积激励env.render()if done: # 合适的时间点训练网络if len(agent.buffer) >= batch_size:agent.optimize() # 训练网络breakif i_epoch % 20 == 0: # 每20个回合统计一次平均回报returns.append(total/20)total = 0print(i_epoch, returns[-1])print(np.array(returns))plt.figure()plt.plot(np.arange(len(returns))*20, np.array(returns))plt.plot(np.arange(len(returns))*20, np.array(returns), 's')plt.xlabel('回合数')plt.ylabel('总回报')plt.savefig('ppo-tf-cartpole.svg')if __name__ == '__main__':main()print("end")
  • List item

http://chatgpt.dhexx.cn/article/BDUTLfQU.shtml

相关文章

PyTorch实现PPO代码

原理:Proximal Policy Optimization近端策略优化(PPO) 视频:Proximal Policy Optimization (PPO) is Easy With PyTorch | Full PPO Tutorial 代码来自github: Youtube-Code-Repository EasyRL 网站:Neural…

优化PPO

优化PPO 介绍core implementation details1.Vectorized architecture 量化结构Orthogonal Initialization of Weights and Constant Initialization of biases 算法权重的初始化以及恒定偏差的初始化The Adam Optimizer’s Epsilon Parameter Adam优化器的ε参数Adam Learning …

PPO Algorithm

‘‘目录 PPO ALGORITHM 进行看别人文章: 如何直观理解PPO算法?[理论篇] - 知乎 (zhihu.com) 【强化学习8】PPO - 知乎 (zhihu.com) PPO(OpenAI) Proximal Policy Optimization(PPO)算法原理及实现! - 简书 (jianshu.com) 1-Critic的作用与效果.m…

PPO算法实战

原理简介 PPO是一种on-policy算法,具有较好的性能,其前身是TRPO算法,也是policy gradient算法的一种,它是现在 OpenAI 默认的强化学习算法,具体原理可参考PPO算法讲解。PPO算法主要有两个变种,一个是结合K…

Proximal Policy Optimization(近端策略优化)(PPO)原理详解

本节开始笔者针对自己的研究领域进行RL方面的介绍和笔记总结,欢迎同行学者一起学习和讨论。本文笔者来介绍RL中比较出名的算法PPO算法,读者需要预先了解Reinforcement-Learning中几个基础定义才可以阅读,否则不容易理解其中的内容。不过笔者尽…

【强化学习PPO算法】

强化学习PPO算法 一、PPO算法二、伪代码三、相关的简单理论1.ratio2.裁断3.Advantage的计算4.loss的计算 四、算法实现五、效果六、感悟 最近再改一个代码,需要改成PPO方式的,由于之前没有接触过此类算法,因此进行了简单学习,论文…

【深度强化学习】(6) PPO 模型解析,附Pytorch完整代码

大家好,今天和各位分享一下深度强化学习中的近端策略优化算法(proximal policy optimization,PPO),并借助 OpenAI 的 gym 环境完成一个小案例,完整代码可以从我的 GitHub 中获得: https://gith…

autoit连接mysql数据库

原链接点我 一,准备工作 1, 下载mysql.au3(这个点击就下载了) 把mysql.au3放入到autoit的include目录下 2, 下载mysql驱动(根据自己系统选,下载完之后,双击运行会自动安装,一路next就行) 二,使用 #include "mysql.au3" #include <Array.au3> ;弹窗 Func aler…

AutoIt-v3的安装,和robotframework-autoitlibrary的导入

AutoIt 最新是v3版本&#xff0c;这是一个使用类似BASIC脚本语言的免费软件,它设计用于Windows GUI&#xff08;图形用户界面)中进行自动化操作。它利用模拟键盘按键&#xff0c;鼠标移动和窗口/控件的组合来实现自动化任务。而这是其它语言不可能做到或无可靠方法实现的。 Au…

selenium 上传下载调用windows窗口--AutoIT

AutoIT解决自动化上传下载文件调用Windows窗口 AutoIT下载安装使用AotuIt 操作windows上传窗口1. 打开AutoIt定位窗口组件2. 定位上传窗口属性 &#xff08;鼠标选中Finder Tool 拖拽至属性窗口&#xff09;3. 打开autoIt编辑器&#xff0c;编写代码4. 将脚本文件转成exe文件5.…

软件质量保证与测试 实验十一:AutoIt的使用

目录 实验概述实验内容1. 下载安装AutoIT。2. 测试win系统自带计算器程序&#xff0c; 246&#xff0c;是否正确&#xff1f; 写出Script。&#xff08;小提示&#xff1a;使用WinGetText获得输出&#xff09;3.测试win系统自带计算器程序&#xff0c; 写出3个以上的测试用例的…

selenium 用autoIT上传下载文件

一、下载安装AutoIT 下载并安装AutoIT&#xff0c;下载链接&#xff1a;https://www.autoitscript.com/site/autoit/AutoIT安装成功后&#xff0c;可以在开始菜单下看到AutoIT的所有工具&#xff0c;如下图所示&#xff1a; 其中分为几类&#xff0c;AutoIT Window Info用来识…

selenium autoit java_selenium+java利用AutoIT实现文件上传

转载自&#xff1a;https://www.cnblogs.com/yunman/p/7112882.html?utm_sourceitdadao&utm_mediumreferral 1、AutoIT介绍 AutoIT是一个类似脚本语言的软件&#xff0c;利用此软件我们可以方便的实现模拟键盘、鼠标、窗口等操作&#xff0c;实现自动化。 2、实现原理 利用…

autoIT 自动化上传/下载文件图文详解【python selenium】

情景&#xff1a; 在用selenium进行web页面自动化时&#xff0c;时不时会遇到上传附件的情况&#xff0c;常见的情况就是一个上传按钮&#xff0c;点击后弹出windows窗口&#xff0c;选择文件后上传&#xff0c;如下图1所示 图1 这种情况超出了selenium的能力范围&#xff0c;需…

AutoIt介绍

AutoIt的下载网址&#xff1a; https://www.autoitscript.com/site/autoit/downloads/ AutoIt在线文档&#xff1a;http://www.autoit3.cn/Doc/ AutoIt的优势&#xff1a; 简单易懂的类BASIC 表达式模拟键盘,鼠标动作事件操作窗口与进程直接与窗口的”标准控件”交互(设置/获…

AutoIt的应用

少数情况下需要操作系统级的弹窗&#xff0c;可以使用AutoIt。 AutoIt现在最新版是V3版本&#xff0c;这是一个类似BASIC脚本语言的免费软件&#xff0c;用于Windows GUI中进行自动化操作。利用模拟键盘按键&#xff0c;鼠标移动&#xff0c;窗口和控件的组合来实现自动化任务…

java 调用autoit_java和autoit连接

autoit可以实现本机文件的上传&#xff0c;修改&#xff0c;新建&#xff0c;也可以实现网页上文件下载到本地 连接步骤&#xff1a; (1)下载autoitx4java 包&#xff0c;地址在code.google.com/p/autoitx4java。解压后直接将jar包添加到工程里面。然后需要使用jacob包&#xf…

AutoIt在线使用手册地址

AutoIt 在线文档https://autoitx.com/Doc/

AutoIt3.0

autoIt主要用于窗口自动化&#xff0c;结合python&#xff0c;可解决web自动化&#xff0c;页面调出窗口的问题 autoIt脚本代码例子&#xff1a; 1.打开Windows 任务管理器 2.依次点击【应用程序、进程、服务、性能、联网、用户】按钮 3.再次点击应用程序按钮 4.点选第二个…

Python + Selenium + AutoIt 模拟键盘实现另存为、上传、下载操作详解

前言 在web页面中&#xff0c;可以使用selenium的定位方式来识别元素&#xff0c;从而来实现页面中的自动化&#xff0c;但对于页面中弹出的文件选择框&#xff0c;selenium就实现不了了&#xff0c;所以就需引用AutoIt工具来实现。 AutoIt介绍 AutoIt简单介绍下&#xff0c…