15年OpenAI发表了TRPO算法，一直策略单调提升的算法；17年DeepMind基于TRPO发表了一篇Distributed-PPO，紧接着OpenAI发表了这篇PPO。可以说TRPO是PPO的前身，PPO在TRPO的基础上进行改进，使得算法可读性更高，实操性更强。
论文地址，点这里
有关TRPO的论文解读，可参考我的另一篇论文笔记之TRPO
PPO作为目前比较火热的model-free类强化学习算法，在许多环境中取得了不错的效果，因此是有必要去学习的。

论文解读参考：
①OpenAI PPO强化学习算法解读
②TRPO和PPO（下）
③强化学习笔记（五）–PPO
④PPO
⑤TRPO与PPO

Note：

关于PPO，网上最大的争议点在于是否是Off-policy算法？答：PPO是On-policy算法，虽然其引入了IS因子修正，但是用于采样的策略是旧策略 $\pi_{old}$ (或者说当前策略)，然后用这些样本去更新当前策略 $\theta_{old}\to\theta$ ，用来学习并成为最终策略的策略叫目标策略，故采样策略和目标策略都是同一个 $\theta_{old}$ ，因此PPO就是On-policy算法。和DDPG这类算法不同，虽然说从头至尾都用一个网络符号 $\pi_\theta$ 来表示策略，但是更新前后是有区别的，DDPG用来更新当前策略的样本来自于经验池，池子里的样本是由许多个之前不同的行为策略产生的，也就是说学习所用的数据“离开”了待学习的目标策略，因此DDPG是Off-policy的。再比如说Q-learning就更明显了，直接摆明有2个策略： $g r e e d y$ 和 $\epsilon-greedy$ 策略。因此可以说Off-policy算法一般都会使用IS技术，但使用IS技术的不一定是Off-policy。
TRPO和PPO都是为了解决策略梯度算法中学习率大小的算法，只不过PPO实现起来更加简便，效果也更好。
Proximal(近端)个人认为应该指的是策略网络参数的更新是在约束范围内进行，因为有一个范围在，这个范围直觉上感觉很小，所以称之为近端。
PPO有2个版本：一个是带有可调节的KL因子版本；另一个是带有Clip技术的版本。

Proximal Policy Optimization Algorithms

Abstract
1 Introduction
2 Background: Policy Optimization
- 2.1 Policy Gradient Methods
- 2.2 Trust Region Methods
3 Clipped Surrogate Objective
4 Adaptive KL Penalty Coefficient
5 Algorithm
6 Experiments
- 6.1 Comparison of Surrogate Objectives
- 6.2 Comparison to Other Algorithm in the Continuous Domain
- 6.3 Showcase in the Continuous Domain:Humanoid Running and Steering
- 6.4 Comparison to Other Algorithm on the Atari Domain
7 Conclusion

Abstract

1 Introduction

略

2 Background: Policy Optimization

2.1 Policy Gradient Methods

PPO和TRPO都是用来解决策略梯度算法中的学习率问题的，因此他们都属于策略梯度算法(PG)：
$\nabla J(\theta)=\mathbb{E}_{(s,a)\sim\rho^\pi}[\nabla_\theta\log\pi_\theta(a|s)\cdot A^{\pi_\theta}(s,a)]\tag{1}$

2.2 Trust Region Methods

有关TRPO的论文解读，可参考我的另一篇论文笔记之TRPO。
TRPO的目标函数以及约束为：
$\mathop{maximize}\limits_{\theta}\mathbb{E}_{(s_t,a_t)\sim\rho^{\pi_{\theta_{old}}}}[\frac{\pi_\theta(s_t,a_t)}{\pi_{\theta_{old}}(s_t,a_t)}A^{\pi_{\theta_{old}}}(s_t,a_t)]\tag{3}$ $s.t.\,\,\,\mathbb{E}_{(s_t,a_t)\sim\rho^{\pi_{\theta_{old}}}}[KL[\pi_{\theta_{old}}(\cdot|s_t),\pi_\theta(\cdot|s_t)]]\tag{4}$ Note：

$\theta_{old}$ 指的是当前策略，是即将更新的待更新策略，相对 $\pi_\theta$ 而言就是旧策略。
TRPO对式(3)(4)的优化采用共轭梯度+线性搜索来处理。对式(3)采用一阶近似，对式(4)采用二阶近似。

理论上TRPO开始也是将 $K L$ 散度作为奖惩项的：
$\mathop{maximize}\limits_{\theta}\mathbb{E}_{(s_t,a_t)\sim\rho^{\pi_{\theta_{old}}}}[\frac{\pi_\theta(s_t,a_t)}{\pi_{\theta_{old}}(s_t,a_t)}A^{\pi_{\theta_{old}}}(s_t,a_t)-\beta KL[\pi_{\theta_{old}}(\cdot|s_t),\pi_{\theta}(\cdot|s_t)]]\tag{5}$ Note:

但是在TRPO中 $K L$ 因子是个很小的值，会造成学习缓慢。如果将 $\beta$ 当做超参数的话，对于不同环境也是难以调节。因此PPO的一个版本就专门设计了可调节的 $K L$ 因子。
实验表明，如果采样固定的奖惩因子 $\beta$ ，并采用 $S G D$ 来对式(5)做一阶近似的话，效果是不好的。因此有必要将 $\beta$ 改成可调节的。

3 Clipped Surrogate Objective

这是PPO的Clip版本。OpenAI的作者提出用Clip技术替代 $K L$ 散度的作用，即限制参数 $\theta_{old}\to\theta$ 步伐过大。
记IS修正因子 $r_t(\theta)=\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$ 。TRPO优化的目标是一种替代目标，他不直接优化 $\eta_{\theta_{new}}$ ，而是优化它的一个下界。整个优化过程Kakada称之为CPI(Conservation Policy Iteration)，故真正优化的目标函数称之为CPI函数： $L^{CPI}(\theta)=\mathbb{E}_{(s_t,a_t)\sim\rho^{\pi_{\theta_{old}}}}[\frac{\pi_\theta(s_t,a_t)}{\pi_{\theta_{old}}(s_t,a_t)}A^{\pi_{\theta_{old}}}(s_t,a_t)]=\mathbb{E}[r_t(\theta)A^{\pi_{\theta_{old}}}(s_t,a_t)]\tag{6}$
可以见得，如果不存在一个约束的话， $\theta_{old}\to\theta$ 将会很大，会导致策略提升失效，从而无法解决PG算法的学习率大小问题。

那么PPO的Clip版本的替代函数是什么呢？
PPO的Clip版本的优化的目标也是基于TRPO的优化目标(式(6))，本质上两者都是CPI函数，优化的都是真正回报 $\eta_{\theta_{new}}$ 的近似。
记Clip超参数 $\epsilon=0.2$ ，则PPO优化目标：
$L^{CLIP}(\theta)=\mathbb{E}_{(s_t,a_t)\sim\rho^{\pi_{\theta_{old}}}}[\min\{r_t(\theta)A^{\pi_{\theta_{old}}},clip(r_t(\theta), 1-\epsilon,1+\epsilon)A^{\pi_{\theta_{old}}}\}]\tag{7}$
$C l i p$ 目标函数有2大特征：
①用下图即可说明PPO设置 $C l i p$ 的意义：在这里插入图片描述用一句话概括就是 $C l i p$ 的存在是为了限制 $\theta_{old}\to\theta$ 更新幅度过大，这个更新方向可能使得 $\pi$ 是增大的，也可能是减小的，这取决于Critic和0的关系。根据PG理论： $A\ge0$ ，则鼓励 $\theta$ 的更新朝着 $\pi_\theta$ 增大的方向移动； $A\leq0$ ，则鼓励 $\theta$ 的更新朝着 $\pi_\theta$ 减小的方向移动。
Note：

虽然理论上说 $K L$ 散度优化目的是让2个分布输出的动作概率一致，而非策略参数一致。但是实际上对于2个不同参数的分布，要做到对于状态空间 $\mathcal{S}$ 的每一个状态都对应的概率密度(离散下为概率)相等，是很难的，如下图所示：因此 $\mathop{minimize}\limits_\theta KL(\pi_{\theta_{old}}(\cdot|s)||\pi_\theta(\cdot|s))$ 的结果往往是 $\theta_{old}\approx\theta$ 。因此无论是 $K L$ 散度还是 $C l i p$ ，其优化的结果就是使2个策略的参数趋于一致。
通过 $C l i p$ 技术限制住 $r(\theta)$ 一来可以保证策略提升不会失效；二来可以保证IS处理后的方差不会过大从而保证IS的有效性。

②： $L^{CLIP}$ 可作为选取目标函数的一个保守的下界。如下图所示：在这里插入图片描述图中横坐标可以理解为参数从开始更新到更新完毕的过程。纵坐标为 $KL(\theta_{old}||\theta)$ 值。从图中可看出以 $L^{CLIP}$ 为目标对于参数更新步伐的控制较强，更新“保守”。

4 Adaptive KL Penalty Coefficient

第三节讲述了PPO的 $C l i p$ 版本，这一节讲述PPO的另一个版本——采用可调节的 $K L$ 散度因子。
算法的大致步骤为：
在这里插入图片描述 Note：

算法涉及3个超参数： $\beta、d_{targ}、(1.5,2)$ ，但这三者的敏感性很低，调节并不是很麻烦。
效果比 $L^{CLIP}$ 要差，但是可作为一个baseline。
采用SGD做一阶优化。

5 Algorithm

回顾一下：第三节介绍了基于TRPO的 $L^{CLIP}$ 算法；第四节介绍了基于TRPO的 $L^{KLPEN}$ 算法。这一节开始介绍完整的PPO算法。
PPO算法的完整目标函数：
$L_t^{CLIP+VF+S}(\theta)=\mathbb{E}_{(s_t,a_t)\sim\rho^{\pi_{\theta_{old}}}}[L_t^{CLIP}(\theta)-c_1L_t^{VF}(\theta)+c_2S[\pi_\theta](s_t)]\tag{9}$ Note:

$c_1,c_2$ 为2个超参数， $S$ 为信息熵增加探索率， $L_t^{VF}$ 为训练Critic网络 $V_\theta$ 的损失函数。
这里采用 $L^{CLIP}$ 作为替代函数。

优势函数的估计基于以下式子：
$A_t=-V(s_t)+[r_t+\gamma_{t+1}+\cdots+\gamma^{T-t-1}r_{T-1}+\gamma^{T-t}V(s_T)]\tag{10}$ Note:

式(10)第一部分的 $V$ 通过价值网络得到， $V$ 网络的训练遵从： $\mathop{minimize}\limits_\theta\mathbb{E}_{(s_t,a_t)\sim\rho^{\pi_{\theta_{old}}}}[\frac{1}{2}(V_\theta(s_t)-V_t^{targ}(s_t))^2]$
式(10)的第二部分是一个T步的 $Q$ ，它通过MC采样结果相加可得。

整个PPO算法的伪代码如下：在这里插入图片描述 Note：

PPO算法拥有Actor-Critic算法的框架。
算法中分成了 $N$ 个Actor去做T步的探索，一共收集 $N * T$ 个样本，然后进行训练过程中，采集 $M\leq NT$ 个样本做mini-batch，更新 $\theta_{old}\to\theta$ 。从这里就可以看出PPO是如何利用样本训练的以及PPO是一个On-policy算法，因为目标策略 $\theta_{old}$ 的更新和行为策略 $\theta_{old}$ 是同一个。
PPO的训练中T步是固定的长度，其值远小于一个episode的长度。
PPO的自动调节 $K L$ 因子版本伪代码如下：

6 Experiments

6.1 Comparison of Surrogate Objectives

这一小节用于对比三种替代目标函数 $L^{CPI}、L^{CLIP}、L^{KLPEN}$ ，其中 $L^{KLPEN}$ 还包括固定和自动调节的 $\beta$ 。
实验设置：

超参数：除了 $c l i p$ 版本有专属的 $\epsilon$ ，奖惩 $K L$ 版本有专属的 $(\beta,d_{targ})$ ，其余都一样的设置：
网络设置：用神经网络来表示策略。
其他：实验环境来自于OpenAI-Gym的Mujoco仿真模拟器。一共涉及7种环境，每种环境设置3个随机种子。评价指标为7*3=21个结果的平均值。

实验结果如下：
在这里插入图片描述

从实验结果来看， $L^{CLIP}$ 版本的表现要较好于其他三种。
显然失去了参数更新限制的 $L^{CPI}$ 表现拉跨，因为参数 $\theta_{old}\to\theta$ 不设限，导致策略提升失效以及IS修正失效。

6.2 Comparison to Other Algorithm in the Continuous Domain

这一小节是将PPO算法与其他算法在同一环境是的比较。
上一轮胜出的是 $c l i p$ 版本的PPO，所以这一节拿 $c l i p$ 版本的PPO与其余5种算法对比，实验结果如下：在这里插入图片描述从实验结果来看，显然PPO的表现力要好于其余5位。

6.3 Showcase in the Continuous Domain:Humanoid Running and Steering

这一节是测试PPO(自动调节 $\beta$ 版本)在高维连续动作空间环境Humanoid上的表现效果。实验分三种难度，从低到高分别是：①RoboschoolHumanoid-v0②RoboschoolHumanoidFlagrun-v0③RoboschoolHumanoidFlagrunHarder
实验所涉及到的超参数如下：
在这里插入图片描述

实验效果图如下：
在这里插入图片描述
实验结果如下：

从实验结果来看，PPO在高维连续空间task的表现力还是不错的，面对高维task的时候，PPO是一个不错的baseline。

6.4 Comparison to Other Algorithm on the Atari Domain

这一节测试的是PPO算法和其余2种算法A2C、ACER在Atari环境中的表现对比。
一共测试49种Atari游戏。PPO的超参数如下：在这里插入图片描述其余2种算法的超参数已经调节到最好效果了。
实验分2个评价指标，评价值是49局游戏里获胜的次数，实验结果如下：

从实验结果来看，PPO在Atari领域还是可行的一种算法。

7 Conclusion

PPO是一种Policy-based方法。
PPO是一种On-policy的随机策略算法。
PPO=(Policy-Gradient)+(Importance-Sampling)+(KL散度)，即它的目标函数基于PG，然后利用IS技术提高采样效率，同时为了避免IS中前后策略相差太大而引入 $K L$ 散度。和TRPO不同的是，PPO的KL散度是作为奖惩项放在目标函数中的，并且引入自动调节的 $K L$ 因子 $\beta$ 。
PPO也可以理解成PPO=(TRPO-constraint)+(clip)=(TRPO-constraint)+(adaptive- $\beta$ )，即PPO是一种基于TRPO且有2个版本的RL算法。
为了降低 $K L$ 散度计算的复杂度，PPO引入 $C l i p$ 技术将 $(\theta_{old},\theta)$ 限定在一定范围内。
TRPO对约束使用了二阶近似，而PPO只使用了一阶，并弃用了难度较大的共轭梯度以及线性搜索算法，故PPO更易实现且效果更好。
可用于作为一个较为保守的替代目标。一般来说，CPI函数和CLIP函数都是对真正目标 $\eta$ 的近似。