回顾

传统的策略梯度算法以下式作为策略网络的损失：
$\hat{g}=\hat{\mathbb{E}}_{t}\left[\nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right) \hat{A}_{t}\right]$
具体在代码实现中就是计算 $\log \pi_{\theta}\left(a_{t} \mid s_{t}\right) \hat{A}_{t}$ （蒙特卡洛近似）后反向传播更新策略网络。
容易出现： $\log \pi_{\theta}\left(a_{t} \mid s_{t}\right) \hat{A}_{t}$ 是一个绝对值特别大的数，这将导致 $\pi _\theta ( a _ { t } | s _ { t } )$ 与 $\pi _{\theta_{new}} ( a _ { t } | s _ { t } )$ 差别较大，这不利于收敛：
在这里插入图片描述

PPO使用clip解决这个问题

首先PPO在clip前的策略网络损失值如下：
$L^{C P I}(\theta)=\hat{\mathbb{E}}_{t}\left[\frac{\pi_{\theta}\left(a_{t} \mid s_{t}\right)}{\pi_{\theta_{\mathrm{old}}}\left(a_{t} \mid s_{t}\right)} \hat{A}_{t}\right]=\hat{\mathbb{E}}_{t}\left[r_{t}(\theta) \hat{A}_{t}\right]$
这个式子其实和传统策略梯度算法的 $\log \pi_{\theta}\left(a_{t} \mid s_{t}\right) \hat{A}_{t}$ 大同小异，紧接着对上式做如下操作：
$L^{C L I P}(\theta)=\hat{\mathbb{E}}_{t}\left[\min \left(r_{t}(\theta) \hat{A}_{t}, \operatorname{clip}\left(r_{t}(\theta), 1-\epsilon, 1+\epsilon\right) \hat{A}_{t}\right)\right]$
我们分析 $L^{C L I P}(\theta)$ 和 $r_t(\theta)$ 的关系，可以绘制出如下两张图：
在这里插入图片描述
首先我们需要明确优势函数（advantage function）的定义及含义：
$\pi } ( s _ { t} ,a_t ) = Q ^ { \pi } ( s _ { t },a_t ) - V ^ { \pi } ( s _ { t } )$
又因为 $\pi } ( s _ { t } )$ 是状态 $s _ { t }$ 下对 $\pi } ( s _ { t },a_t )$ 的加权平均，因此 $\pi } ( s _ { t } )$ 反映的是在当前策略下做出动作的平均累计折扣回报的期望，可以理解为平均水平，因此 $\pi } ( s _ { t} ,a_t )$ 反映的是做动作 $a_t$ 带来的优势，因此 $\pi } ( s _ { t} ,a_t )>0$ 的情况下策略梯度算法将向着提高 $\pi(a_t|s_t)$ 的方向前进，当 $\pi } ( s _ { t} ,a_t )<0$ 时策略梯度算法将向着减小 $\pi(a_t|s_t)$ 的方向前进（这里也可以这么理解：最大化loss，当A>0，自然是要增大r，就是增大 $\pi$ ，当A<0，要最大化loss就要最小化r，因此减小 $\pi$ ）。

分析第一张图：只要当前策略在动作 $a_t$ 下的 $\pi$ 相对于上次更新前 $\pi_{old}$ 之比过大，即超过 $1+\epsilon$ ，根据图中函数关系可知loss关于r的梯度为0，这次反向传播不会对权重产生影响，如果小于 $1+\epsilon$ 正常更新。
第二张图：A<0，说明这个动作不够好，r是往小的方向更新，但是如果之前更新的比例r已经小于了 $1-\epsilon$ ，说明更新幅度之前已经比较大了，不建议再往这个方向更新，根据图中函数关系此时loss关于r的梯度为0，不会对权重产生影响。