深刻理解L1和L2正则化

学习视频：BV1Z44y147xA、BV1gf4y1c7Gg、BV1fR4y177jP

up主：王木头学科学

L1、L2正则化即使用L1、L2范数来规范模型参数。

凡是减少泛化误差，而不是减少训练误差的方法，都可以称为正则化方法。

通俗来说，即凡是能减少过拟合的方法，都是正则化方法。

补充概念

范数

可以理解为把空间中两个点的距离这个概念给拓展。

如权重W为一个高维的向量，或高维空间中的一个点。这个点到原点的距离

若为欧式距离，则为L2范数，其公式和图像如下：

L2范数图像

即使用高维的勾股定理计算距离。如果将L2范数相同的点都画出来，则会形成一个以原点为圆心，半径为L2范数的圆。

若为曼哈顿距离，即对坐标值直接取绝对值，则为L1范数，其公式和图像如下：

L1范数图像

将L1范数相同的点画出来，组成的图形为一个中心在原点且偏转45°的正方形。

在正则化中，通常只用到L1、L2范数，但还有其他范数，如Lp范数。

当 0<p<1 时，得到的集合为非凸集；当 p>=1时，得到的集合才是凸集。

Lp范数

凸集

参考【学习笔记】直观理解拉格朗日函数中内容。

黑塞（Hessian）矩阵

黑塞矩阵（Hessian Matrix），又译作海森矩阵、海瑟矩阵、海塞矩阵等，是一个多元函数的二阶偏导数构成的方阵，描述了函数的局部曲率。黑塞矩阵常用于牛顿法解决优化问题，利用黑塞矩阵可判定多元函数的极值问题。在工程实际问题的优化设计中，所列的目标函数往往很复杂，为了使问题简化，常常将目标函数在某点邻域展开成泰勒多项式来逼近原函数，此时函数在某点泰勒展开式的矩阵形式中会涉及到黑塞矩阵。

黑塞矩阵

为什么我们要引入L1、L2正则化？

我们知道，通过训练迭代，一定能找到一组 $W$ 和 $b$ 使得输出层的损失函数最小。但就算我们得到的损失值是相同的，其对应的 $W$ 和 $b$ 也并不是唯一的，以下图为例：

如果我们将隐藏层中的系数都增加到原来的两倍，则最后相当于输入层的输入里的变量系数增加了 $2^{l-1}$ 倍，我们同时将 $W$ 缩小 $2^{ll-1}$ 倍，最后的结果依然是 $z^{[l]}$ ，其对应的损失函数的值是不变的。

这就代表我们训练出来的 $W$ 和 $b$ 的值非常依赖于他们的初始值。如果初始值较大，则最后达到损失函数最小值得出来的 $W$ 和 $b$ 的值较大；而另一种情况，在损失函数收敛到相同的最小值时，可能得到的 $W$ 和 $b$ 的绝对值相对来说较小。

如果我们得到的参数较大，那么神经网络在面对新数据时，将会得到一个较大的结果。新数据中的误差和噪声经过大参数相乘以后将会被放大，这会严重影响最后的判断结果。所以我们才要将参数限定在一定的范围内。

由于神经网络模型主要由权重 $W$ 所影响，所以正则化只关注权重而不关注偏置 $b$ 。

拉格朗日乘数法角度

限制权重 $W$ 的范围相当于是给参数规定可行域范围，而这正是拉格朗日乘数法所擅长的。

红色的 $L(W,\lambda)$ 是我们熟知的L2正则化的公式。由于绿色的 $L(W,\lambda)$ 和红色的 $L(W,\lambda)$ 二者求梯度相同且需等于0，我们根据此来求 $W$ 的值。虽然二者的最值可能不同（红色 $\lambda)$ 不一定等于绿色 $L(W,\lambda)$ ），但是得到的参数 $W$ 却是相同的。

所以 L2 正则化和用拉格朗日乘数法给 $W$ 加一个约束范围这两个问题是等价的。

直观理解，两个公式中的 $C$ 即代表相同 L2 范数到原点的距离，即绿色圆的半径。可是在红色的 $L(W,\lambda)$ 中我们消去了 $C$ ，那么该如何控制绿色圆的半径呢？

答案就是通过 $\lambda$ 来调节约束条件梯度的大小与方向，使得其与损失函数的梯度大小相等、方向相反，这样他们相加才能等于0，得到最后一行的公式，亦可知
$\lambda = \frac{损失函数的梯度} {约束条件的梯度}$
得到了 $\lambda$ ，就可以确定具体的极值点在哪里。

由图像我们可以直观的看出，L1正则化的极值点多在坐标轴上，这也是L1正则化带来稀疏性的体现，在数值上，即 $W$ 在某些项有值，而其他项均为0；在特征上，他将特征与特征之间的关系进行解耦，使得只有特定的特征起作用，让问题简化，减少了过拟合的可能。

在神经网络中，最值不一定是一个点，而可能是一条路径。只要最终我们收敛在这条路径上任何一个点，都算是达到最值点了。

权重衰退角度

在训练过程中，我们依靠梯度下降法对权重进行更新。引入正则化后，损失函数加入正则项 $\frac{\alpha}{2} W^TW$ （其与 $\lambda \Vert W \Vert_2$ 等价），在梯度更新中也加入了正则项的梯度 $\eta \cdot \alpha \cdot W$ ，经过调整后得到红色框中的式子。

根据权重 $W$ 的系数 $(1-\eta \cdot \alpha)$ 可以看出，在学习率和 $\alpha$ 两个超参数相乘大于0小于1时，权重 $W$ 在每次更新时，都会进行缩小，这便是权重衰减。

这时我们再去理解这两个式子，式(1)中 $C$ 为超参数，相当于我们已经知道权重在哪个范围内取值比较好；

式(2)中 $\alpha$ 为超参数，相当于我们不知道权重在哪个范围内取值较好，而是设定像学习率一样的衰减率，通过不断训练，一步一步学习，最后找到一个合适的范围。

总之，权重衰减即增加了一个惩罚项，在每次学习过程中不断惩罚权重，以保证权重不会取值太大。

L2正则化

L2正则化相对来说简单一些，我们先以它为例。

损失函数 $J (W)$ 经过泰勒展开得到第一行的式子。

其中 $H$ 为黑塞矩阵，代表损失函数的二阶导数。 $W^*$ 为损失函数的最值，故 $\nabla_W J(W^*) = 0$ 。

针对这个公式：
$\nabla_w \hat J(W) = H(W-W^*)+\alpha \cdot W$
假设 $W=\hat W$ 时，达到正则化后的损失函数的最值，即 $\nabla_w \hat J(\hat W) = 0$ ，则可推出：

对于 $W^*$ 前的系数 $(H+\alpha \cdot I)^{-1}H$ 我们还需要进行变换，这里需要用到黑塞矩阵的性质。由于黑塞矩阵是对称矩阵，而所有对称矩阵都可以表示为 $Q\Lambda Q^T$ ，其中 $\Lambda$ 是对角矩阵，而 $Q$ 是正交基矩阵，即
$\Lambda = \begin{bmatrix} \lambda_1 & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & \lambda_n \end{bmatrix} \\ Q = \begin{bmatrix} e_1 & 0 & \cdots & 0 \\ 0 & e_2 & \cdots & 0 \\ \cdots & \cdots & \cdots & \cdots \\ 0 & 0 & \cdots & e_n\end{bmatrix} \\ Q^T = Q^{-1} \Rightarrow Q^TQ = QQ^T = I$