L1、L2正则化的原理及适用场景

article/2025/9/21 6:19:45

1. L1正则化，也称Lasso回归

1.1 含义

权值向量 $\omega$ 中各元素的绝对值之和，一般记作 $\left \| \omega \right \|_{1}$ 。

1.2 公式表示

添加了L1正则化的损失函数一般可表示为：

1.3 作用

L1正则常被用来解决过拟合问题；

L1正则化容易产生稀疏权值矩阵（更容易得到稀疏解），即产生一个稀疏模型（较多参数为0），因此也可用于特征选择。

1.4 为什么L1（相对L2）更容易获得稀疏解或者 0解

L1是舍弃掉一些不重要的特征，L2是控制所有特征的权重。

a. 从公式角度解释

假设只有一个参数 w，损失函数 L(w) , 分别加上L1和L2损失函数可得：

$J_{L1}\left (w \right ) = L\left ( w * H\left ( X \right ) \right ) + \lambda \left | w \right |$

$J_{L2}\left (w \right ) = L\left ( w * H\left ( X \right )\right ) + \lambda w^{2}$

假设 L(w) 在某一个样本 0 处的导数是 d0

$\frac{\alpha L\left ( w \right )}{\alpha \left ( w \right )}\mid _{w = 0} = d_{0}$

当结合L2正则时候的导数是：

$\frac{\alpha J_{L2}\left ( w \right )}{\alpha \left ( w \right )}\mid _{w = 0} = d_{0} + 2 * \lambda * w$

当结合L1正则时候的导数是（L1损失在 w = 0处不可导，分 0 - 和 0 +）：

$\frac{\alpha J_{L1}\left ( w \right )}{\alpha \left ( w \right )}\mid _{w = 0 - } = d_{0} - \lambda$

$\frac{\alpha J_{L1}\left ( w \right )}{\alpha \left ( w \right )}\mid _{w = 0 + } = d_{0} + \lambda$

结论：当结合L2正则的损失函数，导数结果仍然是 d0；结合L1正则的损失函数会有一个突变，从

$d_{0} - \lambda$ 到 $d_{0} + \lambda$ ，只要满足 $\lambda > \left |d_{0} \right |$ 或 $d_{0} - \lambda$ 和 $d_{0} + \lambda$ 异号，则在w = 0处，损失函数有极值（极小值），在优化器优化过程中，很容易将结果收敛到该极小值点上，也就是 w = 0。相比L1正则，需要 d0 = 0，这样的条件明显更为严苛。

b. 从优化问题视角 + 二维图示例 + 多维扩展，方向解释

c. 从梯度角度来看

结论：加入L1正则的导数形式，无论 wi 大小如何，sgn(wi) 的结果是一个常数，因此惩罚力度不变或者说仍然很大，使得L1将参数惩罚到0的概率增加；反观L2正则的导数形式，在 wi < 1 时候，尾项惩罚作用小，很难将参数惩罚到0，实际上就是使每个特征都得到尽量均衡的权重，因此适用于解决普通的过拟合问题，即从参数分布（让分布尽可能的均匀）的角度解决过拟合的问题。

d. 从概率学角度

加入正则项，相当于对参数 w 增加先验假设，要求 w 满足某一种分布。

L1正则化相当于为 w 加入 “拉普拉斯分布” 的先验；L2正则化相当于为 w 加入 “高斯分布” 的先验。