【机器学习】L1正则化和L2正则化

article/2025/9/21 6:05:14

L1正则化和L2正则化

  • 在机器学习实践过程中,训练模型的时候往往会出现过拟合现象,为了减小或者避免在训练中出现过拟合现象,通常在原始的损失函数之后附加上正则项,通常使用的正则项有两种:L1正则化和L2正则化。
  • L1正则化和L2正则化都可以看做是损失函数的惩罚项,所谓惩罚项是指对损失函数中的一些参数进行限制,让参数在某一范围内进行取值。L1正则化的模型叫做LASSO回归,L2正则化的模型叫做岭回归。

LASSO回归公式------L1正则化
min ⁡ 1 2 m Σ i = 1 m ( f ( x ) − y ( i ) ) 2 + λ ∥ w ∥ 1 \min \frac{1}{2m} \Sigma_{i=1}^{m}\left(f(x)-y^{(i)}\right)^{2}+\lambda\|w\|_{1} min2m1Σi=1m(f(x)y(i))2+λw1

  1. L1正则化项是指权重向量w中各元素的绝对值之和,表示为 λ ∥ w ∥ 1 \lambda\|w\|_{1} λw1
  2. L1正则化用于进行稀疏化(会令权重向量w中某一些参数等于0)处理,通常用于在多特征中进行特征选择,也可用于避免过拟合.

岭回归公式-------L2正则化
min ⁡ 1 2 m Σ i = 1 m ( f ( x ) − y ( i ) ) 2 + λ ∥ w ∥ 2 2 \min \frac{1}{2 m} \Sigma_{i=1}^{m}\left(f(x)-y^{(i)}\right)^{2}+\lambda\|w\|_{2}^{2} min2m1Σi=1m(f(x)y(i))2+λw22

L2正则化项是指权重向量w ww中个元素的平方和,表示为 λ ∥ w ∥ 2 2 \lambda\|w\|_{2}^{2} λw22
L2正则化用于避免模型发生过拟合现象.

LASSO回归公式理解

在上述的公式中, min ⁡ 1 2 m Σ i = 1 m ( f ( x ) − y ( i ) ) 2 \min \frac{1}{2m} \Sigma_{i=1}^{m}\left(f(x)-y^{(i)}\right)^{2} min2m1Σi=1m(f(x)y(i))2是原始的损失函数,也称为经验误差,在此基础上,加入了L1正则项 λ ∥ w ∥ 1 \lambda\|w\|_{1} λw1,L1正则项是权重向量中各元素的绝对值之和,所造成的一个后果就是损失函数不是完全可微。模型训练的目的是令损失函数达到全局最小值,当在原始的损失函数之后加入L1正则项之后,相当于对权重向量做了约束,此时我们的任务变为了在L1约束条件下求得损失函数的最小值。由于高维的情况无法用图像形象的描述出来,我们这里考虑二维的情况,即只有两个权重值 w 1 w_{1} w1 w 2 w_{2} w2此时对损失函数应用梯度下降法,求解过程中可以画出等值线,如下图所示:

Alt
图中等值线是原始损失函数的等值线黑色方形是L1正则化项的图形。在图中,当彩色等值线与黑色图形首次相交的地方就是最优解。上图中原始损失函数与L1在一个顶点处相交,这个顶点就是最优解。注意到这个顶点的值是(w1,w2)=(0,w)。可以直观想象,因为L函数有很多突出的顶点(二维情况下四个,多维情况下更多),彩色等值线与这些角接触的机率会远大于与黑色图形其它部位接触的机率,而在这些角上,会有很多权值等于0,这就是为什么L1正则化可以产生稀疏效果,进而可以用于特征选择。

L2正则化的直观理解

不管是L1正则化还是L2正则化,在拟合的过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型,因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程,若参数很大,那么只要数据偏移一点点,就会对结果造成很大的影响;但如果参数足够小,数据偏移得多一点也不会对结果造成什么影响,抗干扰能力强。原因是权重对输入的数据影响小,所以抗干扰能力强。
考虑损失函数在二维的情况,即只有两个权重值 w 1 w_{1} w1 w 2 w_{2} w2,此时对损失函数应用梯度下降法,求解过程中可以画出等值线,如下图所示:
Alt
二维平面下L2正则化的函数图形是个,与方形相比,被磨去了棱角。因此 J 0 J_{0} J0与L相交时使得 w 1 w_{1} w1 w 2 w_{2} w2等于零的机率小了许多,这就是为什么 L 2 L_{2} L2正则化不具有稀疏性的原因。


http://chatgpt.dhexx.cn/article/KJWjaBUR.shtml

相关文章

什么是L1和L2正则化,以及它们有什么区别

一、L1和L2正则化是什么? 在防止过拟合的方法中有L1正则化和L2正则化,L1和L2是正则化项,又叫做惩罚项,是为了限制模型的参数,防止模型过拟合而加在损失函数后面的一项。 在二维的情况下,黄色的部分是L2和…

L2正则化方法

背景 在机器学习中,无论是分类还是回归,都可能存在由于特征过多而导致的过拟合问题。当然解决的办法有 (1)减少特征,留取最重要的特征。 (2)惩罚不重要的特征的权重,即降低不重要…

对L1正则化和L2正则化的理解

一、 奥卡姆剃刀(Occams razor)原理: 在所有可能选择的模型中,我们应选择能够很好的解释数据,并且十分简单的模型。从贝叶斯的角度来看,正则项对应于模型的先验概率。可以假设复杂模型有较小的先验概率,简单模型有较大…

L1、L2正则化的原理及适用场景

1. L1正则化,也称Lasso回归 1.1 含义 权值向量 中各元素的绝对值之和,一般记作 。 1.2 公式表示 添加了L1正则化的损失函数一般可表示为: 1.3 作用 L1正则常被用来解决过拟合问题; L1正则化容易产生稀疏权值矩阵&#x…

机器学习中L1正则化和L2正则化

深度学习中的归一化(normalization)和正则化(regularization)_qq_26697045的博客-CSDN博客_权重归一化 1.L1和L2的区别 在机器学习中: - L1 regularization 是指向量中各个元素绝对值之和,通常表述为,线性回归中使用L1正则的模型也叫Lasso regularizati…

每天五分钟机器学习:L1正则化和L2正则化有什么区别?

本文重点 正则化包含L1正则化和L2正则化,本文将介绍一下这两个正则化有什么不同? 正则化 L1正则化 L1正则化目的是减少参数的绝对值总和,定义为: L2正则化 L2正则化的目的是减少参数平方的总和,定义为: 二者的区别? 1、L1正则化会使得某一维的权重为0,产生稀疏权…

L1、L2正则化总结

为什么不用L0范数而用L1范数? L0范数是向量中非0元素的个数,若使用L0范数来规则化一个参数矩阵,就是希望其稀疏,大部分元素都是0。但L0范数难以优化求解,L1范数是L0范数的最优凸近似,且比L0范数更易优化求解。 L1和…

L1正则化 L2正则化的Python 实现

上一篇文档 https://blog.csdn.net/xingzhe2001/article/details/86316712 介绍了L1 L2正则化 本文介绍L1, L2 正则化的实现 L1正则化 代码 def L1Norm(l, theta):return np.dot(np.abs(theta), np.ones(theta.size)) * ldef L1NormPartial(l, theta):return np.sign(theta…

一文了解L1正则化与L2正则化

正则化的目的? 欠拟合从字面意思来看就是欠缺拟合程度,这一般在复杂度很低的模型中出现。从数学上来看,一元一次函数为一条直线、一元二次函数为一个曲线,以此类推。那么参数越多,其越能拟合更复杂的特征,…

【学习笔记】深刻理解L1和L2正则化

深刻理解L1和L2正则化 学习视频:BV1Z44y147xA、BV1gf4y1c7Gg、BV1fR4y177jP up主:王木头学科学 L1、L2正则化即使用L1、L2范数来规范模型参数。 凡是减少泛化误差,而不是减少训练误差的方法,都可以称为正则化方法。 通俗来说&am…

L1正则化和L2正则化(从解空间角度)

文章目录 一、什么是过拟合?二、为什么模型会过拟合?三、如何防止模型过拟合?四、L1正则和L2正则4.1 L1、L2的区别4.2 为什么正则化能够防止过拟合?4.3 为什么L1正则具有稀疏性或者说L1正则能够进行特征选择? 最后&…

机器学习之L1正则化和L2正则化(附源码解析)

前言 今天还是机器学习的基础知识内容,也是最基础的哈。首先说一下什么是正则化,其实它就是一个减少方差的策略。那么什么是方差呢?在这里也引入一个和方差相辅相成的概念--偏差。 偏差度量了学习算法的期望预测与真实结果的偏离程度&#…

L2正则化(Regularization)

正则化(Regularization) 深度学习可能存在过拟合问题——高方差,有两个解决方法,一个是正则化,另一个是准备更多的数据,这是非常可靠的方法,但你可能无法时时刻刻准备足够多的训练数据或者获取…

pytorch实现L2和L1正则化regularization的方法

pytorch实现L2和L1正则化的方法 目录 目录 pytorch实现L2和L1正则化的方法 1.torch.optim优化器实现L2正则化 2. 如何判断正则化作用了模型? 2.1 未加入正则化loss和Accuracy 2.1 加入正则化loss和Accuracy 2.3 正则化说明 3.自定义正则化的方法 3.1 自定…

L1正则化与L2正则化的区别

摘要 正则化的本质是在Cost Function中添加的p-范数。本文从正则化的本质p-范数入手,解释了L1正则化和L2正则化的区别。 正则化 在Cost Function上添加了正则化项,就能降低模型的过拟合程度,这就是正则化的作用。 关于正则化更细节的讲述&…

正则化的作用以及L1和L2正则化的区别

0 正则化的作用 正则化的主要作用是防止过拟合,对模型添加正则化项可以限制模型的复杂度,使得模型在复杂度和性能达到平衡。 常用的正则化方法有L1正则化和L2正则化。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些…

详解L1和L2正则化

大纲: L1和L2的区别以及范数相关知识对参数进行L1和L2正则化的作用与区别pytorch实现L1与L2正则化对特征进行L2正则化的作用 L1和L2的区别以及范数 使用机器学习方法解决实际问题时,我们通常要用L1或L2范数做正则化(regularization&#xf…

L1正则化和L2正则化的详细直观解释

正则化(Regularization) 转自:此处 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm,中文称作L1正则化和L2正则化,或者…

L1正则化和L2正则化讲解

L1正则化和L2正则化讲解 在机器学习实践过程中,训练模型的时候往往会出现过拟合现象,为了减小或者避免在训练中出现过拟合现象,通常在原始的损失函数之后附加上正则项,通常使用的正则项有两种:L1正则化和L2正则化。 L1…

L1正则化和L2正则化的区别

文章目录 前言一、L1和L2正则化是什么?二、区别三、其他问题 前言 在防止过拟合的方法中有L1正则化和L2正则化,那么这两者有什么区别呢? 一、L1和L2正则化是什么? L1和L2是正则化项,又叫做惩罚项,是为了限…