什么是L1和L2正则化，以及它们有什么区别

什么是L1和L2正则化，以及它们有什么区别

article/2025/9/21 6:09:43

一、L1和L2正则化是什么？

在防止过拟合的方法中有L1正则化和L2正则化，L1和L2是正则化项，又叫做惩罚项，是为了限制模型的参数，防止模型过拟合而加在损失函数后面的一项。

在二维的情况下，黄色的部分是L2和L1正则项约束后的解空间，绿色的等高线是凸优化问题中目标函数的等高线，如下图所示。由图可知，L2正则项约束后的解空间是圆形，而L1正则项约束的解空间是多边形。显然，多边形的解空间更容易在尖角处与等高线碰撞出稀疏解。
在这里插入图片描述

图片参考来源：《百面机器学习》

看完上面内容，进一步追求细节，为什么加入正则项就是定义了一个解空间约束? 为什么L1和L2的解空间是不同的?

这些问题其实可以通过KKT条件给出一种解释。

事实上，“带正则项”和“带约束条件”是等价的。为了约束w的可能取值空间从而防止过拟合，我们为该最优化问题加上一个约束，就是w的L2范数的平方不能大于m:
在这里插入图片描述

为了求解带约束条件的凸优化问题，写出拉格朗日函数

在这里插入图片描述
若w*和 λ*分别是原问题和对偶问题的最优解，则根据KKT条件，它们应满足

此时可以发现，上述第一个式子就是w*为带L2正则项的优化问题的最优解的条件，而λ*就是L2正则项前面的正则参数。

此时对问题的理解就更加深刻了。L2正则化相当于为参数定义了一个圆形的解空间(因为必须保证L2范数不能大于m)，而L1正则化相当于为参数定义了个棱形的解空间。如果原问题目标函数的最优解不是恰好落在解空间内，那么约束条件下的最优解一定是在解空间的边界上，而L1“棱角分明”的解空间显然更容易与目标函数等高线在角点碰撞，从而产生稀疏解。

二、区别

区别一：

L1是模型各个参数的绝对值之和。
L2是模型各个参数的平方和的开方值。

区别二：

L1会趋向于产生少量的特征，而其他的特征都是0。因为最优的参数值很大概率出现在坐标轴上，这样就会导致某一维的权重为0 ，产生稀疏权重矩阵；
L2会选择更多的特征，这些特征都会接近于0。最优的参数值很小概率出现在坐标轴上，因此每一维的参数都不会是0。当最小化||w||时，就会使每一项趋近于0。

三、其他问题

为什么参数越小代表模型越简单？
- 越是复杂的模型，越是尝试对所有样本进行拟合，包括异常点。这就会造成在较小的区间中产生较大的波动，这个较大的波动也会反映在这个区间的导数比较大。只有越大的参数才可能产生较大的导数。因此参数越小，模型就越简单。
实现参数的稀疏有什么好处？
- 因为参数的稀疏，在一定程度上实现了特征的选择。一般而言，大部分特征对模型是没有贡献的。这些没有用的特征虽然可以减少训练集上的误差，但是对测试集的样本，反而会产生干扰。稀疏参数的引入，可以将那些无用的特征的权重置为0。
L1范数和L2范数为什么可以避免过拟合？
- 加入正则化项就是在原来目标函数的基础上加入了约束。当目标函数的等高线和L1,L2范数函数第一次相交时，得到最优解。

http://chatgpt.dhexx.cn/article/dk7VZdQn.shtml

相关文章

L2正则化方法

L2正则化方法

背景在机器学习中，无论是分类还是回归，都可能存在由于特征过多而导致的过拟合问题。当然解决的办法有 （1）减少特征，留取最重要的特征。 （2）惩罚不重要的特征的权重，即降低不重要…

阅读更多...

对L1正则化和L2正则化的理解

对L1正则化和L2正则化的理解

一、奥卡姆剃刀(Occams razor)原理： 在所有可能选择的模型中，我们应选择能够很好的解释数据，并且十分简单的模型。从贝叶斯的角度来看，正则项对应于模型的先验概率。可以假设复杂模型有较小的先验概率，简单模型有较大…

阅读更多...

L1、L2正则化的原理及适用场景

L1、L2正则化的原理及适用场景

1. L1正则化，也称Lasso回归 1.1 含义权值向量中各元素的绝对值之和，一般记作。 1.2 公式表示添加了L1正则化的损失函数一般可表示为： 1.3 作用 L1正则常被用来解决过拟合问题； L1正则化容易产生稀疏权值矩阵&#x…

阅读更多...

$机器学习中L1正则化和L2正则化$

机器学习中L1正则化和L2正则化

深度学习中的归一化(normalization)和正则化(regularization)_qq_26697045的博客-CSDN博客_权重归一化 1.L1和L2的区别在机器学习中： - L1 regularization 是指向量中各个元素绝对值之和，通常表述为,线性回归中使用L1正则的模型也叫Lasso regularizati…

阅读更多...

每天五分钟机器学习：L1正则化和L2正则化有什么区别？

每天五分钟机器学习：L1正则化和L2正则化有什么区别？

本文重点正则化包含L1正则化和L2正则化，本文将介绍一下这两个正则化有什么不同？正则化 L1正则化 L1正则化目的是减少参数的绝对值总和，定义为： L2正则化 L2正则化的目的是减少参数平方的总和，定义为：二者的区别？ 1、L1正则化会使得某一维的权重为0，产生稀疏权…

阅读更多...

L1、L2正则化总结

L1、L2正则化总结

为什么不用L0范数而用L1范数? L0范数是向量中非0元素的个数，若使用L0范数来规则化一个参数矩阵，就是希望其稀疏，大部分元素都是0。但L0范数难以优化求解，L1范数是L0范数的最优凸近似，且比L0范数更易优化求解。 L1和…

阅读更多...

$L1正则化 L2正则化的Python 实现$

L1正则化 L2正则化的Python 实现

上一篇文档 https://blog.csdn.net/xingzhe2001/article/details/86316712 介绍了L1 L2正则化本文介绍L1, L2 正则化的实现 L1正则化代码 def L1Norm(l, theta):return np.dot(np.abs(theta), np.ones(theta.size)) * ldef L1NormPartial(l, theta):return np.sign(theta…

阅读更多...

一文了解L1正则化与L2正则化

一文了解L1正则化与L2正则化

正则化的目的？ 欠拟合从字面意思来看就是欠缺拟合程度，这一般在复杂度很低的模型中出现。从数学上来看，一元一次函数为一条直线、一元二次函数为一个曲线，以此类推。那么参数越多，其越能拟合更复杂的特征，…

阅读更多...

【学习笔记】深刻理解L1和L2正则化

【学习笔记】深刻理解L1和L2正则化

深刻理解L1和L2正则化学习视频：BV1Z44y147xA、BV1gf4y1c7Gg、BV1fR4y177jP up主：王木头学科学 L1、L2正则化即使用L1、L2范数来规范模型参数。凡是减少泛化误差，而不是减少训练误差的方法，都可以称为正则化方法。通俗来说&am…

阅读更多...

L1正则化和L2正则化（从解空间角度）

L1正则化和L2正则化（从解空间角度）

文章目录一、什么是过拟合？二、为什么模型会过拟合？三、如何防止模型过拟合？四、L1正则和L2正则4.1 L1、L2的区别4.2 为什么正则化能够防止过拟合？4.3 为什么L1正则具有稀疏性或者说L1正则能够进行特征选择？ 最后&…

阅读更多...

机器学习之L1正则化和L2正则化（附源码解析）

机器学习之L1正则化和L2正则化（附源码解析）

前言今天还是机器学习的基础知识内容，也是最基础的哈。首先说一下什么是正则化，其实它就是一个减少方差的策略。那么什么是方差呢？在这里也引入一个和方差相辅相成的概念--偏差。偏差度量了学习算法的期望预测与真实结果的偏离程度&#…

阅读更多...

L2正则化（Regularization）

L2正则化（Regularization）

正则化（Regularization） 深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取…

阅读更多...

pytorch实现L2和L1正则化regularization的方法

pytorch实现L2和L1正则化regularization的方法

pytorch实现L2和L1正则化的方法目录目录 pytorch实现L2和L1正则化的方法 1.torch.optim优化器实现L2正则化 2. 如何判断正则化作用了模型？ 2.1 未加入正则化loss和Accuracy 2.1 加入正则化loss和Accuracy 2.3 正则化说明 3.自定义正则化的方法 3.1 自定…

阅读更多...

L1正则化与L2正则化的区别

L1正则化与L2正则化的区别

摘要正则化的本质是在Cost Function中添加的p-范数。本文从正则化的本质p-范数入手，解释了L1正则化和L2正则化的区别。正则化在Cost Function上添加了正则化项，就能降低模型的过拟合程度，这就是正则化的作用。关于正则化更细节的讲述&…

阅读更多...

正则化的作用以及L1和L2正则化的区别

正则化的作用以及L1和L2正则化的区别

0 正则化的作用正则化的主要作用是防止过拟合，对模型添加正则化项可以限制模型的复杂度，使得模型在复杂度和性能达到平衡。常用的正则化方法有L1正则化和L2正则化。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些…

阅读更多...

详解L1和L2正则化

详解L1和L2正则化

大纲： L1和L2的区别以及范数相关知识对参数进行L1和L2正则化的作用与区别pytorch实现L1与L2正则化对特征进行L2正则化的作用 L1和L2的区别以及范数使用机器学习方法解决实际问题时，我们通常要用L1或L2范数做正则化（regularization&#xf…

阅读更多...

L1正则化和L2正则化的详细直观解释

L1正则化和L2正则化的详细直观解释

正则化（Regularization） 转自：此处机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm，中文称作L1正则化和L2正则化，或者…

阅读更多...

L1正则化和L2正则化讲解

L1正则化和L2正则化讲解

L1正则化和L2正则化讲解在机器学习实践过程中，训练模型的时候往往会出现过拟合现象，为了减小或者避免在训练中出现过拟合现象，通常在原始的损失函数之后附加上正则项，通常使用的正则项有两种：L1正则化和L2正则化。 L1…

阅读更多...

L1正则化和L2正则化的区别

L1正则化和L2正则化的区别

文章目录前言一、L1和L2正则化是什么？二、区别三、其他问题前言在防止过拟合的方法中有L1正则化和L2正则化，那么这两者有什么区别呢？ 一、L1和L2正则化是什么？ L1和L2是正则化项，又叫做惩罚项，是为了限…

阅读更多...

数据预处理之L1,L2正则化

数据预处理之L1,L2正则化

一、L1、L2正则化概述 1. L1和L2的定义 L1正则化，又叫Lasso Regression 如下图所示，L1是向量各元素的绝对值之和 L2正则化，又叫Ridge Regression 如下图所示，L2是向量各元素的平方和，然后再求平方根 2.L1和L2的异同点 …

阅读更多...

推荐文章