L1范数与L2范数的区别与联系

article/2025/9/18 16:43:50

L1范数与L2范数的区别与联系

一、过拟合与正则化

  过拟合指的就是在机器学习模型训练过程中把数据学习的太彻底,以至于把噪声数据的特征也学习到了,这样会导致在测试的时候不能够很好地识别数据,即不能正确的分类,模型测试的时候不能够很好地识别数据,即不能正确的分类,模型泛化能力较差,也就是高方差(variance),低偏差(bias)。例如:

  正则化就是用来解决过拟合问题的,防止我们的模型过分拟合我们的参数。监督机器学习问题无非就是“minimize your error while regularizing your parameters”,也就是在规则化参数的同时最小化误差,最小化误差是为了让我们的模型拟合我们的训练数据。正则化参数我理解就是寻找在模型拟合我们的数据以及过拟合之间寻找平衡点。参数太多,会导致我们的模型复杂度上升,容易过拟合,正则化可以约束参数,降低模型复杂度,同时规则项的使用可以约束我们模型的特性,使模型稀疏、低秩、平滑等。机器学习中几乎都可以看到损失函数后面会添加一个额外项,称作L1正则化和L2正则化,或者L1范数和L2范数。

  其中,第一项L(yi,f(xi;w)) 就是误差平方和;第二项则为惩罚项,对参数w的正则化函数Ω(w)去约束我们的模型尽量的简单。机器学习的大部分带参模型都和这个不但形似,而且神似。是的,其实大部分无非就是变换这两项而已。

第一项-Loss函数

如果是Square loss,那就是最小二乘了;

如果是Hinge Loss,那就是著名的SVM了;

如果是exp-Loss,那就是牛逼的 Boosting了;AdaBoost: 

如果是log-Loss,那就是Logistic Regression了;

 

还有等等。不同的loss函数,具有不同的拟合特性,这个也得就具体问题具体分析的。但这里,我们先不究loss函数的问题,我们把目光转向“规则项Ω(w)”

    

第二项-正则化参数

常见的有L1范数、L2范数等

线性回归的中的正则化项举例:

 

二、L1范数与L2范数

  • L1范数 -- (Lasso Regression)

L1范数表示向量中每个元素绝对值的和:

L1范数的解通常是稀疏性的,倾向于选择数目较少的一些非常大的值或者数目较多的insignificant的小值。

参数稀疏的好处

1)特征选择(Feature Selection):

  大家对稀疏规则化趋之若鹜的一个关键原因在于它能实现特征的自动选择。一般来说,xi的大部分元素(也就是特征)都是和最终的输出yi没有关系或者不提供任何信息的,在最小化目标函数的时候考虑xi这些额外的特征,虽然可以获得更小的训练误差,但在预测新的样本时,这些没用的信息反而会被考虑,从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命,它会学习地去掉这些没有信息的特征,也就是把这些特征对应的权重置为0。

2)可解释性(Interpretability):

  另一个青睐于稀疏的理由是,模型更容易解释。例如患某种病的概率是y,然后我们收集到的数据x是1000维的,也就是我们需要寻找这1000种因素到底是怎么影响患上这种病的概率的。假设我们这个是个回归模型:y=w1*x1+w2*x2+…+w1000*x1000+b(当然了,为了让y限定在[0,1]的范围,一般还得加个Logistic函数)。通过学习,如果最后学习到的w*就只有很少的非零元素,例如只有5个非零的wi,那么我们就有理由相信,这些对应的特征在患病分析上面提供的信息是巨大的,决策性的。也就是说,患不患这种病只和这5个因素有关,那医生就好分析多了。但如果1000个wi都非0,医生面对这1000种因素,累觉不爱。

  • L2范数 -- (Ridge Regression)

L2范数即欧氏距离:

L2范数越小,可以使得w的每个元素都很小,接近于0,但L1范数不同的是他不会让它等于0而是接近于0.

L2的作用=参数变小=模型变简单≈模型参数信息变少

 

三、从几何角度直观理解L1范数、L2范数

假设有如下带L1正则化的损失函数:

其中J0是原始的损失函数,加号后面的一项是L1正则化项,α是正则化系数。注意到L1正则化是权值的绝对值之和,J是带有绝对值符号的函数,因此J是不完全可微的。机器学习的任务就是要通过一些方法(比如梯度下降)求出损失函数的最小值。当我们在原始损失函数J0后添加L1正则化项时,相当于对J0做了一个约束。令L=α∑w|w|,则J=J0+L,此时我们的任务变成在L约束下求出J0取最小值的解。考虑二维的情况,即只有两个权值w1和w2,此时L=|w1|+|w2|对于梯度下降法,求解J0的过程可以画出等值线,同时L1正则化的函数L也可以在w1w2的二维平面上画出来。如下图:

图中等值线是J0的等值线,黑色方形是L函数的图形。在图中,当J0等值线与L图形首次相交的地方就是最优解。上图中J0与L在L的一个顶点处相交,这个顶点就是最优解。注意到这个顶点的值是(w1,w2)=(0,w)。可以直观想象,因为L函数有很多『突出的角』(二维情况下四个,多维情况下更多),J0与这些角接触的机率会远大于与L其它部位接触的机率,而在这些角上,会有很多权值等于0,这就是为什么L1正则化可以产生稀疏模型,进而可以用于特征选择。而正则化前面的系数α,可以控制L图形的大小。α越小,L的图形越大(上图中的黑色方框);α越大,L的图形就越小,可以小到黑色方框只超出原点范围一点点,这是最优点的值(w1,w2)=(0,w)中的w可以取到很小的值。类似,假设有如下带L2正则化的损失函数:

同样可以画出他们在二维平面上的图形,如下:

二维平面下L2正则化的函数图形是个圆,与方形相比,被磨去了棱角。因此J0与L相交时使得w1或w2等于零的机率小了许多,这就是为什么L2正则化不具有稀疏性的原因。

 

一句话简单总结L1、L2范数的区别

L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择。具有截断性

L2正则化可以让参数衰减,防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合。具有缩放性

 

 

参考链接:

http://blog.csdn.net/jinping_shi/article/details/52433975

https://www.cnblogs.com/little-YTMM/p/5879093.html

http://blog.csdn.net/sinat_26917383/article/details/52092040


http://chatgpt.dhexx.cn/article/b6efQmIQ.shtml

相关文章

L1正则化及其稀疏性的傻瓜解释

本文翻译自:L1 Norm Regularization and Sparsity Explained for Dummies, 特别感谢原作者Shi Yan! 0. 前言 好吧,我想我就是很笨的那一类人。 当理解一个抽象的数学概念,我必须把它转化成一张图像,然后在…

L1/L2范数

文中内容为一下博文整理而来 https://blog.csdn.net/iterate7/article/details/75443504 https://blog.csdn.net/zhaomengszu/article/details/81537197 什么是范数 范数是具有“长度”概念的函数。在向量空间内,为所有的向量的赋予非零的增长度或者大小。不同的范…

机器学习——L1范数充当正则项,让模型获得稀疏解,解决过拟合问题

问:使用L2范数正则项比L1范数正则项得到的是更为稀疏的解。 答:错误,L1范数正则项得到的是更稀疏的解。因为在L1正则项中,惩罚项是每个参数绝对值之和;而在L2正则项中,惩罚项是每个参数平方的和。L1正则项…

L1、L2的作用

L范式都是为了防止模型过拟合,所谓范式就是加入参数的约束。 L1的作用是为了矩阵稀疏化。假设的是模型的参数取值满足拉普拉斯分布。 L2的作用是为了使模型更平滑,得到更好的泛化能力。假设的是参数是满足高斯分布。 借用公众号python与算法社区的内容20…

机器人设计范式

“ 本期技术干货,我们邀请到了小米机器人实验室工程师徐海望,和大家分享在机器人学领域中,关系到机器人的行为模式或操作模型的三种行为执行逻辑,分别是分级范式(hierarchical paradigm)、反应范式&#xf…

数据库设计之范式与反范式

范式设计 什么是范式? 范式来自英文Normal Form,简称NF。要想表之间设计—个好的关系,必须使关系 满足一定的约束条件,此约束已经形成了规范,分成几个等级,一级比一级要求 得严格。满足这些规范的数据库是…

详解数据库的第一范式、第二范式、第三范式、BCNF范式

版权声明:本文转自小小呆原创文章 https://blog.csdn.net/gui951753/article/details/79609874 第一范式 定义以及分析:问题研究: 第二范式 必备知识点定义分析:解决办法:问题研究: 第三范式: 定义&…

关系范式

一、数据需要规范化的原因: 1.数据冗余大 2.防止更新异常 3.防止插入异常 4.删除异常 数据库范式分为1NF,2NF,3NF,BCNF,4NF,5NF 一张表按照范式的不同等级划分将分为多张表,每张表都是一个…

9.3范式

第一范式:定义:不包含非原子项属性的关系是第一范式的关系。 第二范式:定义:如果R(U,F)1NF,并且R中的每个非属性都完全函数依赖于主键,则R(U,F) 2NF。可以用模式分解的办法将非第二范式关系分解…

数据库——范式

范式 1、范式简介 在关系型数据库中,关于数据表设计的基本原则、规则就称为范式。可以理解为,一张数据表的设计结构需要满足的某种设计标准的级别。要想设计一个结构合理的关系型数据库,必须满足一定的范式。 范式的英文名称是Normal Form&a…

范式的判断:方法+例题

范式的判断 例1:R(A,B,C),F{A→B,B→A,C→A},请问这是第几范式? 判断步骤:一图了解范式 一、首先判断候选键&#xff1…

mysql范式

MySQL 三大范式 为什么需要数据规范化? 信息重复 更新异常 插入异常 无法正常显示信息 删除异常 丢失有效的信息设计关系型数据库时,遵从不同的规范要求,设计出合理的关系型数据库,这些不同的规范要求被称为不同的范式&#xff…

BNF范式(巴科斯范式)

BNF范式&#xff08;巴科斯范式&#xff09; 是一种用递归的思想来表述计算机语言符号集的定义规范。 基本结构&#xff1a; <non-terminal> :: <replacement> non-terminal意为非终止符&#xff0c;就是说我们还没有定义完的东西&#xff0c;还可以继续由右边的r…

第一、二、三范式的简单理解

范式 范式&#xff1a; 范式是符合某一种级别的关系模式的集合&#xff0c;表示一个关系内部属性之间的联系何合理化程度 粗略理解&#xff1a; 就是一张数据表的表结构所符合的某种设计标准的级别 数据库范式分为: 第一范式(1NF),第二范式(2NF),第三范式(3NF),BCNF(巴斯范式/鲍…

什么是范式?

原创不易,麻烦点个关注,点个赞,谢谢各位。 范式是符合某一种级别的关系模式的集合。 关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。 范式的种类: 第一范式(1NF) 第二范式(2NF) 第三范式(3NF) BC范式(BCNF) 第四范式(4NF) 第五范式(5NF) 1NF的定义…

范式及反范式

** 什么是范式&#xff1f; ** 范式来自英文Normal Form&#xff0c;简称NF。MySQL是关系型数据库&#xff0c;但是要想设计—个好的关 系&#xff0c;必须使关系满足一定的约束条件&#xff0c;此约束已经形成了规范&#xff0c;分成几个等级&#xff0c;一级比 一级要求得…

数字签名算法

数字签名算法主要包含RSA、DSA、ECDSA三种算法 1. 它的消息传递操作是&#xff1a; 由消息发送方构建密匙对&#xff0c;由消息发送的一方公布公钥至消息接收方&#xff0c;消息发送方对消息用私钥做签名处理消息接收方用公钥对消息做验证 2. RSA签名算法主要分为MD系列和SH…

数字签名的应用实例

一 安全信息公告 一些信息安全方面的组织会在其网站上发布一些关于安全漏洞的警告&#xff0c;那么这些警告信息是否真的是该组织发布的呢&#xff1f;我们如何确认发布这些信息的网站没有被第三方篡改呢&#xff1f; 在这样的情况下&#xff0c;就可以使用数字签名&#xff…

openssl数字签名

实验步骤 1. 创建明文文档plain.txt&#xff0c;写入内容。 2. &#xff08;打开bin目录下的exe文件运行&#xff09;计算plain.txt的哈希值&#xff0c;输出到文件digest.txt。 注意这个地方是sha1 是数字1而不是字母L 3. 利用RSA算法对摘要进行签名。 &#xff08;1&#…

RSA数字签名

目录 利用RSA-Tool加密消息利用RSA算法实现对称密钥的安全分配利用RSA算法生成数字签名 利用RSA-Tool加密消息 1&#xff0e;运行RSA-Tool&#xff0c;点击Start按钮&#xff0c;滑动鼠标生成一个随机数。点击Generate生成一对大质数p、q及Npq。 2&#xff0e;自己选定一个可…