L1和L2范数

article/2025/9/18 15:25:09

L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W中非0元素的个数最少,即大部分元素都是0。换句话说,希望让参数W是稀疏的。

L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。任何的规则化算子,如果他在Wi=0的地方不可微,并且可以分解为一个“求和”的形式,那么这个规则化算子就可以实现稀疏。那么W的L1范数是W的绝对值,|w|在w=0处是不可微的。

既然L0可以实现稀疏,为什么不用L0,而要用L1呢?是因为L0范数很难优化求解,而且L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。

在正则化项中使用L1范数的出发点即希望参数稀疏,有两个作用:

  1. 可以进行特征选择。一般来说,xi的大部特征都是和最终的输出yi没有关系或者不提供任何信息的,在最小化目标函数的时候考虑xi这些额外的特征,虽然可以获得更小的训练误差,但在预测新的样本时,这些没用的信息反而会被考虑,从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命,它会学习地去掉这些没有信息的特征,也就是把这些特征对应的权重置为0。
  2. 让学习结果具备可解释性:如果输入样本有很多个特征,但是学习到的参数只有几个为非0,则预测的结果只与这几个参数不为0的特征有关系,即可以解释为什么学习的结果是这样。

L2范数是指向量各元素的平方和然后求平方根。我们让特征权重的L2范数||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0。这样可以实现对于模型中一些高阶项的限制,从而实现防止过拟合。
另外L2范数还能让优化变得快速且稳定,因为如果一个模型是ill-conditioned即输入的微小变化对输出影响很大,则当输入样本有小误差时,就达不到优化目标,得不到最优解。而在模型中加入二次方的正则化项,则可以改善模型的condition number,即减小输入变化对输出的影响,使模型从convex变为strong convex。
convex和strong convex的区别:如下图所示,对于convex函数,只需要满足曲线上的点在一条切线的上方,但是有可能在切点附近变化很小,因此不利于用梯度下降得到最优解,且求的解与最优解之间相差有可能很大。
但是对于strong convex函数,需要满足曲线上的点在切点的二次函数上方,这样就可以快速稳定的求得最优解w*
图形示意
L1范数和L2范数的区别:
如下图所示,L1范数的约束项为||w||1<=C,即为左图的方形,方形的角点最有可能与拟合函数相交,相交的地方即为最优解,此时w1或者w2为0,即使参数稀疏,而L2范数的约束项为||w||2<=C,即为右图中的圆形,相交的地方大概率w1和w2都不为0,因此不会使参数稀疏。
二维示意图


http://chatgpt.dhexx.cn/article/YR2Rh9Ae.shtml

相关文章

L1 loss L2 loss Smooth L1 loss

L1 loss & L2 loss & Smooth L1 loss 微信公众号&#xff1a;幼儿园的学霸 个人的学习笔记&#xff0c;关于OpenCV,关于机器学习, …。问题或建议&#xff0c;请公众号留言; 关于神经网络中L1 loss & L2 loss & Smooth L1 loss损失函数的对比、优缺点分析 目录…

CPU一级缓存L1 D-cache\L1 I-cache与二级缓存L2 cache深度分析

CPU缓存&#xff1a;通过优化的的读取机制&#xff0c;可以使CPU读取缓存的命中率非常高&#xff08;大多数CPU可达90%左右&#xff09;&#xff0c; 也就是说CPU下一次要读取的数据90%都在缓存(SRAM)中&#xff1b; 只有大约10%需要从内存&#xff08;DRAM、DDR等&#xff0…

深度学习剖根问底:正则化L1和L2范式

正则化&#xff08;Regularization&#xff09; 机器学习中几乎都可以看到损失函数后面会添加一个额外项&#xff0c;常用的额外项一般有两种&#xff0c;一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm&#xff0c;中文称作L1正则化和L2正则化&#xff0c;或者L1范数和L2范数。 L1正…

L1和L2损失函数

L1和L2损失函数 文章目录 L1和L2损失函数简介L1 损失函数L2 损失函数一个例子代码最后 简介 最近参加了某高校的夏令营面试&#xff0c;被问到一个基础的损失函数的概念&#xff0c;发现自己对于模式识别的掌握可以说不能再皮毛了。夏令营估计是凉了&#xff0c;还是老老实实总…

【86】ASPM进入和退出L1

之前写过一篇power management的介绍&#xff0c;主要是介绍了一下power management的概念&#xff0c;这次主要是介绍下ASPM和ASPM L1机制。 【67】PCIe Power Management和linux对PME的处理_linjiasen的博客-CSDN博客 1、ASPM介绍 ASPM全称Active State Power Management&a…

L1 L2范式

正则化&#xff08;Regularization&#xff09; 机器学习中几乎都可以看到损失函数后面会添加一个额外项&#xff0c;常用的额外项一般有两种&#xff0c;一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm&#xff0c;中文称作L1正则化和L2正则化&#xff0c;或者L1范数和L2范数。 L1正…

L1正则项-稀疏性-特征选择

原文链接: http://chenhao.space/post/b190d0eb.html L1正则化可以产生稀疏权值矩阵&#xff0c;即产生一个稀疏模型&#xff0c;可以用于特征选择。 所谓稀疏模型就是模型中很多的参数是0&#xff0c;这就相当于进行了一次特征选择&#xff0c;只留下了一些比较重要的特征&a…

梳理L1、L2与Smooth L1

关于L1、L2的范数、损失函数和正则化&#xff0c;之前一直混淆这几个概念&#xff0c;故对这几天看过的资料进行了学习总结。 范数(norm)是数学中的一种基本概念。在泛函分析中&#xff0c;它定义在赋范线性空间中&#xff0c;并满足一定的条件&#xff0c;即①非负性&#xff…

L1范数与L2范数的区别与联系

L1范数与L2范数的区别与联系 一、过拟合与正则化 过拟合指的就是在机器学习模型训练过程中把数据学习的太彻底&#xff0c;以至于把噪声数据的特征也学习到了&#xff0c;这样会导致在测试的时候不能够很好地识别数据&#xff0c;即不能正确的分类&#xff0c;模型测试的时候不…

L1正则化及其稀疏性的傻瓜解释

本文翻译自&#xff1a;L1 Norm Regularization and Sparsity Explained for Dummies&#xff0c; 特别感谢原作者Shi Yan&#xff01; 0. 前言 好吧&#xff0c;我想我就是很笨的那一类人。 当理解一个抽象的数学概念&#xff0c;我必须把它转化成一张图像&#xff0c;然后在…

L1/L2范数

文中内容为一下博文整理而来 https://blog.csdn.net/iterate7/article/details/75443504 https://blog.csdn.net/zhaomengszu/article/details/81537197 什么是范数 范数是具有“长度”概念的函数。在向量空间内&#xff0c;为所有的向量的赋予非零的增长度或者大小。不同的范…

机器学习——L1范数充当正则项,让模型获得稀疏解,解决过拟合问题

问&#xff1a;使用L2范数正则项比L1范数正则项得到的是更为稀疏的解。 答&#xff1a;错误&#xff0c;L1范数正则项得到的是更稀疏的解。因为在L1正则项中&#xff0c;惩罚项是每个参数绝对值之和&#xff1b;而在L2正则项中&#xff0c;惩罚项是每个参数平方的和。L1正则项…

L1、L2的作用

L范式都是为了防止模型过拟合&#xff0c;所谓范式就是加入参数的约束。 L1的作用是为了矩阵稀疏化。假设的是模型的参数取值满足拉普拉斯分布。 L2的作用是为了使模型更平滑&#xff0c;得到更好的泛化能力。假设的是参数是满足高斯分布。 借用公众号python与算法社区的内容20…

机器人设计范式

“ 本期技术干货&#xff0c;我们邀请到了小米机器人实验室工程师徐海望&#xff0c;和大家分享在机器人学领域中&#xff0c;关系到机器人的行为模式或操作模型的三种行为执行逻辑&#xff0c;分别是分级范式&#xff08;hierarchical paradigm&#xff09;、反应范式&#xf…

数据库设计之范式与反范式

范式设计 什么是范式&#xff1f; 范式来自英文Normal Form&#xff0c;简称NF。要想表之间设计—个好的关系&#xff0c;必须使关系 满足一定的约束条件&#xff0c;此约束已经形成了规范&#xff0c;分成几个等级&#xff0c;一级比一级要求 得严格。满足这些规范的数据库是…

详解数据库的第一范式、第二范式、第三范式、BCNF范式

版权声明&#xff1a;本文转自小小呆原创文章 https://blog.csdn.net/gui951753/article/details/79609874 第一范式 定义以及分析:问题研究&#xff1a; 第二范式 必备知识点定义分析&#xff1a;解决办法&#xff1a;问题研究&#xff1a; 第三范式&#xff1a; 定义&…

关系范式

一、数据需要规范化的原因&#xff1a; 1.数据冗余大 2.防止更新异常 3.防止插入异常 4.删除异常 数据库范式分为1NF&#xff0c;2NF&#xff0c;3NF&#xff0c;BCNF&#xff0c;4NF&#xff0c;5NF 一张表按照范式的不同等级划分将分为多张表&#xff0c;每张表都是一个…

9.3范式

第一范式&#xff1a;定义&#xff1a;不包含非原子项属性的关系是第一范式的关系。 第二范式&#xff1a;定义&#xff1a;如果R(U,F)1NF,并且R中的每个非属性都完全函数依赖于主键&#xff0c;则R&#xff08;U,F&#xff09; 2NF。可以用模式分解的办法将非第二范式关系分解…

数据库——范式

范式 1、范式简介 在关系型数据库中&#xff0c;关于数据表设计的基本原则、规则就称为范式。可以理解为&#xff0c;一张数据表的设计结构需要满足的某种设计标准的级别。要想设计一个结构合理的关系型数据库&#xff0c;必须满足一定的范式。 范式的英文名称是Normal Form&a…

范式的判断:方法+例题

范式的判断 例1&#xff1a;R&#xff08;A&#xff0c;B&#xff0c;C&#xff09;&#xff0c;F&#xff5b;A→B&#xff0c;B→A&#xff0c;C→A&#xff5d;&#xff0c;请问这是第几范式&#xff1f; 判断步骤&#xff1a;一图了解范式 一、首先判断候选键&#xff1…