L0、L1、L2、Elastic Net正则项

article/2025/9/22 7:22:45

L1正则化使得模型更加稀疏,L2使得模型参数更趋近于0,提高泛化能力(这里是另外一个解释:https://www.zhihu.com/question/38081976/answer/74895039)

先介绍下各自的用处:

L0范数:就是指矩阵中非零元素的个数,很显然,在损失函数后面加上L0正则项就能够得到稀疏解,但是L0范数很难求解,是一个NP问题,因此转为求解相对容易的L1范数(l1能够实现稀疏性是因为l1是L0范数的最优凸近似
这里写图片描述

L1范数:矩阵中所有元素的绝对值的和。损失函数后面加上L1正则项就成了著名的Lasso问题(Least Absolute Shrinkage and Selection Operator),L1范数可以约束方程的稀疏性,该稀疏性可应用于特征选择:
比如,有一个分类问题,其中一个类别Yi(i=0,1),特征向量为Xj(j=0,1~~~1000),那么构造一个方程
Yi = W0*X0+W1*X1···Wj*Xj···W1000*X1000+b;
其中W为权重系数,那么通过L1范数约束求解,得到的W系数是稀疏的,那么对应的X值可能就是比较重要的,这样就达到了特征选择的目的(该例子是自己思考后得出的,不知道正不正确,欢迎指正)。

L2范数
其实就是矩阵所有元素的平方和开根号,即欧式距离,在回归问题中,在损失函数(或代价函数)后面加上L2正则项就变成了岭回归(Ridge Regression),也有人叫他权重衰减,L2正则项的一个很大的用处就是用于防止机器学习中的过拟合问题,同L1范数一样,L2范数也可以对方程的解进行约束,但他的约束相对L1更平滑,在模型预测中,L2往往比L1好。L2会让W的每个元素都很小,接近于0,但是不会等于0.而越小的参数模型越简单,越不容易产生过拟合,以下引自另一篇文章:
到目前为止,我们只是解释了L2正则化项有让w“变小”的效果(公式中的lamda越大,最后求得的w越小),但是还没解释为什么w“变小”可以防止overfitting?一个所谓“显而易见”的解释就是:更小的权值w,从某种意义上说,表示网络的复杂度更低,对数据的拟合刚刚好(这个法则也叫做奥卡姆剃刀),而在实际应用中,也验证了这一点,L2正则化的效果往往好于未经正则化的效果。当然,对于很多人(包括我)来说,这个解释似乎不那么显而易见,所以这里添加一个稍微数学一点的解释:

过拟合的时候,拟合函数的系数往往非常大,为什么?如下图所示,过拟合,就是拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大。在某些很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大,由于自变量值可大可小,所以只有系数足够大,才能保证导数值很大。
这里写图片描述

而正则化是通过约束参数的范数使其不要太大,所以可以在一定程度上减少过拟合情况。弹性网络(Elastic Net):实际上是L1,L2的综合

这里写图片描述

其中的L1正则项产生稀疏模型
L2正则项产生以下几个作用:
1 消除L1正则项中选择变量个数的限制(即稀疏性)
2 产生grouping effect(对于一组相关性较强的原子,L1会在相关的变量间***随机***的选择一个来实现稀疏)
3 稳定L1正则项的路径
整理后的正则项:

这里写图片描述

e lastic net 的几何结构:

这里写图片描述

其结构有如下两个特点:
1 在顶点具有奇异性(稀疏性的必要条件)
2 严格的凸边缘(凸效应的强度随着α而变化(产生grouping效应))elastic net总结:
1 弹性网络同时进行正则化与变量选择
2 能够进行grouped selection
3 当p>>n,或者严重的多重共线性情况时,效果明显
4 当α接近0时,elastic net表现接近lasso,但去掉了由极端相关引起的退化或者奇怪的表现
5 当α从1变化到0时,目标函数的稀疏解(系数为0的情况)从0增加到lasso的稀疏解

L1 L2区别总结:
加入正则项是为了避免过拟合,或解进行某种约束,需要解保持某种特性
L1正则假设参数的先验分布是Laplace分布,可以保证模型的稀疏性,也就是某些参数等于0,L1正则化是L0正则化的最优凸近似,比L0容易求解,并且也可以实现稀疏的效果,
L1也称Lasso;

L2正则假设参数的先验分布是Gaussian分布,可以保证模型的稳定性,也就是参数的值不会太大或太小.L2范数是各参数的平方和再求平方根,我们让L2范数的正则项最小,可以使W的每个元素都很小,都接近于0。但与L1范数不一样的是,它不会是每个元素为0,而只是接近于0。越小的参数说明模型越简单,越简单的模型越不容易产生过拟合现象。

L2正则化江湖人称Ridge,也称“岭回归”

在实际使用中,如果特征是高维稀疏的,则使用L1正则;如果特征是低维稠密的,则使用L2正则。
L2不能控制feature的“个数”,但是能防止模型overfit到某个feature上;相反L1是控制feature“个数”的,并且鼓励模型在少量几个feature上有较大的权重。


http://chatgpt.dhexx.cn/article/4w5WBCIH.shtml

相关文章

深入理解L0,L1和L2正则化

正则化技术是机器学习中常用的技术,一般是用来解决过拟合问题的。为什么范数可以作为机器学习的正则化项?为什么L1正则化可以用来进行特征选择的工作?为什么正则化可以解决过拟合问题?本篇博客从机器学习中为什么需要范数讲起&…

L0、L1、L2范数的理解

一、什么是L1、L2、L3范数 L0范数是指向量中非0的元素的个数。(L0范数很难优化求解) L1范数是指向量中各个元素绝对值之和 L2范数是指向量各元素的平方和然后求平方根 L1范数可以进行特征选择,即让特征的系数变为0,使稀疏离散化. L2范数可以防止过拟…

Linux中的0.0.0.0和 ::

IP地址表示,IP地址有两个部分组成,net-id和host-id,即网络号和主机号。 127.0.0.1 127.0.0.1属于{127,}集合中的一个,所有的网络号为127的地址都被称为环回地址,所以环回地址不等价于127.0.0.1&#xff0…

L0,L1范数详解

机器学习中的范数规则化之(一)L0、L1与L2范数 zouxy09qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择…

对于无人驾驶技术(驾驶自动化)L0-L5分级的说明

通过此文的阅读您将了解: 无人驾驶的基本概念; 无人驾驶的分级标准; 无人驾驶的不同级别定义。 一、什么是无人驾驶 首先说一下无人驾驶的概念,无人驾驶技术就是车辆以自动的方式持续地执行部分或全部动态驾驶任务。“通过多种车…

机器学习——L0、L1、L2范数

今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。 监督机器学习问题无非就是“minimize your error while regularizing your parameters”,也就是…

L0范数、L1范数和L2范数的区别

我的个人微信公众号:Microstrong 微信公众号ID:MicrostrongAI 公众号介绍:Microstrong(小强)同学主要研究机器学习、深度学习、计算机视觉、智能对话系统相关内容,分享在学习过程中的读书笔记!期待您的关注&#xff0c…

机器学习中的范数规则化之(一)L0、L1与L2范数

机器学习中的范数规则化之(一)L0、L1与L2范数 zouxy09qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选…

一文弄懂L0、L1和L2正则化范式

文章目录 正则化L0范数L1范数L2范数elastic net总结讨论几个问题为什么L1稀疏,L2平滑?实现参数的稀疏有什么好处吗?参数值越小代表模型越简单吗? 正则式的应用场景 正则化 正则化的作用实际上就是防止模型过拟合,提高…

正则化与L0、L1、L2范数祥解

1、范数 范数是衡量某个向量空间(或矩阵)中的每个向量以长度或大小。范数的一般化定义:对实数p>1, 范数定义如下: L1范数 当p1时,是L1范数,其表示某个向量中所有元素绝对值的和。L2范数 当p…

汽车自动驾驶的L0-L5是什么意思?

一、问题 汽车L0、L1、L2、L3、L4、L5自动驾驶都是什么意思呢? 近年来「自动驾驶」对我们来说不再陌生,很多人虽然早有所闻,但是真不懂自动驾驶的L0、L1、L2、L3、L4、L5是什么意思,都有哪些功能,今天就来为大家科普一…

L0到L5自动驾驶的区别

L0到L5自动驾驶的区别 具有某些自主功能的汽车已经出现:现在就来了解接下来会发生什么。 自动驾驶汽车不再是科幻小说。 今天,您已经可以购买一辆能够在高速公路和平行停车场的高峰时段自动驾驶的汽车。 但是,要一辆能做司机的车&#xff0c…

区块链中L0、L1、L2、L3分别是什么

区块链有六层架构:数据层、网络层、共识层、激励层、合约层和应用层。 Layer 0又称数据传输层,对应OSI模型的底层,主要涉及区块链和传统网络之间的结合问题。 Layer 1扩容方案又称链上扩容,指在区块链基层协议上实现的扩容解决方案。 Lay…

1.机器学习中的L0、L1与L2范数到底是什么意思?

一、L0范数与L1范数 L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。让参数W是稀疏的。 L1范数是指向量中各个元素绝对值之和,也叫“稀疏规则算子”(Lasso regularization&…

L0,L1,L2正则,lasso,岭回归

L0正则: 我们要讨论的第一个规范是L0规范。根据定义,x的L0范数是 严格来说,L0范数实际上不是一个范数。它是基数函数,其定义形式为L0-norm,尽管许多人称其为范数。使用它有点棘手,因为其中存在零次幂和零…

自学网络安全的三个必经阶段(含路线图)

一、为什么选择网络安全? 这几年随着我国《国家网络空间安全战略》《网络安全法》《网络安全等级保护2.0》等一系列政策/法规/标准的持续落地,网络安全行业地位、薪资随之水涨船高。 未来3-5年,是安全行业的黄金发展期,提前踏入…

网络安全学习指南:新手入门建议

💂 个人网站:【海拥】【游戏大全】【神级源码资源网】🤟 前端学习课程:👉【28个案例趣学前端】【400个JS面试题】💅 寻找学习交流、摸鱼划水的小伙伴,请点击【摸鱼学习交流群】 目录 前言网络安全基础知识学…

网络安全学习路线-超详细

零基础小白,到就业!入门到入土的网安学习路线! 在各大平台搜的网安学习路线都太粗略了。。。。看不下去了! 建议的学习顺序: 一、网络安全学习普法(心里有个数,要进去坐几年!&#…

如何学习网络安全?(网络安全学习笔记)

概括来说,网络安全课程的主要内容包括: 安全基本知识 应用加密学 协议层安全 Windows安全(攻击与防御) Unix/Linux安全(攻击与防御) 防火墙技术 入侵监测系统 审计和日志分析 下面分别对每部分知识介绍相应…

2023网络安全学习路线 非常详细 推荐学习

关键词:网络安全入门、渗透测试学习、零基础学安全、网络安全学习路线 分享2套零基础、进阶学习网络安全/渗透测试教程 第一套是Web安全学习笔记,共430页12个章节。 该笔记详细介绍了计算机网络协议、信息收集、常见漏洞、内网渗透、御用技术等等&…