L1正则项-稀疏性-特征选择

article/2025/9/18 15:58:25

原文链接: http://chenhao.space/post/b190d0eb.html

L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择

所谓稀疏模型就是模型中很多的参数是0,这就相当于进行了一次特征选择,只留下了一些比较重要的特征,提高模型的泛化能力,降低过拟合的可能。

那么问题来了,为什么L1正则化会产生稀疏解?

L1/L2正则化损失函数

线性回归L1正则化损失函数:
min ⁡ w [ ∑ i = 1 N ( w T x i − y i ) 2 + λ ∥ w ∥ 1 ] . . . . . . . . ( 1 ) \min_w [\sum_{i=1}^{N}(w^Tx_i - y_i)^2 + \lambda \|w\|_1 ]........(1) wmin[i=1N(wTxiyi)2+λw1]........(1)
线性回归L2正则化损失函数:
min ⁡ w [ ∑ i = 1 N ( w T x i − y i ) 2 + λ ∥ w ∥ 2 2 ] . . . . . . . . ( 2 ) \min_w[\sum_{i=1}^{N}(w^Tx_i - y_i)^2 + \lambda\|w\|_2^2] ........(2) wmin[i=1N(wTxiyi)2+λw22]........(2)

正则化作用

L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择。

L2正则化可以防止模型过拟合,一定程度上,L1也可以防止过拟合。

L1正则化与稀疏性

事实上,”带正则项”和“带约束条件”是等价的。为了约束 w w w 的可能取值空间从而防止过拟合,我们为该优化问题加上一个约束,就是 w w w 的L1范数不能大于m:

{ min ⁡ ∑ i = 1 N ( w T x i − y i ) 2 s . t . ∥ w ∥ 1 ⩽ m . . . . . . . . . ( 3 ) \begin{cases} \min \sum_{i=1}^{N}(w^Tx_i - y_i)^2 \\ s.t. \|w\|_1 \leqslant m.\end{cases}........(3) {mini=1N(wTxiyi)2s.t.w1m.........(3)

( 1 ) (1) (1)式和 ( 3 ) (3) (3)式是等价的,为了求解带约束条件的凸优化问题,写出拉格朗日函数:

∑ i = 1 N ( w T x i − y i ) 2 + λ ( ∥ w ∥ 1 − m ) . . . . . . . . ( 4 ) \sum_{i=1}^{N}(w^Tx_i - y_i)^2 + \lambda (\|w\|_1-m)........(4) i=1N(wTxiyi)2+λ(w1m)........(4)

w ∗ w^∗ w λ ∗ \lambda^∗ λ 是原问题和对偶问题的最优解,则根据???条件得:

{ 0 = ∇ w [ ∑ i = 1 N ( W ∗ T x i − y i ) 2 + λ ∗ ( ∥ w ∥ 1 − m ) ] 0 ⩽ λ ∗ . . . . . . . . . ( 5 ) \begin{cases} 0 = \nabla_w[\sum_{i=1}^{N}(W^{*T}x_i - y_i)^2 + \lambda^* (\|w\|_1-m)] \\ 0 \leqslant \lambda^*.\end{cases}........(5) {0=w[i=1N(WTxiyi)2+λ(w1m)]0λ.........(5)

( 5 ) (5) (5)式中的第一个式子不就是 w ∗ w^* w 为带 L2 正则项的优化问题的最优解的条件嘛,而 λ ∗ \lambda^* λ 就是L2正则项前面的正则参数。

由上面公式推导可看出,L1正则项相当于为参数定义了一个棱形的解空间(因为必须保证L1范数不能大于m,L1范数的值又等于所有参数绝对值之和,即 ∣ w 1 ∣ + ∣ w 2 ∣ + ∣ w 3 ∣ + . . . + ∣ w n ∣ ⩽ m |w_1|+|w_2|+|w_3|+...+|w_n| \leqslant m w1+w2+w3+...+wnm),假设参数为2个,即 ∣ w 1 ∣ + ∣ w 2 ∣ ⩽ m |w_1|+|w_2| \leqslant m w1+w2m ,我们画出它的解空间:

设L1正则化损失函数: J = J 0 + λ ∑ w ∣ w ∣ J = J_0 + \lambda \sum_{w} |w| J=J0+λww ,其中 J 0 = ∑ i = 1 N ( w T x i − y i ) 2 J_0 = \sum_{i=1}^{N}(w^Tx_i - y_i)^2 J0=i=1N(wTxiyi)2 是原始损失函数,后面那一项是L1正则化项, λ \lambda λ 是正则化系数。图中的等线图就是 J 0 J_0 J0 ,棱形是L1正则化项的解空间,当它们俩在某点处相交时,该点就是最优解。很明显,在棱形的解空间中,棱角顶点很容易与等线图相交。

在上图中,它们相交就意味中 w 1 w_1 w1 w 2 w_2 w2 至少有一个为0,当参数更多时也是同理。

L2正则化的空间解如下图(公式推导跟L1差不多):

参考资料

  1. 百面机器学习
  2. 深入理解L1、L2正则化

http://chatgpt.dhexx.cn/article/7wSdCW5E.shtml

相关文章

梳理L1、L2与Smooth L1

关于L1、L2的范数、损失函数和正则化,之前一直混淆这几个概念,故对这几天看过的资料进行了学习总结。 范数(norm)是数学中的一种基本概念。在泛函分析中,它定义在赋范线性空间中,并满足一定的条件,即①非负性&#xff…

L1范数与L2范数的区别与联系

L1范数与L2范数的区别与联系 一、过拟合与正则化 过拟合指的就是在机器学习模型训练过程中把数据学习的太彻底,以至于把噪声数据的特征也学习到了,这样会导致在测试的时候不能够很好地识别数据,即不能正确的分类,模型测试的时候不…

L1正则化及其稀疏性的傻瓜解释

本文翻译自:L1 Norm Regularization and Sparsity Explained for Dummies, 特别感谢原作者Shi Yan! 0. 前言 好吧,我想我就是很笨的那一类人。 当理解一个抽象的数学概念,我必须把它转化成一张图像,然后在…

L1/L2范数

文中内容为一下博文整理而来 https://blog.csdn.net/iterate7/article/details/75443504 https://blog.csdn.net/zhaomengszu/article/details/81537197 什么是范数 范数是具有“长度”概念的函数。在向量空间内,为所有的向量的赋予非零的增长度或者大小。不同的范…

机器学习——L1范数充当正则项,让模型获得稀疏解,解决过拟合问题

问:使用L2范数正则项比L1范数正则项得到的是更为稀疏的解。 答:错误,L1范数正则项得到的是更稀疏的解。因为在L1正则项中,惩罚项是每个参数绝对值之和;而在L2正则项中,惩罚项是每个参数平方的和。L1正则项…

L1、L2的作用

L范式都是为了防止模型过拟合,所谓范式就是加入参数的约束。 L1的作用是为了矩阵稀疏化。假设的是模型的参数取值满足拉普拉斯分布。 L2的作用是为了使模型更平滑,得到更好的泛化能力。假设的是参数是满足高斯分布。 借用公众号python与算法社区的内容20…

机器人设计范式

“ 本期技术干货,我们邀请到了小米机器人实验室工程师徐海望,和大家分享在机器人学领域中,关系到机器人的行为模式或操作模型的三种行为执行逻辑,分别是分级范式(hierarchical paradigm)、反应范式&#xf…

数据库设计之范式与反范式

范式设计 什么是范式? 范式来自英文Normal Form,简称NF。要想表之间设计—个好的关系,必须使关系 满足一定的约束条件,此约束已经形成了规范,分成几个等级,一级比一级要求 得严格。满足这些规范的数据库是…

详解数据库的第一范式、第二范式、第三范式、BCNF范式

版权声明:本文转自小小呆原创文章 https://blog.csdn.net/gui951753/article/details/79609874 第一范式 定义以及分析:问题研究: 第二范式 必备知识点定义分析:解决办法:问题研究: 第三范式: 定义&…

关系范式

一、数据需要规范化的原因: 1.数据冗余大 2.防止更新异常 3.防止插入异常 4.删除异常 数据库范式分为1NF,2NF,3NF,BCNF,4NF,5NF 一张表按照范式的不同等级划分将分为多张表,每张表都是一个…

9.3范式

第一范式:定义:不包含非原子项属性的关系是第一范式的关系。 第二范式:定义:如果R(U,F)1NF,并且R中的每个非属性都完全函数依赖于主键,则R(U,F) 2NF。可以用模式分解的办法将非第二范式关系分解…

数据库——范式

范式 1、范式简介 在关系型数据库中,关于数据表设计的基本原则、规则就称为范式。可以理解为,一张数据表的设计结构需要满足的某种设计标准的级别。要想设计一个结构合理的关系型数据库,必须满足一定的范式。 范式的英文名称是Normal Form&a…

范式的判断:方法+例题

范式的判断 例1:R(A,B,C),F{A→B,B→A,C→A},请问这是第几范式? 判断步骤:一图了解范式 一、首先判断候选键&#xff1…

mysql范式

MySQL 三大范式 为什么需要数据规范化? 信息重复 更新异常 插入异常 无法正常显示信息 删除异常 丢失有效的信息设计关系型数据库时,遵从不同的规范要求,设计出合理的关系型数据库,这些不同的规范要求被称为不同的范式&#xff…

BNF范式(巴科斯范式)

BNF范式&#xff08;巴科斯范式&#xff09; 是一种用递归的思想来表述计算机语言符号集的定义规范。 基本结构&#xff1a; <non-terminal> :: <replacement> non-terminal意为非终止符&#xff0c;就是说我们还没有定义完的东西&#xff0c;还可以继续由右边的r…

第一、二、三范式的简单理解

范式 范式&#xff1a; 范式是符合某一种级别的关系模式的集合&#xff0c;表示一个关系内部属性之间的联系何合理化程度 粗略理解&#xff1a; 就是一张数据表的表结构所符合的某种设计标准的级别 数据库范式分为: 第一范式(1NF),第二范式(2NF),第三范式(3NF),BCNF(巴斯范式/鲍…

什么是范式?

原创不易,麻烦点个关注,点个赞,谢谢各位。 范式是符合某一种级别的关系模式的集合。 关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。 范式的种类: 第一范式(1NF) 第二范式(2NF) 第三范式(3NF) BC范式(BCNF) 第四范式(4NF) 第五范式(5NF) 1NF的定义…

范式及反范式

** 什么是范式&#xff1f; ** 范式来自英文Normal Form&#xff0c;简称NF。MySQL是关系型数据库&#xff0c;但是要想设计—个好的关 系&#xff0c;必须使关系满足一定的约束条件&#xff0c;此约束已经形成了规范&#xff0c;分成几个等级&#xff0c;一级比 一级要求得…

数字签名算法

数字签名算法主要包含RSA、DSA、ECDSA三种算法 1. 它的消息传递操作是&#xff1a; 由消息发送方构建密匙对&#xff0c;由消息发送的一方公布公钥至消息接收方&#xff0c;消息发送方对消息用私钥做签名处理消息接收方用公钥对消息做验证 2. RSA签名算法主要分为MD系列和SH…

数字签名的应用实例

一 安全信息公告 一些信息安全方面的组织会在其网站上发布一些关于安全漏洞的警告&#xff0c;那么这些警告信息是否真的是该组织发布的呢&#xff1f;我们如何确认发布这些信息的网站没有被第三方篡改呢&#xff1f; 在这样的情况下&#xff0c;就可以使用数字签名&#xff…