正则化方法归纳总结

article/2025/9/28 15:41:09

作者丨Poll

来源丨https://www.cnblogs.com/maybe2030/p/9231231.html

编辑丨极市平台

本文仅用于学术分享,如有侵权请联系后台删文

导读

 

本文先对正则化的相关概念进行解释作为基础,后对正则化的方法进行了总结,帮助大家更加清晰的了解正则化方法。 

阅读目录

  • LP范数

  • L1范数

  • L2范数

  • L1范数和L2范数的区别

  • Dropout

  • Batch Normalization

  • 归一化、标准化 & 正则化

  • Reference

在总结正则化(Regularization)之前,我们先谈一谈正则化是什么,为什么要正则化。

个人认为正则化这个字眼有点太过抽象和宽泛,其实正则化的本质很简单,就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。在算法中使用正则化的目的是防止模型出现过拟合。一提到正则化,很多同学可能马上会想到常用的L1范数和L2范数,在汇总之前,我们先看下LP范数是什么鬼。

LP范数

范数简单可以理解为用来表征向量空间中的距离,而距离的定义很抽象,只要满足非负、自反、三角不等式就可以称之为距离。

LP范数不是一个范数,而是一组范数,其定义如下:

p的范围是。p在(0,1)范围内定义的并不是范数,因为违反了三角不等式。

根据p的变化,范数也有着不同的变化,借用一个经典的有关P范数的变化图如下:

80cae15eb3a37c68b234654728419232.png

上图表示了p从0到正无穷变化时,单位球(unit ball)的变化情况。在P范数下定义的单位球都是凸集,但是当0<p<1时,该定义下的单位球不是凸集(这个我们之前提过,当0<p<1时并不是范数)。

那问题来了,L0范数是啥玩意?

L0范数表示向量中非零元素的个数,用公式表示如下:

我们可以通过最小化L0范数,来寻找最少最优的稀疏特征项。但不幸的是,L0范数的最优化问题是一个NP hard问题(L0范数同样是非凸的)。因此,在实际应用中我们经常对L0进行凸松弛,理论上有证明,L1范数是L0范数的最优凸近似,因此通常使用L1范数来代替直接优化L0范数。

L1范数

根据LP范数的定义我们可以很轻松的得到L1范数的数学形式:

通过上式可以看到,L1范数就是向量各元素的绝对值之和,也被称为是"稀疏规则算子"(Lasso regularization)。那么问题来了,为什么我们希望稀疏化?稀疏化有很多好处,最直接的两个:

  • 特征选择

  • 可解释性

L2范数

L2范数是最熟悉的,它就是欧几里得距离,公式如下:

L2范数有很多名称,有人把它的回归叫“岭回归”(Ridge Regression),也有人叫它“权值衰减”(Weight Decay)。以L2范数作为正则项可以得到稠密解,即每个特征对应的参数w都很小,接近于0但是不为0;此外,L2范数作为正则化项,可以防止模型为了迎合训练集而过于复杂造成过拟合的情况,从而提高模型的泛化能力。

L1范数和L2范数的区别

引入PRML一个经典的图来说明下L1和L2范数的区别,如下图所示:

7cfea66a62c668672a52af2fa6f262cd.png

如上图所示,蓝色的圆圈表示问题可能的解范围,橘色的表示正则项可能的解范围。而整个目标函数(原问题+正则项)有解当且仅当两个解范围相切。从上图可以很容易地看出,由于L2范数解范围是圆,所以相切的点有很大可能不在坐标轴上,而由于L1范数是菱形(顶点是凸出来的),其相切的点更可能在坐标轴上,而坐标轴上的点有一个特点,其只有一个坐标分量不为零,其他坐标分量为零,即是稀疏的。所以有如下结论,L1范数可以导致稀疏解,L2范数导致稠密解。

从贝叶斯先验的角度看,当训练一个模型时,仅依靠当前的训练数据集是不够的,为了实现更好的泛化能力,往往需要加入先验项,而加入正则项相当于加入了一种先验。

  • L1范数相当于加入了一个Laplacean先验;

  • L2范数相当于加入了一个Gaussian先验。

如下图所示:05a7c4fe803728b377cb00116d02dcf9.png

Dropout

Dropout是深度学习中经常采用的一种正则化方法。它的做法可以简单的理解为在DNNs训练的过程中以概率p丢弃部分神经元,即使得被丢弃的神经元输出为0。Dropout可以实例化的表示为下图:

3d806b8bced53bac17f8937a1016edf5.png

我们可以从两个方面去直观地理解Dropout的正则化效果:

  • 在Dropout每一轮训练过程中随机丢失神经元的操作相当于多个DNNs进行取平均,因此用于预测具有vote的效果。

  • 减少神经元之间复杂的共适应性。当隐藏层神经元被随机删除之后,使得全连接网络具有了一定的稀疏化,从而有效地减轻了不同特征的协同效应。也就是说,有些特征可能会依赖于固定关系的隐含节点的共同作用,而通过Dropout的话,就有效地组织了某些特征在其他特征存在下才有效果的情况,增加了神经网络的鲁棒性。

Batch Normalization

批规范化(Batch Normalization)严格意义上讲属于归一化手段,主要用于加速网络的收敛,但也具有一定程度的正则化效果。

这里借鉴下魏秀参博士的知乎回答中对covariate shift的解释。

注以下内容引自魏秀参博士的知乎回答:

大家都知道在统计机器学习中的一个经典假设是“源空间(source domain)和目标空间(target domain)的数据分布(distribution)是一致的”。如果不一致,那么就出现了新的机器学习问题,如transfer learning/domain adaptation等。而covariate shift就是分布不一致假设之下的一个分支问题,它是指源空间和目标空间的条件概率是一致的,但是其边缘概率不同。大家细想便会发现,的确,对于神经网络的各层输出,由于它们经过了层内操作作用,其分布显然与各层对应的输入信号分布不同,而且差异会随着网络深度增大而增大,可是它们所能“指示”的样本标记(label)仍然是不变的,这便符合了covariate shift的定义。

BN的基本思想其实相当直观,因为神经网络在做非线性变换前的激活输入值(X = WU + B,U是输入),随着网络深度加深,其分布逐渐发生偏移或者变动(即上述的covariate shift)。之所以训练收敛慢,一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近(对于Sigmoid函数来说,意味着激活输入值(X = WU + B)是大的负值和正值。所以这导致后向传播时低层神经网络的梯度消失,这是训练深层神经网络收敛越来越慢的本质原因。而 BN 就是通过一定的规范化手段,把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布,避免因为激活函数导致的梯度弥散问题。所以与其说BN的作用是缓解covariate shift,倒不如说BN可缓解梯度弥散问题。

归一化、标准化 & 正则化

正则化我们以及提到过了,这里简单提一下归一化和标准化。

归一化(Normalization):归一化的目标是找到某种映射关系,将原数据映射到[a,b]区间上。一般a,b会取[-1,1],[0,1]这些组合 。

一般有两种应用场景:

  • 把数变为(0, 1)之间的小数

  • 把有量纲的数转化为无量纲的数

常用min-max normalization:

标准化(Standardization):用大数定理将数据转化为一个标准正态分布,标准化公式为:

归一化和标准化的区别:

我们可以这样简单地解释:

归一化的缩放是“拍扁”统一到区间(仅由极值决定),而标准化的缩放是更加“弹性”和“动态”的,和整体样本的分布有很大的关系。

值得注意:

归一化:缩放仅仅跟最大、最小值的差别有关。

标准化:缩放和每个点都有关系,通过方差(variance)体现出来。与归一化对比,标准化中所有数据点都有贡献(通过均值和标准差造成影响)。

为什么要标准化和归一化?

  • 提升模型精度:归一化后,不同维度之间的特征在数值上有一定比较性,可以大大提高分类器的准确性。

  • 加速模型收敛:标准化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。如下图所示:

992f402a9a443f7bb848d1f4da67f99f.png e5fb2de503a38d84b90978a04720a1ce.png

Reference

  1. Andrew Ng深度学习教程

  2. Must Know Tips/Tricks in Deep Neural Networks (by Xiu-Shen Wei)

如果觉得有用,就请分享到朋友圈吧!


http://chatgpt.dhexx.cn/article/MCTek71m.shtml

相关文章

阿里副总裁、达摩院自动驾驶负责人王刚离职!

转载自&#xff1a;新智元 | 编辑&#xff1a;桃子 好困 【导读】从学界「跨界」互联网&#xff0c;再转身去创业。这一年&#xff0c;他40岁&#xff0c;依然选择挑战自我。消息称&#xff0c;阿里副总裁、达摩院自动驾驶实验室负责人王刚已于近日离职。阿里&#xff0c;是他的…

机器学习防止模型过拟合方法总结

转自 | 小白学视觉&#xff0c;作者小白 文章仅用于学术分享&#xff0c;侵删 目录 LP范数L1范数L2范数L1范数和L2范数的区别DropoutBatch Normalization归一化、标准化 & 正则化Reference 其实正则化的本质很简单&#xff0c;就是对某一问题加以先验的限制或约束以达到某种…

CV还要更热闹!旷视刚宣布4.6亿美元融资,商汤:新一轮年内完成

允中 发自 凹非寺 量子位 报道 | 公众号 QbitAI △ 商汤科技CEO徐立 你追我赶&#xff01; 机器视觉&#xff08;CV&#xff09;领域热度还在急剧升温。 昨天&#xff0c;旷视科技(Face)刚完成了C轮4.6亿美元融资&#xff0c;刷新了AI公司全球单轮融资额纪录。 而这一纪录的保…

LaTeX 有哪些「新手须知」的内容?

孟晨 &#xff0c;在 LaTeX 话题下写错 LaTeX 名字的&#xff0c;一律… 陈硕 等 137 人赞同 这是个好问题&#xff0c;虽然提问提得很大。不是很好答&#xff0c;权当抛砖引玉了。 天字第一号原则&#xff1a;不要到网上抄代码&#xff0c;尤其是似懂非懂的阶段。 除非代码的…

《解析深度学习》部分笔记

记录一些书里的知识点&#xff0c;摘自魏秀参的《解析深度学习-卷积神经网络原理与视觉实践》 第三章 卷积神经网络经典结构 1.在深度学习中&#xff0c;深度卷积神经网络呈现“分布式表示”&#xff0c;既“语义概念”到神经元是一个多对多映射。直观讲就是&#xff1a;每个语…

新型计算机离我们还有多远

作者&#xff1a;高如如&#xff0c;魏秀参 本文为《程序员》原创文章&#xff0c;未经允许不得转载&#xff0c;更多精彩文章请订阅《程序员》 自1946年ENIAC&#xff08;Electronic Numerical Integrator And Calculator&#xff0c;即电子数字积分计算机&#xff09;问世&am…

Must Know Tips/tricks in DNN

Must Know Tips/Tricks in Deep Neural Networks (byXiu-Shen Wei) 转载于http://lamda.nju.edu.cn/weixs/project/CNNTricks/CNNTricks.html Deep Neural Networks, especially Convolutional Neural Networks (CNN), allows computational models that are composed of mult…

[读书笔录]解析卷机神经网络(魏秀参)——第二章

解析卷积神经网络——基础理论篇 第二章 卷机神经网络基本部件 2.1 “端到端”思想&#xff08;end-to-end manner&#xff09; 深度学习的一个重要思想即”端到端”的学习方式&#xff0c;属于表示学习的一种。整个学习流程并不进行人为的子问题划分&#xff0c;而是完全交…

[读书笔录]解析卷机神经网络(魏秀参)——第三章

#解析卷积神经网络——基础理论篇 第三章 卷机神经网络经典结构 3.1 CNN网络结构中的重要概念 ####感受野 感受野(receptive filed)原指听觉、视觉等神经系统中一些神经元的特性&#xff0c;即神经元只接受其所支配的刺激区域内的信号。 以单层卷积操作为例&#xff0c;如左…

[读书笔录]解析卷积神经网络(魏秀参)——第一章

解析卷积神经网络——基础理论篇 第一章 卷机神经网络基础知识 1.1发展历程 卷积神经网络发展历史中的第一件里程碑事件发生在上世纪60年代左右的神经科学中&#xff0c;1959 年提出猫的初级视皮层中单个神经元的“感受野”概念&#xff0c;紧接着于1962年发现了猫的视觉中枢…

如何看旷视南京负责人魏秀参跳槽高校工作?

链接&#xff1a;https://www.zhihu.com/question/404733616 编辑&#xff1a;深度学习与计算机视觉 声明&#xff1a;仅做学术分享&#xff0c;侵删 跳槽本是正常现象&#xff0c;之所以会在知乎引起讨论&#xff0c;说明其中有让大家值得关注的点。但我们吃瓜群众&#xff0c…

[阅读笔记]《解析卷积神经网络_深度学习实践手册》魏秀参著

书籍下载地址&#xff1a;http://lamda.nju.edu.cn/weixs/book/CNN_book.pdf 这本书名虽然有实践两个字&#xff0c;但内容还是主要介绍在实践框架中涉及的基本概念、方法和技巧介绍&#xff0c;侧重于实践中的概念介绍并不是手把手告诉你如何在某平台上搭建一个卷积神经网络&a…

CVPR 2020评审结果放出,魏秀参博士教你如何rebuttal!!!

关注上方“深度学习技术前沿”&#xff0c;选择“星标公众号”&#xff0c; 资源干货&#xff0c;第一时间送达&#xff01; 来源&#xff1a;知乎 作者&#xff1a;魏秀参 链接&#xff1a;https://zhuanlan.zhihu.com/p/104298923 近日&#xff0c;在此文章中&#xff0c;旷视…

魏秀参:如何理解全连接层的作用?

点击上方“机器学习与生成对抗网络”&#xff0c;关注"星标" 获取有趣、好玩的前沿干货&#xff01; 来自 | 知乎 作者 | 魏秀参 文仅分享&#xff0c;侵删 https://www.zhihu.com/question/41037974/answer/150522307 全连接层到底什么用&#xff1f;我来谈三点。…

28岁少帅统领旷视南京研究院,LAMDA魏秀参专访

记者和魏秀参专访约在旷视科技北京总部&#xff0c;北临清华大学&#xff0c;西靠中关村的融科写字楼&#xff0c;公司三层中厅是一整面落地屏幕&#xff0c;实时显示着人脸识别、人脸检测、年龄估计、人体关键点预测等多种视觉应用demo。 这家计算机视觉公司在2017年10 月 31 …

极市直播丨南京理工大学魏秀参、沈阳:大规模细粒度图像检索

| 极市线上分享 第102期 | 一直以来&#xff0c;为让大家更好地了解学界业界优秀的论文和工作&#xff0c;极市已邀请了超过100位技术大咖嘉宾&#xff0c;并完成了101期极市线上直播分享。往期分享请前往&#xff1a;http://bbs.cvmart.net/topics/149&#xff0c;也欢迎各位…

[读书笔录]解析卷积神经网络(魏秀参)——目录和绪论

解析卷积神经网络——基础理论篇 *南京大学计算机系机器学习与数据挖掘所&#xff08;LAMDA&#xff09;在读博士魏秀参开放了一份较系统完整的 CNN 入门材料《解析卷积神经网络——深度学习实践手册》。这是一本面向中文读者轻量级、偏实用的深度学习工具书&#xff0c;内容侧…

R Talk | 旷视南京研究院魏秀参:细粒度图像分析综述

「R Talk 」是旷视研究院推出的一个深度学习专栏&#xff0c;将通过不定期的推送展示旷视研究院的学术分享及阶段性技术成果。「R」是 Research 的缩写&#xff0c;也是旷视研究院的内部代号&#xff1b;而所有的「Talk」都是来自旷视的 Researcher。「R Talk 」旨在通过一场场…

【Web】控制台操作

浏览器控制台 重定向空白页面使用调用函数eval()执行函数命令使用时间类函数执行代码通过匿名function()执行脚本创建Function对象并执行代码通过apply执行代码通过call执行函数通过成员对象执行函数通过top执行函数通过WINDOW.WINDOW或任何等价值执行函数通过页面事件执行代码…

浏览器控制台Network面板简述

浏览器控制台Network面板简述 如何打开NetWork面板控制台Network的作用面板组成请求列表请求列表每列&#xff1a;查看单个资源的详细信息查看HTTP头信息General部分&#xff1a;Response Headers&#xff08;响应头&#xff09;部分:Request Headers &#xff08;请求头&#…