L2正则化(Regularization)

article/2025/9/21 6:56:43

正则化(Regularization)

深度学习可能存在过拟合问题——高方差,有两个解决方法,一个是正则化,另一个是准备更多的数据,这是非常可靠的方法,但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高,但正则化通常有助于避免过拟合或减少你的网络误差,下面我们就来讲讲正则化的作用原理。

我们用逻辑回归来实现这些设想,求成本函数 J J J的最小值,它是我们定义的成本函数,参数包含一些训练数据和不同数据中个体预测的损失, w w w b b b是逻辑回归的两个参数, w w w是一个多维度参数矢量, b b b是一个实数。在逻辑回归函数中加入正则化,只需添加参数λ,也就是正则化参数,一会儿再详细讲。

λ 2 m \frac{\lambda}{2m} 2mλ乘以 w w w范数的平方,其中 ∥ w ∥ 2 2 \left\| w \right\|_2^2 w22 w w w的欧几里德范数的平方,等于 w j w_{j} wj j j j 值从1到 n x n_{x} nx)平方的和,也可表示为 w T w w^{T}w wTw,也就是向量参数 w w w 的欧几里德范数(2范数)的平方,此方法称为 L 2 L2 L2正则化,因为这里用了欧几里德范数,被称为向量参数 w w w L 2 L2 L2范数。

为什么只正则化参数 w w w?为什么不再加上参数 b b b 呢?你可以这么做,只是我习惯省略不写,因为 w w w通常是一个高维参数矢量,已经可以表达高偏差问题, w w w可能包含有很多参数,我们不可能拟合所有参数,而 b b b只是单个数字,所以 w w w几乎涵盖所有参数,如果加了参数 b b b,其实也没太大影响,因为 b b b只是众多参数中的一个,所以我通常省略不计,如果你想加上这个参数,完全没问题。

L 2 L2 L2正则化是最常见的正则化类型,你们可能听说过 L 1 L1 L1正则化, L 1 L1 L1正则化,加的不是 L 2 L2 L2范数,而是正则项 λ m \frac{\lambda}{m} mλ乘以 ∑ j = 1 n x ∣ w ∣ \sum_{j= 1}^{n_{x}}{|w|} j=1nxw ∑ j = 1 n x ∣ w ∣ \sum_{j =1}^{n_{x}}{|w|} j=1nxw也被称为参数 w w w向量的 L 1 L1 L1范数,无论分母是 m m m还是 2 m 2m 2m,它都是一个比例常量。

如果用的是 L 1 L1 L1正则化, w w w最终会是稀疏的,也就是说 w w w向量中有很多0,有人说这样有利于压缩模型,因为集合中参数均为0,存储模型所占用的内存更少。实际上,虽然 L 1 L1 L1正则化使模型变得稀疏,却没有降低太多存储内存,所以我认为这并不是 L 1 L1 L1正则化的目的,至少不是为了压缩模型,人们在训练网络时,越来越倾向于使用 L 2 L2 L2正则化。

我们来看最后一个细节, λ \lambda λ是正则化参数,我们通常使用验证集或交叉验证集来配置这个参数,尝试各种各样的数据,寻找最好的参数,我们要考虑训练集之间的权衡,把参数设置为较小值,这样可以避免过拟合,所以λ是另外一个需要调整的超级参数,这就是在逻辑回归函数中实现 L 2 L2 L2正则化的过程,如何在神经网络中实现 L 2 L2 L2正则化呢?

神经网络含有一个成本函数,该函数包含 W [ 1 ] W^{[1]} W[1] b [ 1 ] b^{[1]} b[1] W [ l ] W^{[l]} W[l] b [ l ] b^{[l]} b[l]所有参数,字母 L L L是神经网络所含的层数,因此成本函数等于 m m m个训练样本损失函数的总和乘以 1 m \frac{1}{m} m1,正则项为 λ 2 m ∑ 1 L ∣ W [ l ] ∣ 2 \frac{\lambda }{2m}{{\sum\nolimits_{1}^{L}{| {{W}^{[l]}}|}}^{2}} 2mλ1LW[l]2,我们称 ∣ ∣ W [ l ] ∣ ∣ 2 {||W^{\left[l\right]}||}^{2} W[l]2为范数平方,这个矩阵范数 ∣ ∣ W [ l ] ∣ ∣ 2 {||W^{\left[l\right]}||}^{2} W[l]2(即平方范数),被定义为矩阵中所有元素的平方求和,

我们看下求和公式的具体参数,第一个求和符号其值 i i i从1到 n [ l − 1 ] n^{[l - 1]} n[l1],第二个其 J J J值从1到 n [ l ] n^{[l]} n[l],因为 W W W是一个 n [ l ] × n [ l − 1 ] n^{[l]}\times n^{[l-1]} n[l]×n[l1]的多维矩阵, n [ l ] n^{[l]} n[l]表示 l l l 层单元的数量, n [ l − 1 ] n^{[l-1]} n[l1]表示第 l − 1 l-1 l1层隐藏单元的数量。

该矩阵范数被称作“弗罗贝尼乌斯范数”,用下标 F F F标注”,鉴于线性代数中一些神秘晦涩的原因,我们不称之为“矩阵 L 2 L2 L2范数”,而称它为“弗罗贝尼乌斯范数”,矩阵 L 2 L2 L2范数听起来更自然,但鉴于一些大家无须知道的特殊原因,按照惯例,我们称之为“弗罗贝尼乌斯范数”,它表示一个矩阵中所有元素的平方和。

该如何使用该范数实现梯度下降呢?

backprop计算出 d W ​ dW​ dW的值,backprop会给出 J J J对​ W W W的偏导数,实际上是​ W [ l ] W^{[l]} W[l],把​ W [ l ] W^{[l]} W[l]替换为​ W [ l ] W^{[l]} W[l]减去学习率乘以​ d W dW dW

这就是之前我们额外增加的正则化项,既然已经增加了这个正则项,现在我们要做的就是给 d W dW dW加上这一项 λ m W [ l ] \frac {\lambda}{m}W^{[l]} mλW[l],然后计算这个更新项,使用新定义的 d W [ l ] dW^{[l]} dW[l],它的定义含有相关参数代价函数导数和,以及最后添加的额外正则项,这也是 L 2 L2 L2正则化有时被称为“权重衰减”的原因。

我们用 d W [ l ] dW^{[l]} dW[l]的定义替换此处的 d W [ l ] dW^{[l]} dW[l],可以看到, W [ l ] W^{[l]} W[l]的定义被更新为 W [ l ] W^{[l]} W[l]减去学习率 α \alpha α 乘以backprop 再加上 λ m W [ l ] \frac{\lambda}{m}W^{[l]} mλW[l]

该正则项说明,不论 W [ l ] W^{[l]} W[l]是什么,我们都试图让它变得更小,实际上,相当于我们给矩阵W乘以 ( 1 − α λ m ) (1 - \alpha\frac{\lambda}{m}) (1αmλ)倍的权重,矩阵 W W W减去 α λ m \alpha\frac{\lambda}{m} αmλ倍的它,也就是用这个系数 ( 1 − α λ m ) (1-\alpha\frac{\lambda}{m}) (1αmλ)乘以矩阵 W W W,该系数小于1,因此 L 2 L2 L2范数正则化也被称为“权重衰减”,因为它就像一般的梯度下降, W W W被更新为少了 α \alpha α乘以backprop输出的最初梯度值,同时 W W W也乘以了这个系数,这个系数小于1,因此 L 2 L2 L2正则化也被称为“权重衰减”,以上就是在神经网络中应用 L 2 L2 L2正则化的过程。

为什么正则化有利于预防过拟合呢?(Why regularization reduces overfitting?)

为什么正则化有利于预防过拟合呢?为什么它可以减少方差问题?我们通过两个例子来直观体会一下。

左图是高偏差,右图是高方差,中间是**Just Right**

现在我们来看下这个庞大的深度拟合神经网络。我知道这张图不够大,深度也不够,但你可以想象这是一个过拟合的神经网络。这是我们的代价函数 J J J,含有参数 W W W b b b。我们添加正则项,它可以避免数据权值矩阵过大,这就是弗罗贝尼乌斯范数,为什么压缩 L 2 L2 L2范数,或者弗罗贝尼乌斯范数或者参数可以减少过拟合?

直观上理解就是如果正则化 λ \lambda λ设置得足够大,权重矩阵 W W W被设置为接近于0的值,直观理解就是把多隐藏单元的权重设为0,于是基本上消除了这些隐藏单元的许多影响。如果是这种情况,这个被大大简化了的神经网络会变成一个很小的网络,小到如同一个逻辑回归单元,可是深度却很大,它会使这个网络从过度拟合的状态更接近左图的高偏差状态。

但是 λ \lambda λ会存在一个中间值,于是会有一个接近“Just Right”的中间状态。

直观理解就是 λ \lambda λ增加到足够大, W W W会接近于0,实际上是不会发生这种情况的,我们尝试消除或至少减少许多隐藏单元的影响,最终这个网络会变得更简单,这个神经网络越来越接近逻辑回归,我们直觉上认为大量隐藏单元被完全消除了,其实不然,实际上是该神经网络的所有隐藏单元依然存在,但是它们的影响变得更小了。神经网络变得更简单了,貌似这样更不容易发生过拟合,因此我不确定这个直觉经验是否有用,不过在编程中执行正则化时,你实际看到一些方差减少的结果。

我们再来直观感受一下,正则化为什么可以预防过拟合,假设我们用的是 t a n h tanh tanh这样的双曲线激活函数。

g ( z ) g(z) g(z)表示 t a n h ( z ) tanh(z) tanh(z),我们发现如果 z 非常小,比如 z 只涉及很小范围的参数(图中原点附近的红色区域),这里我们利用了双曲正切函数的线性状态,只要 z z z可以扩展为这样的更大值或者更小值,激活函数开始变得非线性。

如果正则化参数λ很大,激活函数的参数会相对较小,如果 W W W很小,相对来说, z z z也会很小。

特别是,如果 z z z的值最终在这个范围内,都是相对较小的值, g ( z ) g(z) g(z)大致呈线性,每层几乎都是线性的,和线性回归函数一样。

如果每层都是线性的,那么整个网络就是一个线性网络,即使是一个非常深的深层网络,因具有线性激活函数的特征,最终我们只能计算线性函数,因此,它不适用于非常复杂的决策,以及过度拟合数据集的非线性决策边界,如同我们上面看到的过度拟合高方差的情况。

总结一下,如果正则化参数变得很大,参数 W W W很小, z z z也会相对变小,此时忽略 b b b的影响, z z z会相对变小,实际上, z z z的取值范围很小,这个激活函数,也就是曲线函数 t a n h tanh tanh会相对呈线性,整个神经网络会计算离线性函数近的值,这个线性函数非常简单,并不是一个极复杂的高度非线性函数,不会发生过拟合。

这就是 L 2 L2 L2正则化,它是我在训练深度学习模型时最常用的一种方法。


http://chatgpt.dhexx.cn/article/JLUMHCNj.shtml

相关文章

pytorch实现L2和L1正则化regularization的方法

pytorch实现L2和L1正则化的方法 目录 目录 pytorch实现L2和L1正则化的方法 1.torch.optim优化器实现L2正则化 2. 如何判断正则化作用了模型? 2.1 未加入正则化loss和Accuracy 2.1 加入正则化loss和Accuracy 2.3 正则化说明 3.自定义正则化的方法 3.1 自定…

L1正则化与L2正则化的区别

摘要 正则化的本质是在Cost Function中添加的p-范数。本文从正则化的本质p-范数入手,解释了L1正则化和L2正则化的区别。 正则化 在Cost Function上添加了正则化项,就能降低模型的过拟合程度,这就是正则化的作用。 关于正则化更细节的讲述&…

正则化的作用以及L1和L2正则化的区别

0 正则化的作用 正则化的主要作用是防止过拟合,对模型添加正则化项可以限制模型的复杂度,使得模型在复杂度和性能达到平衡。 常用的正则化方法有L1正则化和L2正则化。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些…

详解L1和L2正则化

大纲: L1和L2的区别以及范数相关知识对参数进行L1和L2正则化的作用与区别pytorch实现L1与L2正则化对特征进行L2正则化的作用 L1和L2的区别以及范数 使用机器学习方法解决实际问题时,我们通常要用L1或L2范数做正则化(regularization&#xf…

L1正则化和L2正则化的详细直观解释

正则化(Regularization) 转自:此处 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm,中文称作L1正则化和L2正则化,或者…

L1正则化和L2正则化讲解

L1正则化和L2正则化讲解 在机器学习实践过程中,训练模型的时候往往会出现过拟合现象,为了减小或者避免在训练中出现过拟合现象,通常在原始的损失函数之后附加上正则项,通常使用的正则项有两种:L1正则化和L2正则化。 L1…

L1正则化和L2正则化的区别

文章目录 前言一、L1和L2正则化是什么?二、区别三、其他问题 前言 在防止过拟合的方法中有L1正则化和L2正则化,那么这两者有什么区别呢? 一、L1和L2正则化是什么? L1和L2是正则化项,又叫做惩罚项,是为了限…

数据预处理之L1,L2正则化

一、L1、L2正则化概述 1. L1和L2的定义 L1正则化,又叫Lasso Regression 如下图所示,L1是向量各元素的绝对值之和 L2正则化,又叫Ridge Regression 如下图所示,L2是向量各元素的平方和,然后再求平方根 2.L1和L2的异同点 …

L1正则化和L2正则化

在机器学习以及深度学习中我们经常会看到正则化这一名词,下面就浅谈一下什么是正则化?以及正则化的意义所在? 一、什么是正则化? 正则化项 (又称惩罚项),惩罚的是模型的参数,其值恒为非负 λ是正则化系数&…

【应用】【正则化】L1、L2正则化

L1正则化的作用:特征选择从可用的特征子集中选择有意义的特征,化简机器学习问题。著名的LASSO(Least Absolute Shrinkage and Selection Operator)模型将L1惩罚项和线性模型结合,使用最小二乘代价函数。L1正则化导致模…

机器学习中正则化项L1和L2的直观理解

文章目录 正则化(Regularization)稀疏模型与特征选择的关系 L1和L2正则化的直观理解正则化和特征选择的关系为什么梯度下降的等值线与正则化函数第一次交点是最优解? L2正则化和过拟合的关系 正则化参数的选择L1正则化参数L2正则化参数 Refer…

微信小程序自定义授权弹框

前言 最近微信获取用户信息的接口有调整&#xff0c;就是这货&#xff1a;wx.getUserInfo(OBJECT)&#xff0c;文档描述如下&#xff1a; 此接口有调整&#xff0c;使用该接口将不再出现授权弹窗&#xff0c;请使用 <button open-type"getUserInfo"></but…

微信小程序组件 - 中间底部弹出输入弹框

GitHub Demo 地址: jh-weapp-demo 实现一些常用效果、封装通用组件和工具类 小程序码 一、 jh-input-alert 中间输入弹框&#xff0c;可设置最大输入长度&#xff0c;单行多行显示 单行 <jh-input-alert title输入框标题 placeholder请输入 maxlength10 bind:cancelcancel …

微信小程序展示弹窗的几种方式

小程序中展示弹窗有四种方式&#xff1a;showToast、showModal、showLoading、showActionSheet 官方文档链接 效果图 wxml <!-- 1.消息提示框 --> <button size"mini" bindtap"handleShowToast">ShowToast</button><!-- 2.模态对话…

微信小程序——小程序自己的页面弹框

微信小程序——小程序自己的页面弹框 1. 页面样式: 2.代码块 在这里插入代码片 &#xff08;一&#xff09;.wxml文件中给一个触发事件 <image src"../../img/icon-delete.png" bindtapdeleteCar data-id{{car.platecard}} class"icon"></imag…

微信小程序底部弹出框

微信小程序的底部弹出框 wxml <!-- 弹出框 start --> <view class"dialog_screen" bindtap"hideModal" wx:if"{{showModalStatus}}"></view> <view animation"{{animationData}}" class"dialog_attr_bo…

【微信小程序】小程序中的各种弹窗API

前言&#xff1a;小程序中提供了很多种快捷方便的弹窗API供开发者使用&#xff0c;例如wx.showToast&#xff0c;wx.showModal&#xff0c;wx.showActionSheet&#xff0c;wx.showLoading还有wxml中的loading标签。 一、直接上代码 <!-- test.wxml --> <view class&q…

小程序带输入框的弹窗

老规矩&#xff0c;直接上代码 <block wx:if"{{isShowConfirm}}"><view classtoast-box><view classtoastbg></view><view classshowToast><view classtoast-title><text>确认支付</text></view><view cla…

微信小程序 自定义弹框组件

话不多说直接上代码 目录 1、wxml 2、js 3、wxss 4、json 5、效果展示&#xff08;具体内容可以自定义&#xff09; 1、wxml <!--pages/components/confirmBox/confirmBox.wxml--> <wxs src"../../../filter/urlFilter.wxs" module"filter"…

微信小程序——点击某个按钮实现下面弹窗的出现

效果图:(真的是图) wxml(代码里面有解释&#xff09; <button type"primary" bindtap"Popup">点我</button> <!--点击后灰色背景的设置--> <view wx:if"{{now_state}}" class"background" bindtap"hideM…