GELU激活函数

article/2025/9/26 17:27:21

最近看bert论文,发现用的是GELU激活函数,找出来看看

  • 论文:GAUSSIAN ERROR LINEAR UNITS (GELUS)
  • 项目:https://github.com/hendrycks/GELUs

ABSTRACT

本文提出了高斯误差线性单元(GELU),一个高性能的神经网络激活函数。GELU激活函数为 x Φ ( x ) xΦ(x) xΦ(x),其中 Φ ( x ) Φ(x) Φ(x)为标准高斯累积分布函数。GELU非线性根据输入的值来权重,而不是像ReLUs( x 1 x > 0 x1_{x>0} x1x>0)那样通过符号来门输入。本文对ReLU和ELU激活的GELU非线性进行了实证评估,发现在计算机视觉、自然语言处理和语音任务都有性能改进。

1.INTRODUCTION

早期的人工神经元使用二元阈值单位(Hopfield,1982)。这些硬的二进制决策被s型激活来平滑,使神经元能够有一个“放电率”的解释,并通过反向传播进行训练。但随着网络的越来越深入,s型激活训练被证明不如非平滑、概率较低的ReLU(Nair&Hinton,2010),后者根据输入的符号做出hard门控决策。尽管随着网络变得更深,但ReLU仍然是一个具有竞争力的工程解决方案,它通常能够比s型符号更快更好地收敛。在ReLUs成功的基础上,最近一种名为ELUs的修正阳离子(Clevertetal.,2016)允许类似relu的非线性能够输出负值,有时会提高训练速度。总之,激活选择仍然是神经网络必要的结构决策,避免网络是一个深度线性分类器。

深度非线性分类器可以很好地拟合他们的数据,以至于网络设计者经常面临包括随机正则化的选择,比如向隐藏层添加噪声或应用dropout(Srivastavaetal.,2014),而且这种选择仍然与激活函数分离。一些随机正则化器可以使网络表现得像一个网络集合,一个伪集成(Bachmanetal.,2014)可以导致显著的精度提高。例如,随机正则化dropout通过通过零乘法随机改变一些激活决策来创建一个伪集成。非线性和dropout共同决定了一个神经元的输出,但这两种创新仍然是不同的。此外,两者都不包含另一种,因为流行的随机正则化分别与输入无关,而非线性得到了这些正则化的帮助。

在本文中,引入了一种新的非线性,高斯误差线性单元(GELU)。它与随机正则化有关,因为它是对自适应dropout修改的期望(Ba&Frey,2013)。这表明了对神经元输出的更有概率的观点。我们发现,在计算机视觉、自然语言处理和自动语音识别等领域,新型非线性激活函数达到的性能与relu或elu相匹配或更胜一筹。

2 GELU FORMULATION

我们通过结合来自dropout、区域输出和relu的属性来激发提出新型激活函数。首先注意到,ReLU和dropout都产生一个神经元的输出,ReLU确定地将输入乘以0或1,dropout随机乘以零。此外,一种名为区域输出的新的RNN正则化(zoneout)会随机乘以输入(Krueger等人,2016)。我们通过将输入乘以0或1来合并这个功能,但是这个zero-one掩模的值是随机确定的,同时也依赖于输入。具体来说,可以将神经元输入 x x x乘以 m ∼ B e r n o u l l i ( Φ ( x ) ) m∼Bernoulli(Φ(x)) mBernoulli(Φ(x)),其中 Φ ( x ) = P ( X ≤ x ) N ( 0 , 1 ) Φ(x)=P(X≤x) ~ N(0, 1) Φ(x)=P(Xx) N(0,1)为标准正态分布的累积分布函数。我们选择这种分布是因为神经元输入倾向于遵循正态分布,特别是与批归一化。在这种情况下,随着x的减小,输入被“下降”的概率更高,因此应用于x的变换是随机的,但却取决于输入。

包含非确定性,但保持对输入值的依赖性。一个随机选择的掩模相当于输入的随机零或身份变换,这很像自适应dropout,但自适应dropout是与非线性一起使用,并使用逻辑函数而非标准的正态分布。本文发现,可以仅使用这个随机正则化训练MNIST和TIMIT网络就能取得比较好的效果,且不使用任何非线性。
在这里插入图片描述

我们通常想要一个来自神经网络的确定性判断,这就产生了本文提出新的非线性。非线性是随机正则化在输入 x x x上的期望变换,即 Φ ( x ) × I x + ( 1 − Φ ( x ) ) × 0 x = x Φ ( x ) Φ(x)×Ix+(1−Φ(x))×0x=xΦ(x) Φ(x)×Ix+(1Φ(x))×0x=xΦ(x)。简单地说,这个表达式表示放大输入x。由于高斯误差的累积分布函数通常用误差函数计算,因此将高斯误差线性单位(GELU)定义为

G E L U ( x ) = x P ( X ≤ x ) = x Φ ( x ) = x ⋅ 1 2 [ 1 + e r f ( x / √ 2 ) ] GELU(x) = xP(X ≤ x) = xΦ(x) = x · \frac{1}{2} [ 1 + erf(x/√ 2)] GELU(x)=xP(Xx)=xΦ(x)=x21[1+erf(x/2)]
我们可以用下面式子表示:
0.5 x ( 1 + t a n h [ 2 / π ( x + 0.044715 x 3 ) ] ) 0.5x(1 + tanh[\sqrt{2/π}(x + 0.044715x^3)]) 0.5x(1+tanh[2/π (x+0.044715x3)])
或者
x σ ( 1.702 x ) xσ(1.702x) xσ(1.702x)

更快的前馈速度一般会导致精度的降低。
我们可以使用不同的cdf。例如,可以使用逻辑分布CDF σ ( x ) σ(x) σ(x)来得到 Sigmoid Linear Unit (SiLU) $ xσ(x)$。可以使用CDF N ( µ , σ 2 ) N(µ,σ2) N(µσ2),并使µσ是可学习的超参数,但在整个工作过程中,简单地让µ=0σ=1。因此,在接下来的实验中没有引入任何新的超参数。在下一节中,将展示GELU在许多任务中的表现超过了ReLUs和ELUs。

3 GELU EXPERIMENTS

本文在以下任务中评测了GELU,ELU和ReLU的性能:

  • MNIST分类(包含10个类、60k训练示例和10k测试示例)
  • MNIST 自动编码器
  • Tweet上的部分语音标签(1000条训练、500条测试样本)
  • TIMIT帧识别(3696条训练、1152个验证、192个测试音频句)
  • CIFAR-10/100分类(10/100类、50k训练和10k测试示例的彩色图像)
    本文没有评估像LReLU这样的非线性,因为它与ReLUs相似。

3.1 MNIST CLASSIFICATION

在这里插入图片描述
在这里插入图片描述
通过复制Clevert等人的实验来验证这种非线性与之前的激活函数的表现。(2016)。为此,用GELUs(µ=0,σ=1)、ReLUs和ELUs(α=1)训练了一个全连接的神经网络。8层,每层128个神经元的神经网络被训练50个时代,BatchSize大小为128。这个实验不同于Clevert等人。在此过程中,使用了Adam优化器(Kingma&Ba,2015),而不是没有动量的随机梯度下降(SGD),此外还展示了非线性如何很好地应对dropout。权重用归一化范数行初始化,因为这对每个非线性的性能都有积极影响(Hendrycks&Gimpel,2016;Mishkin&Matas,2016;Saxe等人,2014)。使用来自训练集中的500个验证示例来调整学习速率 1 0 − 3 、 1 0 − 4 、 1 0 − 5 {10^{−3}、10^{−4}、10^{−5}} 103104105,并取5次运行的中位数结果。使用这些分类器,在图3中演示了使用GELU的分类器可以对噪声输入具有更强的鲁棒性。图2显示,无论s是否使用dropout还是不使用dropout,GELU的中位数训练对数损失往往是最低的。因此,尽管GELU的灵感来自于一个不同的随机过程,但它与退出很吻合。

3.2 MNIST AUTOENCODER

在这里插入图片描述

现在假设一个自监督设置,并在MNIST上训练一个深层自编码器。为了实现这一点,使用了一个层宽度为1000、500、250、30、30、250、500、1000的网络。再次使用Adam优化器和BatchSize为64,损失函数是均方损失。将学习率从 1 0 − 3 10^{−3} 103变化到 1 0 − 4 10^{−4} 104,也尝试了0.01的学习率,结果表明ELUs是发散,GELUs和RELUs收敛较差。图4中的结果表明,GELU适应不同的学习率,并显著优于其他非线性。

3.3 TWITTER POS TAGGING

自然语言处理中的许多数据集相对较小,因此从少数例子中很好地推广激活是很重要的。为了应对这一挑战,比较了 tweet的非线性(Gimpel等人,2011;Owoputi等人,2013),其中包含25个标签。推文标记只是一个两层网络,预先训练的单词向量在5600万条推文库上训练的单词向量(Owoputietal.,2013)。输入是被标记的词的向量与其左右相邻词的向量的连接。每一层有256个神经元,dropout保持概率为0.8,使用Adam优化网络,同时调整学习速率 1 0 − 3 , 1 0 − 4 , 1 0 − 5 {10^{−3},10^{−4},10^{−5}} 103,104,105。我们对每个学习率每个网络训练5次,GELU的中值测试集误差为12.57%,ReLU为12.67%,ELU为12.91%。

3.4 TIMIT FRAME CLASSIFICATION

在这里插入图片描述

这次挑战是使用TIMIT数据集进行电话识别,该数据集在一个无噪音的环境下有680个扬声器的录音。该系统是一个五层,宽度为2048个神经元的分类器,如(Mohamed等人,2012),有39个输出电话标签,dropout概率为0.5,如(Srivastava,2013)。这个网络以11帧作为输入,必须预测中心的电话。每帧使用26个MFCC、幅度和导数特征。调优了学习速率 1 0 − 3 , 1 0 − 4 , 1 0 − 5 {10^{−3},10^{−4},10^{−5}} 103,104,105,并使用Adam进行优化。每次设置后迭代5次,得到图5中的中值曲线,GELU最低验证误差选择的中值检验误差为29.3%,ReLU为29.5%,ELU为29.6%。

3.5 CIFAR-10/100 CLASSIFICATION

在这里插入图片描述

接下来,证明了对于更复杂的架构,GELU的非线性再次优于其他非线性。分别使用CIFAR-10和CIFAR-100数据集(Krizhevesk,2009)在浅层和深层卷积神经网络上评估这种激活函数。
浅层卷积神经网络是一个9层的网络,与saliman&Kingma(2016)的网络架构和训练程序一样,同时使用批归一化(BN)来加快训练速度。该架构在附录A中描述,没有使用数据增强来训练这个网络。用5k个验证示例调优学习初始速率 1 0 − 3 , 1 0 − 4 , 1 0 − 5 {10^{−3},10^{−4},10^{−5}} 103,104,105,然后根据交叉验证的学习率再次对整个训练集进行训练。用Adam优化了网络,共运行200个epoch,在第100个epoch,学习速率线性衰减为零。结果如图6所示,每条曲线都是三次运行的中位数。最终,GELU得到的中值错误率为7.89%,ReLU为8.16%,ELU得到8.41%。
接下来,考虑在CIFAR-100上运行一个宽的残差网络,有40层,拓宽因子为4(Zagoruyko&Komodakis,2016)。用内斯特洛夫动量(洛什奇洛夫&Hutter,2016)(T0=50,η=0.1)中描述的学习速率时间表来训练50个epoch,dropout保持概率为0.7。一些研究者注意到,ELUs在残差网络中有梯度爆炸性问题(Shahetal.,2016),这可以通过在残差块末端进行批归一化得到缓解。因此,我们使用了一个连续激活-连续激活-批归一化体系结构来改善ELUs。经过三次运行,得到了图7中的中值收敛曲线。GELU的中值误差为20.74%,ReLU获得21.77%,ELU获得22.98%。

4 DISCUSSION

在几个实验中,GELU优于以前的非线性,但它在其他方面似乎接近ReLU和ELU。例如,当 σ → 0 σ→0 σ0,如果 µ = 0 µ=0 µ=0,GELU将成为一个ReLU。此外,ReLU和GELU渐近相等。事实上,GELU可以被视为一种平滑ReLU的方法,记住 R e L U = m a x ( x , 0 ) = x 1 ( x > 0 ) ( 其 中 1 为 指 示 函 数 ) ReLU=max(x,0)=x1(x>0)(其中1为指示函数) ReLU=max(x0)=x1(x>0)(1),而如果 µ = 0 , σ = 1 µ=0,σ=1 µ=0,σ=1,GELU为 x Φ ( x ) xΦ(x) xΦ(x)。然后CDF是ReLU使用的二进制函数的平滑近似,比如s型平滑二进制阈值激活。与ReLU不同,GELU和ELU既可以是阴性的,也可以是阳性的。事实上,如果使用标准柯西分布的累积分布函数,将线向下移动 1 / π 1/π 1/π,那么ELU(当α=1/π)渐近等于 x P ( C ≤ x ) , C ∼ C a u c h y ( 0 , 1 ) xP(C≤x),C∼ Cauchy(0, 1) xP(Cx)CCauchy(0,1)的负值和正值是 x P ( C ≤ x ) xP(C≤x) xP(Cx),这些都表明GELu与以前的非线性之间的一些基本关系。
然而,GELU有几个显著的差异。这个非凸、非单调的函数在正域上不是线性的,在所有点上都表现出曲率。同时,凸激活和单调激活的EeLUs和ELUs在正域上是线性的,因此可能缺乏曲率。因此,增加的曲率和非单调性可能使基因比ReLUs或ELUs更容易近似复杂的函数。此外,由 R e L U ( x ) = x 1 ( x > 0 ) ReLU(x)=x1(x>0) ReLU(x)=x1(x>0) G E L U ( x ) = x Φ ( x ) GELU(x)=xΦ(x) GELU(x)=xΦ(x),如果 µ = 0 , σ = 1 µ=0,σ=1 µ=0σ=1,可以看到ReLU打开输入的符号依赖于它,而GELU对输入的权重取决于它比其他输入的大小。此外,更重要的是,GELU有一个概率解释,因为它是一个随机正则化器的期望。
此外还有两个使用GELU的实用技巧。首先,建议在使用GELU训练时使用具有动量的优化器,这是深度神经网络的标准。其次,使用对高斯分布的累积分布函数的密切近似是很重要的。一个s型函数 σ ( x ) = 1 / ( 1 + e − x ) σ(x)=1/(1+e^{−x}) σ(x)=1/(1+ex)是一个正态分布的累积分布函数的近似值。然而,我们发现西格莫德线性单元(SiLU) x σ ( x ) xσ(x) xσ(x)比GELUs差,但通常比ReLUs和ELUs好,所以SiLU也是一个合理的非线性选择。本文没有使用 x σ ( x ) xσ(x) xσ(x)来近似 Φ ( x ) Φ(x) Φ(x),而是使用 0.5 x ( 1 + t a n h [ 2 / π ( x + 0.044715 x 3 ) ) 0.5x(1+tanh[\sqrt{2/π}(x+0.044715x^{3})) 0.5x(1+tanh[2/π (x+0.044715x3))(choury(2014)或 x σ ( 1.702 x ) xσ(1.702x) xσ(1.702x)。两者都是足够快、易于实现的近似。本文的每个实验中都使用了前者。

5. CONCLUSION

对于本文中评估的众多数据集,GELU始终超过了ELU和ReLU的准确性,使其成为以前非线性的可行替代方案。

REFERENCES

  • Jimmy Ba and Brendan Frey. Adaptive dropout for training deep neural networks. In Neural Information Processing Systems, 2013.
  • Philip Bachman, Ouais Alsharif, and Doina Precup. Learning with pseudo-ensembles. In Neural
    Information Processing Systems, 2014.
  • Amit Choudhury. A simple approximation to the area under standard normal curve. In Mathematicsand Statistics, 2014.
  • Djork-Arn´e Clevert, Thomas Unterthiner, and Sepp Hochreiter. Fast and accurate deep network
    learning by exponential linear units (ELUs). In International Conference on Learning Representations, 2016.
  • Guillaume Desjardins, Karen Simonyan, Razvan Pascanu, and Koray Kavukcuoglu. Natural neural networks. In arXiv, 2015.
  • Kevin Gimpel, Nathan Schneider, Brendan O0 Connor, Dipanjan Das, Daniel Mills, Jacob Eisenstein, Michael Heilman, Dani Yogatama, Jeffrey Flanigan, and Noah A. Smith. Part-of-Speech Tagging for Twitter: Annotation, Features, and Experiments. Association for Computational Linguistics (ACL), 2011.
  • Dan Hendrycks and Kevin Gimpel. Adjusting for dropout variance in batch normalization and
    weight initialization. In arXiv, 2016.
  • John Hopfield. Neural networks and physical systems with emergent collective computational abilities. In Proceedings of the National Academy of Sciences of the USA, 1982.
  • Diederik Kingma and Jimmy Ba. Adam: A Method for Stochastic Optimization. International
    Conference for Learning Representations, 2015.
  • Alex Krizhevsky. Learning Multiple Layers of Features from Tiny Images, 2009.
  • David Krueger, Tegan Maharaj, Jnos Kram´ar, Mohammad Pezeshki, Nicolas Ballas, Nan Rosemary Ke1, Anirudh Goyal, Yoshua Bengio, Hugo Larochelle, Aaron Courville, and Chris Pal. Zoneout: Regularizing RNNs by randomly preserving hidden activations. In Neural Information Processing Systems, 2016.
  • Ilya Loshchilov and Frank Hutter. SGDR: Stochastic gradient descent with restarts. arXiv, 2016.
  • Andrew L. Maas, Awni Y. Hannun, , and Andrew Y. Ng. Rectifier nonlinearities improve neural network acoustic models. In International Conference on Machine Learning, 2013.
  • Warren S. McCulloch and Walter Pitts. A logical calculus of the ideas immanent in nervous activity. In Bulletin of Mathematical Biophysics, 1943.
  • Dmytro Mishkin and Jiri Matas. All you need is a good init. In International Conference on Learning Representations, 2016.
  • Abdelrahman Mohamed, George E. Dahl, and Geoffrey E. Hinton. Acoustic modeling using deep belief networks. In IEEE Transactions on Audio, Speech, and Language Processing, 2012.
  • Vinod Nair and Geoffrey E. Hinton. Rectified linear units improve restricted boltzmann machines. In International Conference on Machine Learning, 2010.
  • Olutobi Owoputi, Brendan O’Connor, Chris Dyer, Kevin Gimpel, Nathan Schneider, and Noah A. Smith. Improved part-of-speech tagging for online conversational text with word clusters. In North American Chapter of the Association for Computational Linguistics (NAACL), 2013. 7
  • Tim Salimans and Diederik P. Kingma. Weight normalization: A simple reparameterization to accelerate training of deep neural networks. In Neural Information Processing Systems, 2016.
  • Andrew M. Saxe, James L. McClelland, and Surya Ganguli. Exact solutions to the nonlinear dynamics of learning in deep linear neural networks. In International Conference on Learning Representations, 2014.
  • Anish Shah, Sameer Shinde, Eashan Kadam, Hena Shah, and Sandip Shingade. Deep residual networks with exponential linear unit. In Vision Net, 2016.
  • Nitish Srivastava. Improving neural networks with dropout. In University of Toronto, 2013.
  • Nitish Srivastava, Geoffrey E. Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: A simple way to prevent neural networks from overfitting. In Journal of Machine Learning Research, 2014.
  • Sergey Zagoruyko and Nikos Komodakis. Wide residual networks. British Machine Vision Conference, 2016.

Append

在这里插入图片描述


http://chatgpt.dhexx.cn/article/GSydCVqi.shtml

相关文章

神经网络中的激活函数

文章目录 引言什么是激活函数?为什么我们要在神经网络中使用激活函数?线性激活函数非线性激活函数1. Sigmoid(逻辑激活函数)2. Tanh(双曲正切激活函数)3. ReLU(线性整流单元)激活函数…

激活函数简述

1、激活函数的作用 1.不带激活函数的单层感知机是一个线性分类器,不能解决线性不可分的问题 2.合并后的多个感知器本质上还是一个线性分类器,还是解决不了非线性的问题 3.激活函数是用来加入非线性因素的,提高神经网络对模型的表达能力&a…

常用激活函数

文章目录 前言为什么需要激活函数什么样的函数可以做激活函数什么样的函数是好的激活函数常用激活函数sigmoidtanhReLULeaky ReLURandomized Leaky ReLUMaxout 参考文章 前言 今天这篇文章对一些常用激活函数做一下总结吧。在神经网络中激活函数还是很重要的,并且熟…

激活函数

深度学习中的激活函数导引 我爱机器学习(52ml.net) 2016年8月29日 0 作者:程程 链接:https://zhuanlan.zhihu.com/p/22142013 来源:知乎 著作权归作者所有,已联系作者获得转载许可。 深度学习大讲堂致力于推送人工智能&#xff0c…

详解激活函数

文章目录 0️⃣前言1️⃣Sigmoid2️⃣tanh3️⃣Relu4️⃣Leaky Relu5️⃣Softmax6️⃣总结 0️⃣前言 用了这么久的激活函数,抽空总结一下吧,不然总是忘记,这里介绍常用到的sigmoid,tanh,relu,leaky relu&…

常用激活函数(激励函数)理解与总结

引言 学习神经网络的时候我们总是听到激活函数这个词,而且很多资料都会提到常用的激活函数,比如Sigmoid函数、tanh函数、Relu函数。那么我们就来详细了解下激活函数方方面面的知识。本文的内容包括几个部分: 什么是激活函数?激活…

常用激活函数总结(深度学习)

前言   学习神经网络的时候我们总是听到激活函数这个词,而且很多资料都会提到常用的激活函数,比如Sigmoid函数、tanh函数、Relu函数。在经过一段时间学习后,决定记录个人学习笔记。 一、激活函数 1.激活函数定义?   在神经网…

【概念梳理】激活函数

一、引言 常用的激活函数如下: 1、Sigmoid函数 2、Tanh函数 3、ReLU函数 4、ELU函数 5、PReLU函数 6、Leaky ReLU函数 7、Maxout函数 8、Mish函数 二、激活函数的定义 多层神经网络中,上层节点的输出和下层节点的输入之间具有一个函数关系,…

一文搞懂激活函数

目录 1、什么是激活函数 2、激活函数的用途(为什么需要激活函数)? 3、常见的激活函数介绍 3.1 Sigmoid函数 3.2 tanh函数 3.3.RelU函数 3.4 Leaky ReLU函数 和 PReLU 函数 --- ReLU 变体的提出 3.5 ELU (Exponential Linear Units) 函…

激活函数(Relu,sigmoid,Tanh,softmax)详解

目录 1 激活函数的定义 2 激活函数在深度学习中的作用 3 选取合适的激活函数对于神经网络有什么样的重要意义 4 常用激活函数 4.1 Relu 激活函数 4.2 sigmoid 激活函数 4.3 Tanh激活函数 4.4 softmax 激活函数 1 激活函数的定义 激活函数(Activation Funct…

激活函数(Activation Function)

目录 1 激活函数的概念和作用 1.1 激活函数的概念 1.2 激活函数的作用 1.3 通俗的理解一下激活函数(图文结合) 1.3.1 无激活函数的神经网络 1.3.2 带激活函数的神经网络 2 神经网络梯度消失与梯度爆炸 2.1 简介梯度消失与梯度爆炸 2.2 梯度不稳定问题 2.3 产生梯度消…

常用的激活函数合集(详细版)

目录 一、定义以及作用 二、常用激活函数解析 1、Sigmoid函数 1.1 公式 1.2 对应的图像 1.3 优点与不足之处 1.4 对应pytorch的代码 2、Tanh函数 2.1 公式 2.2 对应的图像 2.3 优点与不足之处 2.4 对应pytorch的代码 3、ReLU 3.1 公式 3.2 对应的图像 3.3 优点与不…

优化算法——FTRL

ctr预测中,单个样本由向量x表示,w是模型参数,预测样本x被点击的概率psigmoid(w * x),sigmoid(x) 1/(1exp(x))。样本label为{0, 1}表示是否被点击。模型损失函数为交叉熵损失: L -ylog - (1-y)log(1-p),梯…

【深度学习】优化算法-Ftrl

脑图 代码实现 DO WHAT THE FUCK YOU WANT TO PUBLIC LICENSEVersion 2, December 2004Copyright (C) 2004 Sam Hocevar <samhocevar.net>Everyone is permitted to copy and distribute verbatim or modified copies of this license document, and changing it is all…

谷歌13年提出来的类似于lr的算法 - ftrl论文翻译(七)

论文链接&#xff1a;https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/41159.pdf 概要 预测广告点击率&#xff08;CTR&#xff09;是一个巨大的规模学习问题&#xff0c;是在线广告业数十亿美元的核心问题。 我们从最近的实验中选择出…

FTRL 算法

本文会尝试总结FTRL的发展由来&#xff0c;总结从LR -> SGD -> TG -> FOBOS -> RDA -> FTRL 的发展历程。本文的主要目录如下&#xff1a; 一、 反思魏则西事件。 二、 LR模型 三、 SGD算法 四、 TG算法 五、 FOBOS算法 六、 RDA算法 七、 FTRL算法 注&…

排序模型进阶-FMFTRL

日萌社 人工智能AI&#xff1a;Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战&#xff08;不定时更新&#xff09; 5.8 排序模型进阶-FM&FTRL 学习目标 目标 无应用 无 5.8.1 问题 在实际项目的时候&#xff0c;经常会遇到训练数据非常大导致一些算法实际…

以我视角深入理解FTRL模型原理

以我视角深入理解FTRL模型原理 FTRL算法是吸取了FOBOS算法和RDA算法的优点而衍生而来的算法。 1.FOBOS算法 小结&#xff1a; 2. RDA算法 RDA也叫正则对偶平均算法&#xff0c;特征权重更新如下&#xff1a; 小结&#xff1a; 3.FTRL算法原理 从loss function的形式来看&am…

FTRL实战之LR+FTRL(代码采用的稠密数据)

理解要点&#xff1a;主要是梯度更新的方法使用了FTRL。即更改了梯度的update函数。 相关参考&#xff1a;https://github.com/wan501278191/OnlineLearning_BasicAlgorithm/blob/master/FTRL.py FTRL&#xff08;Follow The Regularized Leader&#xff09;是一种优化…

DL基本知识(七)FTRL优化器

契机 最近工作方向为缩减模型规模&#xff0c;切入点为L1正则化&#xff0c;选择该切入点的理由如下&#xff0c; 众所周知&#xff0c;L1正则化能令权重矩阵更稀疏。在推荐系统中特征多为embedding&#xff0c;权重矩阵稀疏意味着一些embedding_weight为0&#xff0c;模型部…