激活函数简介

article/2025/9/27 5:41:03

1、什么是激活函数?

单一神经元模型展示:

这里写图片描述

神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值,并将输入值传入下一层,输入层神经元节点会将属性值直接传递给下一层(隐层或输出层)。在多层神经网络中,上节点的输出和下层节点的输入之间具有一个函数关系,这个函数称为激活函数(又叫激励函数)

2、为什么需要激活函数?

神经网络中,如果不加入激活函数,那么每一层的输入输出都是函数均是线性的,网络的逼近能力有限,于是就引入非线性函数作为激活函数,使网络的表达能力更强。

3、有哪些激活函数?

第一个:sigmoid函数

公式:

图像:

这里写图片描述

 

特点:

变换输出区间[0,1],特别的如果出现很大的负数,则输出为0;如果输出很大的正数,则输出为1。

缺点:

1】神经网络在反向传播时,会出现梯度爆炸和梯度消失,梯度爆炸概率小,梯度消失概率大。

 如果我们初始化神经网络的权值为 [ 0 , 1 ] [0,1][0,1] 之间的随机值,由反向传播算法的数学推导可知,梯度从后向前传播时,每传递一层梯度值都会减小为原来的0.25倍,如果神经网络隐层特别多,那么梯度在穿过多层后将变得非常小接近于0,即出现梯度消失现象;当网络权值初始化为 ( 1 , + ∞ ) (1,+∞)(1,+∞) 区间内的值,则会出现梯度爆炸情况。

2】sigmoid的输出层不是0均值(zero-centered),会导致后一层的神经元将上一层输出的非0均值的信号作为输入。 产生的一个结果就是:那么对w求局部梯度则都为正,这样在反向传播的过程中w要么都往正方向更新,要么都往负方向更新,导致有一种捆绑的效果,使得收敛缓慢。 当然了,如果按batch去训练,那么那个batch可能得到不同的信号,所以这个问题还是可以缓解一下的。因此,非0均值这个问题虽然会产生一些不好的影响,不过跟上面提到的梯度消失问题相比还是要好很多的。

3】含有幂运算,耗时。

 第二个:tanh函数

公式:

函数 图像及导数

tanh(x)及其导数的几何图像

 

tanh全称叫做Hyperbolic Tangent。

tanh的出现解决了sigmoid的非0均值,但是梯度消失和梯度爆炸问题还是没有很好的解决。

第三个:Relu函数

公式:

 函数图像和导数图像:

这里写图片描述

 优点:

1) 解决了gradient vanishing问题 (在正区间)
2)计算速度非常快,只需要判断输入是否大于0
3)收敛速度远快于sigmoid和tanh

注意问题:

1)ReLU的输出不是zero-centered
2)Dead ReLU Problem,指的是某些神经元可能永远不会被激活,导致相应的参数永远不能被更新。有两个主要原因可能导致这种情况产生: (1) 非常不幸的参数初始化,这种情况比较少见 (2) learning rate太高导致在训练过程中参数更新太大,不幸使网络进入这种状态。解决方法是可以采用Xavier初始化方法,以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法。

尽管存在这两个问题,ReLU目前仍是最常用的activation function,在搭建人工神经网络的时候推荐优先尝试!

第四个:Leaky Relu函数

公式:

 函数图像和导数图像:

这里写图片描述

 

解决了Dead Relu Promble。

理论上来讲,Leaky ReLU有ReLU的所有优点,外加不会有Dead ReLU问题,但是在实际操作当中,并没有完全证明Leaky ReLU总是好于ReLU。

以上借鉴:

(19条消息) 常用激活函数(激励函数)理解与总结_tyhj_sf的博客空间-CSDN博客_激活函数

感谢大佬分享


http://chatgpt.dhexx.cn/article/1WTFEicV.shtml

相关文章

激活函数maxout

激活函数maxout 系列文章:maxout函数相对于其他的激活函数有很大的区别,可以看做是在神经网络中激活函数的地方加入一个激活函数层。 maxout可以看做是一个可学习的分段线性函数,因为可学习所以是需要参数的,而且参数是可以通过反向传播来学习的。因为参数量的增大,势必导…

激活函数总结

一、引入激活函数的目的 图1:带一层隐藏层的神经网络 先看一个只含一层隐藏层的神经网络,如图1所示。输入为 n 条样本X,隐藏层H的权重和偏置分别为W_h,b_o,输出层O的权重和偏置分别为W_o,b_o。输出层的计算…

机器学习(14)——激活函数

文章目录 1 定义2 激活函数的必要性3 常用的激活函数3.1 单位阶跃函数3.2 Logistic函数3.3 Tanh函数3.4 ReLU函数3.5 LeakyReLU函数3.6 Softmax函数 4 选择恰当的激活函数 1 定义 激活函数 (Activation functions) 对于人工神经网络模型去学习、理解非常复杂和非线性的函数来说…

GELU激活函数

最近看bert论文,发现用的是GELU激活函数,找出来看看 论文:GAUSSIAN ERROR LINEAR UNITS (GELUS)项目:https://github.com/hendrycks/GELUs ABSTRACT 本文提出了高斯误差线性单元(GELU),一个高性能的神经网络激活函数…

神经网络中的激活函数

文章目录 引言什么是激活函数?为什么我们要在神经网络中使用激活函数?线性激活函数非线性激活函数1. Sigmoid(逻辑激活函数)2. Tanh(双曲正切激活函数)3. ReLU(线性整流单元)激活函数…

激活函数简述

1、激活函数的作用 1.不带激活函数的单层感知机是一个线性分类器,不能解决线性不可分的问题 2.合并后的多个感知器本质上还是一个线性分类器,还是解决不了非线性的问题 3.激活函数是用来加入非线性因素的,提高神经网络对模型的表达能力&a…

常用激活函数

文章目录 前言为什么需要激活函数什么样的函数可以做激活函数什么样的函数是好的激活函数常用激活函数sigmoidtanhReLULeaky ReLURandomized Leaky ReLUMaxout 参考文章 前言 今天这篇文章对一些常用激活函数做一下总结吧。在神经网络中激活函数还是很重要的,并且熟…

激活函数

深度学习中的激活函数导引 我爱机器学习(52ml.net) 2016年8月29日 0 作者:程程 链接:https://zhuanlan.zhihu.com/p/22142013 来源:知乎 著作权归作者所有,已联系作者获得转载许可。 深度学习大讲堂致力于推送人工智能&#xff0c…

详解激活函数

文章目录 0️⃣前言1️⃣Sigmoid2️⃣tanh3️⃣Relu4️⃣Leaky Relu5️⃣Softmax6️⃣总结 0️⃣前言 用了这么久的激活函数,抽空总结一下吧,不然总是忘记,这里介绍常用到的sigmoid,tanh,relu,leaky relu&…

常用激活函数(激励函数)理解与总结

引言 学习神经网络的时候我们总是听到激活函数这个词,而且很多资料都会提到常用的激活函数,比如Sigmoid函数、tanh函数、Relu函数。那么我们就来详细了解下激活函数方方面面的知识。本文的内容包括几个部分: 什么是激活函数?激活…

常用激活函数总结(深度学习)

前言   学习神经网络的时候我们总是听到激活函数这个词,而且很多资料都会提到常用的激活函数,比如Sigmoid函数、tanh函数、Relu函数。在经过一段时间学习后,决定记录个人学习笔记。 一、激活函数 1.激活函数定义?   在神经网…

【概念梳理】激活函数

一、引言 常用的激活函数如下: 1、Sigmoid函数 2、Tanh函数 3、ReLU函数 4、ELU函数 5、PReLU函数 6、Leaky ReLU函数 7、Maxout函数 8、Mish函数 二、激活函数的定义 多层神经网络中,上层节点的输出和下层节点的输入之间具有一个函数关系,…

一文搞懂激活函数

目录 1、什么是激活函数 2、激活函数的用途(为什么需要激活函数)? 3、常见的激活函数介绍 3.1 Sigmoid函数 3.2 tanh函数 3.3.RelU函数 3.4 Leaky ReLU函数 和 PReLU 函数 --- ReLU 变体的提出 3.5 ELU (Exponential Linear Units) 函…

激活函数(Relu,sigmoid,Tanh,softmax)详解

目录 1 激活函数的定义 2 激活函数在深度学习中的作用 3 选取合适的激活函数对于神经网络有什么样的重要意义 4 常用激活函数 4.1 Relu 激活函数 4.2 sigmoid 激活函数 4.3 Tanh激活函数 4.4 softmax 激活函数 1 激活函数的定义 激活函数(Activation Funct…

激活函数(Activation Function)

目录 1 激活函数的概念和作用 1.1 激活函数的概念 1.2 激活函数的作用 1.3 通俗的理解一下激活函数(图文结合) 1.3.1 无激活函数的神经网络 1.3.2 带激活函数的神经网络 2 神经网络梯度消失与梯度爆炸 2.1 简介梯度消失与梯度爆炸 2.2 梯度不稳定问题 2.3 产生梯度消…

常用的激活函数合集(详细版)

目录 一、定义以及作用 二、常用激活函数解析 1、Sigmoid函数 1.1 公式 1.2 对应的图像 1.3 优点与不足之处 1.4 对应pytorch的代码 2、Tanh函数 2.1 公式 2.2 对应的图像 2.3 优点与不足之处 2.4 对应pytorch的代码 3、ReLU 3.1 公式 3.2 对应的图像 3.3 优点与不…

优化算法——FTRL

ctr预测中,单个样本由向量x表示,w是模型参数,预测样本x被点击的概率psigmoid(w * x),sigmoid(x) 1/(1exp(x))。样本label为{0, 1}表示是否被点击。模型损失函数为交叉熵损失: L -ylog - (1-y)log(1-p),梯…

【深度学习】优化算法-Ftrl

脑图 代码实现 DO WHAT THE FUCK YOU WANT TO PUBLIC LICENSEVersion 2, December 2004Copyright (C) 2004 Sam Hocevar <samhocevar.net>Everyone is permitted to copy and distribute verbatim or modified copies of this license document, and changing it is all…

谷歌13年提出来的类似于lr的算法 - ftrl论文翻译(七)

论文链接&#xff1a;https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/41159.pdf 概要 预测广告点击率&#xff08;CTR&#xff09;是一个巨大的规模学习问题&#xff0c;是在线广告业数十亿美元的核心问题。 我们从最近的实验中选择出…

FTRL 算法

本文会尝试总结FTRL的发展由来&#xff0c;总结从LR -> SGD -> TG -> FOBOS -> RDA -> FTRL 的发展历程。本文的主要目录如下&#xff1a; 一、 反思魏则西事件。 二、 LR模型 三、 SGD算法 四、 TG算法 五、 FOBOS算法 六、 RDA算法 七、 FTRL算法 注&…