一、引入激活函数的目的 图1:带一层隐藏层的神经网络
先看一个只含一层隐藏层的神经网络,如图1所示。输入为 n 条样本X,隐藏层H的权重和偏置分别为W_h,b_o,输出层O的权重和偏置分别为W_o,b_o。输出层的计算…
最近看bert论文,发现用的是GELU激活函数,找出来看看
论文:GAUSSIAN ERROR LINEAR UNITS (GELUS)项目:https://github.com/hendrycks/GELUs
ABSTRACT
本文提出了高斯误差线性单元(GELU),一个高性能的神经网络激活函数…