深度学习十大算法

首先先让我们来定义一下什么是“深度学习”。对很多人来说，给“深度学习”下一个定义确实很有挑战，因为在过去的十年中，它的形式已经慢慢地发生了很大的变化。

先来在视觉上感受一下“深度学习”的地位。下图是AI、机器学习和深度学习三个概念的一个关系图。

AI的领域要相对较广泛，机器学习是AI的一个子领域，而深度学习是机器学习领域中的一个子集。

深度学习网络与“典型”的前馈多层网络之间是有一些区别的，如下：

深度学习网络比之前的网络有更多的神经元
深度学习网络具有更复杂的连接层的方式
深度学习网络需要用强大的计算能力来训练
深度学习网络能够进行自动特征提取

因此深度学习可以被定义为在以下四个基本网络框架中拥有大量参数和层的神经网络：

无监督预训练网络（Unsupervised Pre-trained Networks）
卷积神经网络（Convolutional Neural Networks）
循环神经网络（Recurrent Neural Networks）
递归神经网络（Recursive Neural Networks）

在这篇文章中，我主要对后三个框架比较感兴趣。

卷积神经网络：基本上就是用共享权重在空间中进行扩展的标准神经网络。设计CNN主要是为了通过内部卷积来识别图片，内部卷积可以看到待识别物体的边。

循环神经网络：基本上是在时间上进行扩展的标准神经网络，因为边进入下一个时间步，而不是在同一时间步进入下一个层。设计RNN主要是为了识别序列，例如语音信号或者文本。它里面的循环意味着网络中存在短暂的记忆。

递归神经网络：更类似于分层网络，其中输入序列没有真正的时间面，而是输入必须以树状方式分层处理。

以下10种方法可以应用于所有这些体系结构。

1、反向传播

反向传播是“误差反向传播”的简称，它是一种计算函数（在神经网络中以函数形式存在）偏微分的方法。当你要用一个基于梯度的方法来解决一个最优问题时（注意梯度下降只是解决这类问题的一种方法），你希望在每一次迭代中计算函数梯度。

对于神经网络而言，目标函数具有合成的形式。那么如何计算梯度呢？一般情况下有两种常见的方法：

1）微分分析法。当你知道这个函数的形式时，你只需要用链式法则计算导数即可；

2）用有限差分方法来近似微分。这种方法的计算量很大，因为函数评估的数量是O（N），其中N是参数的数量。与微分分析法相比，这是比较昂贵的。不过，有限差分通常在调试时验证后端实现。

2、随机梯度下降

一个直观理解梯度下降的方法是去想象一条溯源山顶的河流。这条河流会沿着山势梯度的方向流向山麓下的最低点。

如果让人来走，可能就不一样了，你可能会先随便选一个方向，然后沿着这个方向的梯度向下走；过一会儿再随机换一个方向向下走；最后你发现自己差不多也到了谷底了。

数学化的理解就是：

随机梯度下降主要用来求解类似于如下求和形式的优化问题：

梯度下降法：

当n很大时，每次迭代计算所有的梯度会非常耗时。
随机梯度下降的想法就是每次在Delta f_i 中随机选取一个计算代替上面的Delta f_i，以这个随机选取的方向作为下降的方向。这样的方法反而比梯度下降能够更快地到达（局部）最优解。

3、学习率衰减

在训练模型的时候，通常会遇到这种情况：我们平衡模型的训练速度和损失（loss）后选择了相对合适的学习率（learning rate），但是训练集的损失下降到一定的程度后就不在下降了，比如training loss一直在0.7和0.9之间来回震荡，不能进一步下降。如下图所示：

遇到这种情况通常可以通过适当降低学习率（learning rate）来实现。但是，降低学习率又会延长训练所需的时间。

学习率衰减（learning rate decay）就是一种可以平衡这两者之间矛盾的解决方案。学习率衰减的基本思想是：学习率随着训练的进行逐渐衰减。

学习率衰减基本有两种实现方法：

线性衰减。例如：每过5个epochs学习率减半；
指数衰减。例如：每过5个epochs将学习率乘以0.1。

4、dropout

在当前的大规模神经网络中有两个缺点：

费时；
容易过拟合

Dropout 可以很好地解决这个问题。Dropout说的简单一点就是在前向传导的时候，让某个神经元的激活值以一定的概率p停止工作，示意图如下：

每次做完dropout，相当于从原始的网络中找到一个更瘦的网络。

Hinton在其论文中做了这样的类比，无性繁殖可以保留大段的优秀基因，而有性繁殖则将基因随机拆了又拆，破坏了大段基因的联合适应性；但是自然选择了有性繁殖，物竞天择，适者生存，可见有性繁殖的强大。dropout 也能达到同样的效果，它强迫一个神经单元，和随机挑选出来的其他神经单元共同工作，消除减弱了神经元节点间的联合适应性，增强了泛化能力。