CNN-卷积神经网络

一、基本的神经网络结构

神经网络其实就是按照一定规则连接起来的多个神经元，输入向量的维度和输入层（Input Layer）神经元个数相同，分类问题的类别个数决定输入层（Output Lazyer）的神经元个数。第N层的神经元与第N-1层的所有神经元连接，称为全连接，输入层和输出层之间的层叫做隐藏层（HIdden Layer），因为它们对于外部来说是不可见的，层与层的每条连接上都有一个权值。

然而，用全连接神经网络处理大尺寸图像具有三个明显的缺点：

（1）首先，将图像展开为向量，会丢失临近像素的空间信息；

（2）其次，模型参数过多，因此效率低下，训练困难；

（3）同时，大量的参数也很快会导致网络过拟合。

所以，提出了卷积神经网络，与普通的神经网络不同，卷积神经网络的各层中的神经元是三维排列的：宽度、高度、深度（这个深度指的是某层数据的第三个维度）。

CNN的每一层都将三维的输入数据变化为神经元的三维的激活数据并输出。

图像中，红色的输入层代表输入图像，所以它的宽度和高度就是图像的宽度和高度，它的深度是3（代表了RGB3种颜色通道）、接着是经过卷积运算（convolution）和池化运算（Pooling）之后的激活值（也可以看做一层神经元），再接着的下一部分的卷积池化层，最后的部分是一个深度为分类个数的输出向量。

二、卷积神经网络的构成

CNN由输入层、卷积层、激活函数、池化层、全连接层，通过将这些层叠加起来，就可以构建一个完整的卷积神经网络。

（1）输入层

卷积神经网络的输入层可以处理多维数据，

常见地，一维卷积神经网络的输入层接收一维或二维数组，其中一维数组通常为时间或频谱采样；

二维数组可能包含多个通道；二维卷积神经网络的输入层接收二维或三维数组；

三维卷积神经网络的输入层接收四维数组。

我们使用卷积处理图像，如果采用经典的神经网络模型，则需要读取整幅图像作为神经网络模型的输入（即全连接的方式），当图像的尺寸越大时，其连接的参数将变得很多，从而导致计算量非常大。因而，使用卷积对每个神经元局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。这种模式就是卷积神经网络中降低参数的目的，也可称为局部感受野。

（2）卷积层

卷积层的功能是对输入数据进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量（bias vector），类似于一个前馈神经网络的神经元（neuron）。

卷积层内每个神经元都与前一层中位置接近的区域的多个神经元相连，区域的大小取决于卷积核的大小。

卷积核在工作时，会有规律地扫过输入特征，在感受野内对输入特征做矩阵元素乘法求和并叠加偏差量。

多通道卷积计算过程：

卷积层参数：

卷积层参数包括卷积核大小、步长和填充，三者共同决定了卷积层输出特征图的尺寸，是卷积神经网络的超参数。

其中卷积核大小（kernel_size：卷积核大小 [kernel_size * kernel_size] 大小的矩阵）可以指定为小于输入图像尺寸的任意值，卷积核越大，可提取的输入特征越复杂。

卷积步长（stride：步幅大小，默认为1）定义了卷积核相邻两次扫过特征图时位置的距离，卷积步长为1时，卷积核会逐个扫过特征图的元素，步长为n时会在下一次扫描跳过n-1个像素。卷积时的采样间隔 设置步幅的目的是希望减小输入参数的数目，减少计算量。stride参数的值就是缩小的倍数，压缩一部分信息，或者使输出的尺寸小于输入的尺寸。

填充（padding）：边缘填充的个数，填充添加到输入的所有四个侧面。默认值：0
padding：在输入特征图的每一边添加一定数目的行列，使得输出和输入的特征图的尺寸相同。

设置padding：如果没有padding，每次进行卷积后，原始图像的尺寸就会越来越小，所以没有办法设计层数足够多的深度神经网络。
希望每个输入特征图的每一块都能作为卷积窗口的中心，防止丢失图像边缘信息。

卷积层输出特征图的尺寸计算：

卷积层可用于减少空间维度，通过改变卷积核的步幅来调整输入。

W: input size

F: filter size

P: padding size

S: stride size

$output width = \frac{W-F_w+2P}{S_w}+1$