VGG-16网络结构解析

article/2025/8/13 13:08:37

VGG，也叫做VGG-16网络。这个网络结构很有意思，相必实现这个网络的作者是有点强迫症，不然整个网络为什么能够如此的协调一致。基本上每一次的内容都大同小异，2层或3层卷积层，激活一下，池化一下，就接下一层了。

值得注意的一点是，VGG-16网络没有那么多超参数，这是一种只需要专注于构建卷积层的简单网络。首先用3×3，步幅为1的过滤器构建卷积层，padding参数为same。然后用一个2*2，步幅为2的过滤器构建最大池化层。因此VGG网络的一大优点是它确实简化了神经网络结构。

假设要识别一张图像224×224×3，在最开始的两层用64个3×3，步幅为1，padding参数为same的过滤器对输入图像进行卷积，输出结果是224×224×64，网络结构如下：

注记：

1。VGG-16的这个数字16，就是指在这个网络中包含16个卷积层和全连接层。确实是个很大的网络，总共包含1.38亿个参数，即便以现在的标准来看都是非常大的网络。但VGG-16结构并不复杂，这点非常吸引人，而且这种网络结构很规整，都是几个卷积层后面跟着可以压缩图像大小的池化层，池化层缩小图像的高度和宽度。同时，卷积层的过滤器数量变化存在一定的规律，由

$64\rightarrow 128\rightarrow 256\rightarrow 512$

作者可能认为512已经足够大了，所以后面的层就不再翻倍了。无论如何，每一步都进行翻倍，或者说在每一组卷积层进行过滤器翻倍操作，正是设计此种网络结构的另一个简单原则。这种相对一致的网络结构对研究者很有吸引力，而它的主要缺点是需要训练的特征数量非常巨大。文中揭示了，随着网络的加深，图像的高度和宽度都在以一定的规律不断缩小，每次池化后刚好缩小一半，而通道数量在不断增加，而且刚好也是在每组卷积操作后增加一倍。也就是说，图像缩小的比例和通道数增加的比例是有规律的。从这个角度来看，这篇论文很吸引人。