从零开始的神经网络构建历程(三,LeNet5复现)

article/2025/7/3 16:34:49

前两篇博文主要介绍了torch如何构建全连接前馈神经网络,本篇博客主要针对经典卷积神经网络LeNet5进行复现。

卷积神经网络的基本结构

相信不少人都看过不少博客,也都对卷积神经网络的大致结构了解一点,这里本人站在神经元的角度来描述卷积神经网络的结构。先看一张图:
在这里插入图片描述

这就是神经元视角上卷积神经网络的大致结构,其中神经元x与神经元s之间构成卷积层;s神经元与u神经元之间构成池化/采样层;u神经元与v神经元之间构成全连接层,v与输出神经元o之间还有一层softmax用于归一化概率。可以看到,相较于全连接前馈神经网络来说,其差异是很明显的,这也体现出来了卷积神经网络的特点:稀疏性、参数共享性、等变性

  1. 稀疏性,是指卷积层的两层神经元之间并非各个相连,而只是部分连接。例如上图的x1与s2之间就没有像全连接网络那样进行连接;
  2. 参数共享性,是指卷积层相连接的神经元之间参数是共享。例如上图中x2、x3与s2之间虚线相连,其中的参数便可以与参数a,b之间进行共享。
  3. 等变性,是指图片经线性变换后再卷积和卷积之后在进行线性变换,其结果是一样的。

一张图片经过卷积层之后,输出图片的大小可以由下面的公式计算得到:
在这里插入图片描述
其中I(input)指的是输入图片的维度,K(kernel)是卷积核的维度,S(stride)是卷积核每次移动的步长,P(padding)代表卷积时填充方式(指在图像四周填充一定量的像素),此值一般在模型中用不着,所以一般设置为0。

既然如此,读者们可否通过此公式来推断出上面卷积神经网络中卷积核的大小和输入维度的大小呢?

Pytorch中如何表示卷积层

torch中也是通过其中的nn模块来表示卷积层的,对应于类nn.ConvXd(),其中X可以取1,2,3,X的选择与卷积核维度个数有关,例如X取1时,所选择的卷积核为一维的向量,X取2时,所选择的卷积核为二维的矩阵。LeNet5论文中给出的模型是输入一张灰度图,这里我们选择函数nn.Conv2(),让我们先看看类nn.Conv2d()构造方法的参数列表:

def __init__(self, in_channels, out_channels, kernel_size, stride=1,padding=0, dilation=1, groups=1,bias=True, padding_mode='zeros'):

构造方法中有些参数是缺省的,这里我们只看前三个参数。
其中in_channels和out_channels指的是输入张量所具有的的通道数和输出张量所具有的的通道数,显然这个参数需要通过输入输出张量的维度进行判断;kernel_size就是指卷积核的大小。

LeNet5模型的整体结构

以下便是LeNet5模型的整体结构,此图片来源于提出LeNet模型的论文《Gradient-Based Learing Applied to Document Recognition》:
在这里插入图片描述
可以看到,LeNet5由两个卷积层构成,每个卷积层后都跟有2*2大小的池化层。经过卷积操作之后,便进入三个全连接层进行分类预判,此时的工作与全连接前馈神经网络类似。

这里我给出我目前实现的较为实用的模型代码:

class LeNet5(nn.Module):def __init__(self):super(LeNet5, self).__init__()self.conv1 = nn.Sequential(nn.Conv2d(1, 6, 5, 1), nn.ReLU(), nn.MaxPool2d(2))self.conv2 = nn.Sequential(nn.Conv2d(6, 16, 5, 1), nn.ReLU(), nn.MaxPool2d(2))self.fc1 = nn.Sequential(nn.Linear(5*5*16, 120), nn.BatchNorm1d(120), nn.ReLU())self.fc2 = nn.Sequential(nn.Linear(120, 84), nn.BatchNorm1d(84), nn.ReLU())self.output = nn.Sequential(nn.Linear(84, 10), nn.BatchNorm1d(10))def forward(self, input):out = self.conv1(input)out = self.conv2(out)out = out.view(out.shape[0], -1)out = self.fc1(out)out = self.fc2(out)out = self.output(out)out = torch.nn.functional.softmax(out, dim=1)return out

可以看到,模型中除了卷积层,还有最大值池化层nn.MaxPool2d和批归一化操作层nn.BatchNorm1d。代码中的nn.MaxPool2d(2)意思是最大值池化层是二维的2*2矩阵;nn.BatchNorm1d归一化的结构是使得一维的向量以近乎正态分布的形式存在于对应的矩阵中,其主要的摸底是防止训练时出现梯度爆炸以及损失函数波动较大的问题,此函数我们会在后面的效果展示环节看看其实际作用。

代码设计的思路整体上就是参照论文中所描述的架构进行的,其实只要掌握torch基本的用法,构造模型的代码是很好写的~

准备数据集

建议个人在复现此模型时自己去下载对应的mnist数据集,本人在此直接给各位读者下载地址:
链接:https://pan.baidu.com/s/1u16Hwf4WVD7RnXUv_hMdlw 提取码:nii8

文件包解压之后就可以直接使用了,解压之后要记住minst_data文件夹的路径!

接着就是对数据的预处理了,这里先给出代码:

def load_data():transform = transforms.Compose([transforms.Grayscale(num_output_channels=1),transforms.Resize([32, 32]),transforms.ToTensor(),transforms.Lambda(lambda x: x.repeat(1, 1, 1)),transforms.Normalize((0.1307, ), (0.3081, ))])trainset = ImageFolder("F:/DataSet/mnist_data/mnist_train_jpg/", transform=transform)testset = ImageFolder("F:/DataSet/mnist_data/mnist_test_jpg/", transform=transform)trainbatch = DataLoader(dataset=trainset, batch_size=60, shuffle=True)testbatch = DataLoader(dataset=testset, batch_size=100, shuffle=False)return trainbatch, testbatch

这里面的代码涉及torch对图像的变换和将图像打包成批。

  1. “transforms”是torchvision中的模块,torchvision是torch在图像处理运用中的库,transforms.Compose表示将对图像的所有步骤依次压缩抽象成为一个类,当传递此类的对象时,程序就会依次对图像进行Compose中的操作,例如,对象transforms就依次包含对图像灰度图读入(Grayscale)、大小变换(Resize)、张量转化(ToTensor)、维度调整(Lambda)、数据归一化(Normalize)五个操作;
  2. ImageFolder指的是去指定的文件路径下读取图像,并对图像进行上述的五步处理,最终返回的值就是用于测试的数据集;
  3. DataLoader指的是将数据集打包分批次,参数batch_size指的是每批次图片的个数,shuffle指的是分批次时图片的顺序是否打乱。DataLoader最终返回的是一个列表,列表中的每个元素包含某批次的图像张量和数据标签Label。

网络训练

这里先给出代码:

def train():if model.is_file():net = torch.load('../model/LeNet5.cpkt')net.eval()else:net = LeNet5()times, loss_list = 20, []optimizer = optim.SGD(net.parameters(), lr=0.01)loss_func = nn.CrossEntropyLoss()for epoch in range(times):for batch, (image, label) in enumerate(trainbatch):optimizer.zero_grad()yhat = net(image)loss = loss_func(yhat, label)loss.backward()optimizer.step()if batch % 100 == 0:print("epoch=%d, %d batches(60/batch) images passed, loss==%.8f" % (epoch, batch, loss))loss_list.append(loss)torch.save(net, '../model/LeNet5.cpkt')return loss_list

卷积神经网络的训练流程和全连接网络相同,都是使用BP算法进行训练,程序一开始判断是否已有之前训练过的模型,如果有就载入继续训练。由于是分类问题,所以这里的损失函数设为交叉熵损失CrossEntropyLoss。由于我们是进行批量处理的算法,所以严格来说这里的梯度下降算法是批量梯度下降(BGD)。epoch指的是所有批次迭代的轮数,迭代的轮数越多,模型参数越好。程序的最后保存了训练好的模型结构,以及返回每一批次损失函数的值形成的列表loss_list。

这里展示一下训练的结果:
在这里插入图片描述
上面是未进行网络输出归一化(nn.BatchNorm1d),得到的交叉熵损失变化曲线。可以看到,未进行归一化时,曲线波动很大,参数很不稳定,虽然最终走向了收敛,但是测试的正确率应该不算很高(97.64%)。训练时,设置的迭代轮数为20。
在这里插入图片描述
上面的图是进行网络输出归一化之后的曲线。可以看到,此曲线相较于上一张图,波动明显减少,最终测试的正确率也很高。

模型测试

这里直接给出测试代码,不解释:

def test():trainbatch, testbatch = load_data()network = torch.load('../model/LeNet5.cpkt')network.eval()correct, total = .0, .0for image, label in testbatch:yhat = network(image)_, prediction = torch.max(yhat, 1)      # Get the result of classificationtotal += label.size(0)correct += (label==prediction).sum()    # Record the correct numbersreturn float(correct) / float(total)print("The accuracy of the test is %2.2f%%" % (test()*100))

在进行网络输出归一化之后,测试的正确率如下:
在这里插入图片描述

后续

之后我又对网络进行的训练,同样也是迭代20轮,得到的交叉熵损失曲线如下:
在这里插入图片描述
再迭代20轮,又得到交叉熵损失曲线图:
在这里插入图片描述
可以看到,网络批量梯度下降350次后交叉熵损失就基本上保持在1.47上下了,也就是说此时网络模型最优参数基本到达了。最终测试集测试的正确率如下:
在这里插入图片描述
99.21%,确实蛮高的(测试集包含10000张手写数字图像)。

代码整合

LeNet5代码复现
此链接里面没有mnist那70000张手写数字图像的数据集,请读者们自行去我上面提到的百度网盘链接里下载。

作业

读者们可以尝试一下自己去网上寻找物体分类的数据集,自己搭建一个CNN模型进行训练。如果你能顺利完成,说明你对卷积神经网络已经又初步的认识了。


http://chatgpt.dhexx.cn/article/uFSpgXJU.shtml

相关文章

卷积神经网络LeNet5结构

LeNet5可以说是最早的卷积神经网络了,它发表于1998年,论文原文Gradient-Based Learning Applied to Doucment Recognition作者是Yann Le Cun等。下面对LeNet5网络架构进行简单的说明,有兴趣的同学可以去参考原文,论文原文地址http…

Lenet5(1998)

先读 https://blog.csdn.net/zhangjunhit/article/details/53536915 https://blog.csdn.net/qianqing13579/article/details/71076261 第三个卷积层,S2 6个1010的特征映射,C3是16个1010的特征映射,怎么做的呢? 关注C3层 Why not …

LeNet5的论文及理解

LeNet5网络的来源:Lcun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324. 1. 卷积神经网络(Convolutional Neural Network,CNN)基…

Pytorch搭建LeNet5网络

本讲目标:   介绍Pytorch搭建LeNet5网络的流程。 Pytorch八股法搭建LeNet5网络 1.LeNet5网络介绍2.Pytorch搭建LeNet5网络2.1搭建LeNet网络2.2测试LeNet网络输出2.3下载数据集2.4加载并配置网络2.5训练并保存网络2.6测试图片 1.LeNet5网络介绍 借鉴点:…

HLS:卷积神经网络LeNet5的实现与测试

目录 一、引言二、LeNet5的学习三、数学知识补充四、HLS代码设计五、仿真综合与优化六、Zynq平台搭建测试七、一些注意点八、文献时间线与后续工作 一、引言 1、开发环境。 Windows10、Vivado2018.2、Vivado HLS与Xilinx SDK。 2、LeNet5概述。 1994年,CNN网络&…

卷积神经网络(一):LeNet5的基本结构

在机器视觉,图像处理领域,卷积神经网络取得了巨大的成功。本文将参考UFLDL和DEEPLEARNING.NET的教程,结合自己的理解,梳理一下卷积神经网络的构成以及其BP算法的求解。虽然利用theano可以方便的实现LeNet5,但是不利于学…

LeNet5网络结构详解

文章目录 1.论文地址:2.LeNet5网络结构:3.首先了解参数量和计算量之间的区别和计算:(1)参数量(Params):(2)计算量(FLOPS):&#xff08…

经典网络模型介绍系列——LeNet-5

从今天开始,带大家从LeNet5开始学习经典的网络模型。 一、LeNet-5 LeNet-5是LeNet系列的最终稳定版,它被美国银行用于手写数字识别,该网络有以下特点: 所有卷积核大小均为5*5,步长为1;所有池化方法为平均…

LeNet5的深入解析

论文:Gradient-based-learning-applied-to-document-recognition 参考:http://blog.csdn.net/strint/article/details/44163869 LeNet5 这个网络虽然很小,但是它包含了深度学习的基本模块:卷积层,池化层,…

LeNet5模型讲解

加粗样式LeNet5模型讲解 LeNet5模型总览 总共8层网络,分别为: 输入层(INPUT)、卷积层(Convolutions,C1)、池化层(Subsampling,S2)、卷积层(C3)、…

LeNet-5详解

一、前言 LeNet-5出自论文Gradient-Based Learning Applied to Document Recognition,是一种用于手写体字符识别的非常高效的卷积神经网络。 本文将从卷积神经网络结构的基础说起,详细地讲解每个网络层。 论文下载:请到文章结尾处下载。 …

卷积神经网络:LeNet-5

2021SCSDUSC LeNet-5卷积神经网络的整体框架: 特征映射:一幅图在经过卷积操作后得到结果称为特征图。 LeNet-5共有8层,包含输入层,每层都包含可训练参数;每个层有多个特征映射(,每个特征映射通过一种卷积…

LeNet-5网络详解

文章目录 1 模型介绍2 模型结构3 模型特性 1 模型介绍 LeNet-5出自论文《Gradient-Based Learning Applied to Document Recognition》,是由 L e C u n LeCun LeCun 于1998年提出的一种用于识别手写数字和机器印刷字符的卷积神经网络,其命名来源于作者 …

深度学习入门(一):LeNet-5教程与详解

1.什么是LeNet LeNet5诞生于1994年,是最早的卷积神经网络之一,并且推动了深度学习领域的发展。自从1988年开始,在多年的研究和许多次成功的迭代后,这项由Yann LeCun完成的开拓性成果被命名为LeNet5。 LeNet: 主要用来…

卷积神经网络(CNN)开山之作——LeNet-5。卷积神经网络基本介绍。

目录 一、LeNet-5的背景 二、传统分类算法在图像识别上的弊端 三、卷积神经网络的3个基本特征 四、LeNet-5的网络结构 1、Input layer 2、Conv1 3、Subsampling2 4、Conv3 5、Subsampling4 6、Conv5 7、FC6 8、Output7 五、LeNet-5总结 一、LeNet-5的背景 LeNet-5…

这可能是神经网络 LeNet-5 最详细的解释了!

大家好,我是红色石头! 说起深度学习目标检测算法,就不得不提 LeNet- 5 网络。LeNet-5由LeCun等人提出于1998年提出,是一种用于手写体字符识别的非常高效的卷积神经网络。出自论文《Gradient-Based Learning Applied to Document R…

c语言--使用函数输出水仙花数

函数接口定义 1、int narcissistic( int number ); 2、void PrintN( int m, int n ); 函数 narcissistic 判断 number 是否为水仙花数,是则返回1,否则返回0。 函数 PrintN 则打印开区间 (m, n) 内所有的水仙花数,每个数字占一行。 …

【C语言程序设计】C语言水仙花数,阿姆斯特朗数!

阿姆斯特朗数也就是俗称的水仙花数,是指一个三位数,其各位数字的立方和等于该数本身。 例如:153135333,所以 153 就是一个水仙花数。 求出所有的水仙花数。 算法思想 对于阿姆斯特朗数问题,根据水仙花数的定义&#x…

C语言编程练习:水仙花数

文章目录 题目描述思路结果 题目描述 水仙花数是指一个N位正整数(N>3)&#xff0c;它的每个位上的数字的N次幂之和等于它本身。例如:153 1353 33。本题要求编写程序&#xff0c;计算所有N位水仙花数。 输入格式: 输入在一行中给出一个正整数N(3<N<7 )。 输出格式: …

C语言:水仙花数(daffodil),求出三位数中所有水仙花数

水仙花数&#xff08;C语言&#xff09; 文章目录 水仙花数&#xff08;C语言&#xff09;前言一、题目二、解题思路代码运行结果 总结***根据水仙花数满足的条件找出需要求的对象&#xff0c;这里是各位上的位数。*** 前言 刘汝佳算法书《算法竞赛入门经典》第二章上机练习第…