DenseNet 浅析

article/2025/9/14 0:32:18

文章目录

  • 1. 简介
  • 2. DenseNet 浅析
    • 2.1 网络结构
    • 2.2 Dense Block
    • 2.3 Bottleneck Layer
    • 2.4 Trainsition Layer
  • 3. 个人理解
  • 4. DenseNet-121 的 PyTorch 实现

1. 简介

  DenseNet 见于论文《Densely Connected Convolutional Networks》,是 CVPR2017 的 oral。一般而言,为提升网络效果,研究者多从增加网络深/宽度方向着力。但 DenseNet 另辟蹊径,聚焦于特征图的极致利用。延续借助跳层连接解决梯度消失 (如 ResNet) 的思路,论文提出的 Dense Block 将所有层直接相连 (密集连接),保证特征信息最大程度的传输利用,大幅提升网络性能。

2. DenseNet 浅析

2.1 网络结构

  DenseNet主要由 Dense Block 和 Transition Layer 两部分组成,Fig.1 中展示了一个含有 3 个 Dense Block 的 DenseNet。Dense Block是网络的关键模块,由多个Bottleneck Layer叠加而成。Dense Block 中各层间采用密集连接,每层输出的大小保证相同。Dense Block 中 Bottleneck Layer 的个数并不固定,这构成了不同的 DenseNet。Fig.2 中给出了 DenseNet-121、DenseNet-169、DenseNet-201 和 DenseNet-264 四种 DenseNet 的详细参数。Transition Layer位于两个 Dense Block 之间,使用 1x1 卷积减少通道数 (减半),通过最大池化降低特征图大小。

  密集连接是 DenseNet 的灵魂,其通过建立不同层之间的连接关系,充分利用特征信息,缓解梯度消失现象,提升网络训练效果。此外,DenseNet 使用 Bottleneck Layer,Translation Layer 和 growth rate (即 Dense Block 中各层的输出通道数) 控制通道数量,在减少参数和抑制过拟合的同时,大幅减少计算量。

Fig.1 DenseNet 网络结构
Fig.2 DenseNet 网络参数

2.2 Dense Block

Fig.3 Dense Block 结构

  Dense Block 详细结构如 Fig.3 所示,从图中可以直观地看出以下几点:

  1. Dense Block 中各层间是密集连接的;
  2. 各层输出特征图的大小是相同的;
  3. 各层的输出通道数是相同的。

  在连接数量方面, L L L 层的传统卷积神经网络对应 L L L 个连接,Residual Block 则会增加一个从输入到输出的连接。但在 Dense Block 中, L L L 层的网络将会有 L ( L + 1 ) 2 \frac{L(L+1)}{2} 2L(L+1) 个连接,每一层的输入来自前面所有层的输出。对于网络输出而言,传统卷积神经网络的第 t t t 层输出为:
x t = h ( x t − 1 ) x_t = h(x_{t-1}) xt=h(xt1)

ResNet 的第 t t t 层输出为:
x t = h ( x t − 1 ) + x t − 1 x_t = h(x_{t-1}) + x_{t-1} xt=h(xt1)+xt1

Dense Block 中的第 t t t 层输出为:
x t = h ( [ x 0 , ⋯ , x t − 1 ] ) x_t = h([x_0, \cdots, x_{t-1}]) xt=h([x0,,xt1])

借助以上公式,更清晰地显示出 Dense Block 的独特

  Dense Block 中各层的特征图大小一致,因此可以在通道维度上进行拼接。假定输入特征图的通道数为 k 0 k_0 k0,Dense Block 中各层均输出 k k k 个特征图 ( k k k 为 growth rate),则第 l l l 层输入的通道数为 k 0 ​ + ( l − 1 ) k k_0​+(l−1)k k0+(l1)k。Dense Block 采用了pre-activation方式,即 BN-ReLU-Conv 的顺序,激活函数在前、卷积层在后。一般模型通常使用post-activation方式,即 Conv-BN-ReLU 的顺序,激活函数在卷积层之后,但作者证明采用这种方式会导致性能变差。根据 Dense Block 的设计,后面的层可以得到前面所有层的输入,因此在拼接后的通道数量较多。为此,在每个 DenseBlock 中的 3x3 卷积前都有一个 1x1 的卷积,降低输入特征图的数量,减少计算量。此外,为进一步压缩参数,在 Dense Block 之间也使用了 1x1 卷积 (Translation Layer)。在论文的实验对比中,DenseNet-C 网络表示使用了 Translation Layer,将输出的通道数减半。DenseNet-BC 网络表示既有 Bottleneck Layer,又有 Translation Layer。再网络训练过程中,还使用 Dropout 来随机减少分支,避免过拟合。

  总而言之,Dense Block 使得网络结构更加紧凑,参数更少。密集连接使得特征图和梯度的传递更加有效,网络训练更加容易。

2.3 Bottleneck Layer

  密集连接使得 Dense Block 中后面层的输入剧增,因此 Dense Block 中使用了 Bottleneck Layer,借助 Bottleneck 结构控制通道数,减少计算量。 一个 Bottleneck Layer 的网络结构如 Fig.4 所示,各层的顺序为 B N + R e L U + 1 × 1 ⋅ C o n v + B N + R e L U + 3 × 3 ⋅ C o n v \rm\small BN + ReLU + 1 \times 1 \cdot Conv + BN + ReLU + 3 \times 3 \cdot Conv BN+ReLU+1×1Conv+BN+ReLU+3×3Conv。 Bottleneck 结构主要聚焦于降低 Dense Block 内部的通道数量。

Fig.4 Bottleneck Layer 结构

2.4 Trainsition Layer

  与 Bottleneck 结构不同,Trainsition Layer 主要聚焦于控制 Dense Block 之间的通道数量。Trainsition Layer 连接两个相邻的 Dense Block,使用一个1x1 的卷积降低通道数,使用一个 2x2 的 AvgPooling 调整特征图大小,起到压缩模型的作用。一个 Trainsition Laye 中各层的顺序为 B N + R e L U + 1 × 1 ⋅ C o n v + 2 × 2 ⋅ A v g P o o l i n g \small BN + ReLU + 1 \times 1 \cdot Conv + 2 \times 2 \cdot AvgPooling BN+ReLU+1×1Conv+2×2AvgPooling

3. 个人理解

  • DenseNet = Dense Block + Trainsition Layer。其中,Dense Block 由多个 Bottleneck Layer 构成,Trainsition Layer 和 Bottleneck Layer 都对通道数量进行控制。

  • ResNet 通过建立 “短路连接” 助力梯度的反向传播,从而训练出更深的网络。DenseNet 则更进一步,互相连接所有的层 (密集连接),更大程度上复用特征,提升网络性能。

  • DenseNet 的优势

  1. 密集连接改进网络的信息流和梯度,更有效地利用特征,加强梯度传播,缓解了梯度消失现象。
  2. 使用 Bottleneck Layer 和 Transition Layer 减少参数量,加速网络训练。
  3. 密集连接具有正则化效应 ,缓解了训练集规模较小任务中的过拟合现象。
  4. DenseNet 并未从极深 (如 ResNet) 或极宽 (如 GoogLeNet) 的架构中获取表征能力,而是通过特征重用来挖掘网络潜力,产生易于训练和高参数效率的压缩模型。
  5. 标准卷积网络只利用最高层次的特征,但 DenseNet 使用了不同层次的特征 (包括低维度特征)。DenseNet 倾向于给出更平滑的决策边界,这也是 DenseNet 在训练数据不足时表现依旧良好的原因。
  • DenseNet 的劣势
  1. DenseNet 需要进行多次拼接操作,数据需要被复制多次,显存增加得很快,需要一定的显存优化技术。
  2. 与 ResNet 相比,DenseNet 是一种更为特殊的网络,因此 ResNet 的应用范围更广。

4. DenseNet-121 的 PyTorch 实现

import torch
import torch.nn as nn
from torchinfo import summary
from collections import OrderedDict
import torch.nn.functional as Fclass Bottleneck(nn.Module):def __init__(self, in_features, growth_rate, bn_size, drop_rate):super(Bottleneck, self).__init__()out_features = bn_size * growth_rate# 1x1卷积self.norm1: nn.BatchNorm2dself.add_module('norm1', nn.BatchNorm2d(in_features))self.relu1: nn.ReLUself.add_module('relu1', nn.ReLU(inplace=True))self.conv1: nn.Conv2dself.add_module('conv1', nn.Conv2d(in_features, out_features, kernel_size=1, stride=1, bias=False))# 3x3卷积self.norm2: nn.BatchNorm2dself.add_module('norm2', nn.BatchNorm2d(out_features))self.relu2: nn.ReLUself.add_module('relu2', nn.ReLU(inplace=True))self.conv2: nn.Conv2dself.add_module('conv2', nn.Conv2d(out_features, growth_rate, kernel_size=3, stride=1, padding=1, bias=False))# Dropoutself.drop_rate = float(drop_rate)def forward(self, x):new_features = self.conv1(self.relu1(self.norm1(x)))new_features = self.conv2(self.relu2(self.norm2(new_features)))if self.drop_rate > 0:new_features = F.dropout(new_features, p=self.drop_rate, training=self.training)new_features = torch.cat([x, new_features], 1)  # Bottleneckreturn new_featuresclass TransitionLayer(nn.Sequential):def __init__(self, in_features, out_features):super(TransitionLayer, self).__init__()self.add_module('norm', nn.BatchNorm2d(in_features))self.add_module('relu', nn.ReLU(inplace=True))self.add_module('conv', nn.Conv2d(in_features, out_features, kernel_size=1, stride=1, bias=False))self.add_module('pool', nn.AvgPool2d(kernel_size=2, stride=2))class DenseBlock(nn.Sequential):def __init__(self, in_features, growth_rate, num_layers, bn_size, drop_rate):super(DenseBlock, self).__init__()for i in range(num_layers):layer = Bottleneck(in_features + i * growth_rate, growth_rate, bn_size, drop_rate)self.add_module("dense_layer%d" % (i + 1), layer)class DenseNet121(nn.Module):def __init__(self, block_config, growth_rate, num_init_features, bn_size=4, drop_rate=0, num_classes=100):super(DenseNet121, self).__init__()# First Conv# 特征图大小:224 -> 卷积 -> 112 -> 最大池化 -> 56# 通道数变化:3 -> 卷积 -> num_init_features=64self.features = nn.Sequential(OrderedDict([("conv0", nn.Conv2d(3, num_init_features, kernel_size=7, stride=2, padding=3, bias=False)),("norm0", nn.BatchNorm2d(num_init_features)),("relu0", nn.ReLU(inplace=True)),("pool0", nn.MaxPool2d(kernel_size=3, stride=2, padding=1))]))# Each DenseBlock - 4 个DenseBlocknum_features = num_init_featuresfor i, num_layers in enumerate(block_config):Block = DenseBlock(num_features, growth_rate, num_layers, bn_size, drop_rate)self.features.add_module('dense_block%d' % (i + 1), Block)num_features = num_features + num_layers * growth_rateif i != len(block_config) - 1:  # 非最后一个DenseBlocktrans = TransitionLayer(num_features, num_features // 2)self.features.add_module('transition%d' % (i + 1), trans)num_features = num_features // 2  # 通道数减半# Final BNself.features.add_module('norm5', nn.BatchNorm2d(num_features))# Classification Layerself.avg = nn.AvgPool2d(kernel_size=7, stride=1)self.classifier = nn.Linear(num_features, num_classes)def forward(self, x):x = self.features(x)x = F.relu(x, inplace=True)x = self.avg(x)x = torch.flatten(x, 1)out = self.classifier(x)return outif __name__ == "__main__":growth_rate = 8num_init_features = 64block_config = [6, 12, 24, 16]  # 各DenseBlock中Bottle Layer的个数x = torch.randn(1, 3, 224, 224)net = DenseNet121(block_config, growth_rate, num_init_features)y = net(x)summary(net, (1, 3, 224, 224), depth=4)

参考

  1. DenseNet算法详解;
  2. [ 图像分类 ] 经典网络模型5——DenseNet 详解与复现;
  3. DenseNet论文详解及PyTorch复现;
  4. [网络结构]DenseNet网络结构;
  5. DenseNet网络结构的讲解与代码实现;
  6. DenseNet详解;

http://chatgpt.dhexx.cn/article/Q2Y9VLgC.shtml

相关文章

【深度学习原理第9篇】DenseNet模型详解

目录 一、背景概述二、DenseNet2.1 DenseBlock2.2 Transition Layer2.3 DenseNet网络结构 实验结果 一、背景概述 DenseNet是2017年CVPR的最佳论文,它不同于ResNet中的残差结构,也不同于GoogLetNet中的Inception网络结构。DenseNet提出了一种新的提升性…

DenseNet(密集连接的卷积网络)

这里写目录标题 前言1. DenseNet网络2.设计理念2.1 Resnet2.2 DenseNet2.3 密集连接的实现 3. DenseNet的实现3.1 Dense Block的实现3.2 Transition Layer的实现3.3 DenseNet网络3.4 DenseNet-121网络 4. 测试 前言 DenseNet是指Densely connected convolutional networks&…

DenseNet详解

入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。 ✨完整代码在我的github上,有需要的朋友可以康康✨ https://github.com/tt-s-t/Deep-Learning.git 目录 一、DenseNet网…

DenseNet网络结构详解及代码复现

1. DenseNet论文详解 Abstract: 如果在靠近输入和靠近输出层之间包含更短的连接,那么卷积神经网络可以很大程度上更深,更准确和高效地进行训练。根据这一结果,我们提出了DenseNet(密集卷积网络): 对于每一层&#xf…

设计模式六大原则(6)开闭原则(Open Close Principle)

开闭原则(Open Close Principle) 定义:一个软件实体如类、模块和函数应该对扩展开放,对修改关闭。 问题由来:在软件的生命周期内,因为变化、升级和维护等原因需要对软件原有代码进行修改时,可…

Linux C/C++编程: 文件操作open/close、fopen与freopen/fclose

open是linux下的底层系统调用函数,fopen与freopen c/c下的标准I/O库函数,带输入/输出缓冲。 linxu下的fopen是open的封装函数,fopen最终还是要调用底层的系统调用open。 所以在linux下如果需要对设备进行明确的控制,那最好使用底…

Linux之open()、close()函数

目录 open函数 函数介绍 头文件及函数原型 参数 close函数 函数介绍 头文件函数原型 open()、close()函数使用 open函数 函数介绍 在Linux中open()函数用来打开或创建一个文件,当打开文件失败时返回值为-1;成功则返回作为文件描述符(一个非负的…

Linux李哥私房菜——open、close和fd

open() 头文件&#xff1a;#include<fcntl.h>//在centos6.0中只要此头文件就可以#include<sys/types.h>#incldue<sys/stat.h> 功能&#xff1a;打开和创建文件&#xff08;建立一个文件描述符&#xff0c;其他的函数可以通过文件描述符对指定文件进行读取与…

详解C中的系统调用open/close/read/write

文章目录 open() and close()read() and write()实操:代码示例1 将in.txt文件中的内容写入到out.txt文件中&#xff08;一个一个字符写入&#xff09;2 将in.txt文件中的内容写入到out.txt文件中&#xff08;数组写入&#xff09; 先谈谈open/close/read/write与fopen/fclose/f…

JavaScript中window对象及open和close使用

Window对象 是一个顶级对象&#xff0c;不是任何对象的属性&#xff0c;所以可以不写window.xxx而直接使用内部的属性和方法。 实际上&#xff0c;在web前端开发时&#xff0c;所有的全局变量都自动成为window对象的属性 Window对象的属性 Screen History Location Navigat…

Python基础(十三)——文件操作(open函数、close函数)

本文以Python3以上为学习基础。 目录 1、 使用文件操作第一原则 2、open函数 2.1、文件打开模式 2.1.1、只读模式打开文件——只读&#xff08;r&#xff09; 2.1.2、读写模式打开文件——读写模式&#xff08;r&#xff09; ​ 2.1.3、写模式打开文件——写模式&#…

layer中的open与close

关于layer中的open方法与close方法 open方法open函数的定义open函数里面optionsopen函数中返回的值 close方法如何使用close方法关于layer中的一些发现 写在最后的话 open方法 open函数用来创建一个弹出层。 open函数的定义 形式为&#xff1a;layer.open(options) 例如&…

open函数详解与close函数详解

open() 头文件&#xff1a;#include<fcntl.h>//在centos6.0中只要此头文件就可以#include<sys/types.h>#incldue<sys/stat.h> 功能&#xff1a;打开和创建文件&#xff08;建立一个文件描述符&#xff0c;其他的函数可以通过文件描述符对指定文件进行读取与…

open和close函数

open函数&#xff1a;打开或创建文件 系统调用open可以用来打开普通文件、块设备文件、字符设备文件、链接文件和管道文件&#xff0c;但只能用来创建普通文件&#xff0c;创建特殊文件需要使用特定的函数。 头文件&#xff1a; #include <sys/types.h> #include <…

linux close 头文件,Linux open close read write lseek函数的使用

我们经常需要在Linux中进行文件操作,今天我就来分享下文件操作用到的一些函数 1 open 所需头文件: 函数原型:int open(const char *pathname,flags,int perms) pathname:被打开的文件名,可包含路径 flag :文件打开的方式,参数可以通过“|” 组合构成,但前3 个参数不能互…

linux的open close函数

目录 opencloseopen 参数说明代码 解析报错不用怕,我提供解决思路 前言 开始进入学linux的第一个阶段 第一阶段的 Linux的系统函数 第一节 先讲 open close 函数 open 怎么在liunx查看呢 我们利用下面的命令 linux自带的工具 man 手册 man 1 是普通shell 的命令 比如 ls ma…

简述Java序列化的几种方式

目录 JDK原生的序列化 字符串获取字节流 Protobuf Protostuff Thrift kryo hessian fst JSON字符串序列化 Jackson Gson FastJson 序列化和反序列化在网络传输过程中需要做的事情。 序列化 就是得的 字节流&#xff0c;反序列化就是得的对象。 下面梳理Java编程需要…

java序列化之writeObject 和readObject

什么是序列化和反序列化&#xff1f; 序列化&#xff1a;将对象转化为字节的过程称为序列化过程。 反序列化&#xff1a;将字节转化为对象的过程称为反序列化。 序列化主要应用于网络传输和数据存储的场景。在java中&#xff0c;只有类实现了java.io.serializable接口&#x…

java序列化总结

目录 对象序列化是什么 为什么需要序列化与反序列化 序列化及反序列化相关知识 Java 序列化中如果有些字段不想进行序列化&#xff0c;怎么办&#xff1f; Java序列化接口 java.io.Serializable 使用序列化和serialVersionUID进行类重构 Java外部化接口 java.io.Externa…

java序列化接口Serializable

Serializable接口说明 类的可序列化性通过实现(implements) java.io.Serializable可序列化接口。 没有实现这个接口的类不会将其任何状态序列化或反序列化。 可序列化类的所有子类型本身可序列化。 序列化接口没有方法或字段只用于识别可序列化的语义。 为了允许序列化不可序…