深度学习知识图谱笔记

article/2025/11/4 0:01:49

最近花了几天时间对目前常用神经网络模型(backbone),生成对抗GAN,模型压缩,NPL,距离计算,优化器进行了分类整理,用简短的几句话对相关特性进行了总结描述,如有误请指正,方便强化记忆,供学习、选型、面试。详细组件功能介绍请参考其它博文。

没有什么是一张图解决不了的,如果有就再画一张

目录

1 神经网络模型(backbone)

2 生成对抗

3 模型压缩

4 NPL

 5 距离计算

6 常用名词

7 优化器

8 强化学习


1 神经网络模型(backbone)


1.1 Deeper(更深层次的网络)
    LeNet-5 卷积始祖,结构:卷积+池化+卷积+池化+卷积+全连接+全连接
    AlexNet
        创新点:采用ReLU激活函数代替Sigmoid,Dropout
        局部相应归一化、扩增数据、分卡训练
    ZFNet
        卷积可视化始祖
        滤波器尺寸更小
    VGGNet
        结构简洁:5层卷积层,3层全连接层、softmax输出层构成
        创新点:小卷积核和多卷积核,VGG使用多个较小卷积核(3x3)
        两个3x3相当于一个5x5
        LRN层无性能增益
    ResNet
        创新点:shortcut,分为Basic block和bottle block
        一是导数总比原导数加1,解决梯度消失
        二是y=f(x)+x式子中引入了恒等映射,解决了深度增加时神经网络退化
        第一个卷积层采用7x7的大卷积核,更大的感受野,获取图片更多的初始特征
    DenseNet
        创新点:密集连接方式,DenseNet提升了梯度的反向传播,使得网络更容易训练
        DenseNet网络包包括Dense Block和Transition layer两个基础模块
        参数更小且计算更高效(concatenate来实现特征复用,计算量很小)
        由于特征复用,分类器使用到了低级特征,需要较大的显存才能运行

1.2 Module(模块化网络)
    GoogleNet V1
        创新点:Inception 模块化,采用不同大小的卷积核不同尺度的特征融合
        加深的基础上进行加宽,稀疏网络结构
        采用1x1卷积,一是减少维度来减少参数和计算量,二是修正线性激活,
        增加非线性拟合能力(每个1x1后都有ReLU激活函数)
        采用辅助分类器:一是为了避免梯度消失,用于向前传导梯度,
        二是将中间某一层输出用作分类,起到模型融合作用
        用Global Ave Pool取代了FC,防止过拟合作用
    GoogleNet V2
        借鉴VGG,用两个3x3卷积代替一个5x5卷积
        将滤波器大小nxn的卷积分解为1xn和nx1卷积的组合
    GoogleNet V3
        采用RMSProp优化器
    GoogleNet V4
        利用残差网络(ResNet)来改进V3

1.3 Faster(更快的网络)
    Squeeze Net
        创新点:基础单元是Fire Module,多个Fire Module堆叠,
        Fire Module又包括两个部分:squeeze layer和Expand layer 
        多使用1x1的卷积,少使用3x3的卷积(Idea from GoogleNet),减少channel的数量
        将降采样后置,即推迟使用Pooling从而增加感受野    
    MobileNet
        MobileNet V1
            深度卷积:将卷积拆分为单通道的形式
            逐点卷积:即1x1卷积,对深度卷积得到的特征图进行升维
            引入宽度α和分辨率缩放因子
        MobileNet V2
            Linear bottleneck:去掉卷积单元中最后一个ReLU函数
            Inverted residual:先升维,卷积,降维
    shuffle Net
        shuffleNet V1
            group convolution(分组卷积):将输入特征图按通道数分组,
            用不同的卷积核分别进行卷积
            channel shuffle(通道混洗):对分组卷积之后的特征图的排列顺序
            进行打乱排列reshape--transpose--flatten
        shuffleNet V2
            卷积层的输入和输出特征通道数相等时MAC最小,此时模型速度最快
            过多group操作会增大MAC,从而使模型速度变慢
            模型中的分支数量越少,模型速度越快
            尽可能减少element-wise操作
    LightCNN 提出了MFM的一种新的特征图融合方法,在特征提取效果和特征提取速率方面取得了很大的进步
1.4 Functional(功能性网络)
    检测
        x-RCNN
            RCNN 1.SS提取RP;2.CNN提取特征;3.SVM分类;4.BB盒回归
            Fast RCNN 1.SS提取RP;2.CNN提取特征,加入ROI Pooling层;3.softmax分类;4.多任务损失函数边框回归
            Faster RCNN
                1.RPN提取RP;2.CNN提取特征,加入ROI Pooling层;3.softmax分类;4.多任务损失函数边框回归
                RPN(Region Proposal Network) 
                    1.anchor生成(一个概率值和四个坐标值);
                    2.框回归,根据IOU初次筛选;
                    3.NMS(非极大值抑制)再次筛选得到Proposal框
                RIO pooling
                    根据输入image,将region proposal映射到feature map对应位置
                    将映射后的区域划分为相同大小的sections(sections数量与输出维度相同,根据输出取整)
                    对每个sections进行max pooling操作
        YOLO
            YOLO V1
                检测变为回归问题
                整张图划为7x7,每个格子预测两个目标,输出置信度和坐标位置,
                没有使用Region proposal,小目标效果不好
            YOLO V2
                引入自定义darknet分类网络
                引入anchor思想,产生多个boundingboxes先验框
                使用k-Means聚类方法来训练boundingboxes
            YOLO V3
                从v2的darknet-19 到v3 darknet-53
                AnchorBoxes数目从v2中的5个提升到v3中的9个
                用Logistic分类器替换softmax分类器
                增加特征融合
        SSD
            基于Faster RCNN中的Anchor提出了相似的Prior box,一般是4~6个,在不同尺度的feature map 
            加入基于特征金字塔,继承将检测转变为回归问题
            整张图8x8网格+anchor+FCN,多尺度特征融合,
            不同层的feature map 3x3滑动窗感受野不同,作为不同尺度检测
        FPN(Feature Pyramid Network)
            目标分离:浅层目标简单位置准确,深层目标复杂位置粗略,
            浅层特征关注纹理特征,深层网络关注网路本质特征;
            将处理过的低层特征Layer2和处理过的高层特征Layer4进行累加,结合bottom-up与top-down,
            横向连接(lateral-connection)方法获得较强语义连接
        RetinaNet
            组成:ResNet-50+PFN
            引入focal loss
    分割:判断图像每个像素点的类别
        Mask RCNN
            ResNet+FPN+RPN+RoI
                head+FCN+Mask
                Coordinates-reg
                Category-cls
            FCN
                全卷积:以卷积代替全连接匹配任意尺寸输入图片
                skip Architecture:FCN-32s/16s/8s
                Upsampling:反卷积
        UNet
            前半部分特征提取生成224x224,112x112,56x56,28x28,14x14;后半部分往回上采样+concat 
            U-net通过通道数的拼接,FCN是通过特征图对应像素值相加融合特征
        ENet
            包括7个阶段,每个阶段又类似ResNet的bottleneck模块组成,
            1-3属于编码阶段,5-7属于解码阶段,4阶段为中间过度
            使用了更大的编码结构和更小的解码结构;使用PReLU替代ReLU激活函数,使用空间dropout

 

2 生成对抗


2.1 DCGAN(Deep Convolutional GAN)
    引入卷积增加生成图片的质量
2.2 WGAN(Wasserstein GAN)
    利用Wasserstein-1距离,从目标函数的角度出发来提高模型的表现,在理论上解决了梯度消失问题
2.3 WGAN-GP(gradient penalty)
    用正则化的形式表达了对判别器的约束,具有强大的稳定性,几乎不需要调参,训练成功率极高
2.4 LSGAN(least square GAN)
    用散度x^2取代了朴素GAN的jensen-Shannon散度,提高了生成数据的质量和多样性
2.5 EBGAN(Energy-base GAN)
    对D的架构采用自动编码器的模式
2.6 BEGAN(Boundary Equilibrium GAN)
    基于EBGAN通过超参∈[0,1]来放宽均衡点
2.7 CGAN(conditional GAN)
    生成指定标签的数据
2.8 InfoGAN
    从噪声z中拆分出结构化的隐含编码c的方法,使得生成的过程具有一定的可控性
2.9 Pix2Pix
    用于图像翻译领域,训练需要相互配对的图片x与y
2.10 CycleGAN
    不需要配对的两个场景的相互映射,实现了图像间的相互转换
2.12 StarGAN
    将两两映射变多个领域之间的映射
    


3 模型压缩


3.1 模型剪枝
    减少head的数量和去除作用较少的层,共享参数
3.2 量化
    比如讲float32 降到 int8
3.3 知识蒸馏
    目标蒸馏
        Hard-Target/Soft-Target
        蒸馏温度的高低决定对负标签的关注程度
        Matching logits
    特征蒸馏
        第一阶段隐藏层学习
        第二阶段目标学习
3.4 参数共享
    如ALBERT 共享了Transforner层
3.5 参数矩阵近似
    矩阵的低秩分解
    


4 NPL


4.1 常见网络
    RNN
        有多个时刻输入时,网络层次比较深,根据链式法则则更容易出现梯度爆炸
    LSTM
        输入门、遗忘门、记忆门、输出门
    GRU
        重置门决定了如何将新的输入信息与前面的记忆相结合,
        更新门定义了前面记忆保存到当前时间的量,相比LSTM参数更少
    Transform
        由于RNN要求输出≤输入;
        encode-decode引入中间量C解决,但多个转换为一个存在表达不丰富丢失原信息
        多头自注意力机制和规范化层以及一个残差连接
        编码:词编码、句子编码、位置编码
    Bert
4.2 词汇表征
    Word2Vec
        CBOW适用于小型数据库,由上下文推出单个词--完型填空
            权重矩阵(look up table)
        Skim-gram适用于小型语料库,由单个词推出上下文--造句
    Doc2Vec    
4.3 搜索评价
    beam search
        是对贪心策略一个改进,就是稍微放宽一些考察的范围K
    BLEU
        N-gram的匹配度、召回率、惩罚因子
      

5 距离计算


5.1 信息量、熵
    信息量的期望就是熵
    熵为什么是对数形式
        概率越低信息量越大;概率越高信息量越低
        多个事件同时发生的概率相乘是多个信息量相加的和
        对数函数是上凸的,期望函数也是上凸的
5.2 lipschitz约束
    f(x1)-f(x2)≤C|x1-x2|
5.3 交叉熵
    KL散度-目标分布熵=交叉熵 (目标熵为常数)
5.4 KL散度(相对熵,信息增益)
    两个概率分布P和Q差异的度量
    非对称,不满足三角不等式
5.5 JS散度
    两个概率分布的相似度
    对称的,其取值是0到1
    解决没有重叠的两个分布梯度消失问题
5.6 Wasserstein 距离
    两个概率分布之间的距离,样本对距离的期望E(x,y)下界
    当两个概率重叠非常少,仍然能反映两个分布的远近,
    而JS散度在此情况下是常量,KL散度可能无意义
    


6 常用名词


6.1 非对称卷积
    每一个nxn的卷积都可以分解为nx1何1xn的两层卷积核
6.2 空洞卷积(Dilated Convolution)
    在标准卷积里插入空值以增加感受野,空洞为扩张率-1,应用HDC设计结构
    


7 优化器


7.1 SGD
    缺点:
        对所有的参数更新使用同样的learning rate,选择合适的learning rate比较困难
        SGD容易收敛到局部最优
7.2 Momentum
    优点:下降初期,抑制振荡,从而加快收敛
    缺点:下降中后期时,在局部最小值来回震荡的时候
7.3 Adagrad
    优点:
        前期gt较小的时候,regularizer较大,能够放大梯度
        后期gt较大的时候,regularizer较小,能够约束梯度
        适合处理稀疏梯度
    缺点:
        仍依赖于人工设置一个全局学习率
        中后期,分母上梯度平方的累加将会越来越大,使梯度趋向于0,使得训练提前结束
7.4 Adadelta
    特点:
        训练初中期,加速效果不错,很快
        训练后期,反复在局部最小值附近抖动
7.5 RMSprop
    特点:
        其实RMSprop依然依赖于全局学习率
        RMSprop算是Adagrad的一种发展,和Adadelta的变体,效果趋于二者之间
        适合处理非平稳目标 - 对于RNN效果很好
7.6 Adam
    特点:
        结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点
        对内存需求较小
        为不同的参数计算不同的自适应学习率
        也适用于大多非凸优化 - 适用于大数据集和高维空间
        


8 强化学习


8.1 学习方式
    在线学习
        Sarsa
    离线学习
        Q learning
8.2 优化方向
    基于概率
        Policy Gradients
    基于价值
        Q learning和Sarsa
    基于概率和价值
        Actor-Critic
8.3 融合网络
    DQN

【参考】

https://www.cnblogs.com/silence-cho/p/11620863.html

https://zhuanlan.zhihu.com/p/22252270

https://mofanpy.com/
        
    码字不易,转载请说明~~ 

 


http://chatgpt.dhexx.cn/article/xif6vIR2.shtml

相关文章

深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning

A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述 作者: Kai Arulkumaran, Marc Peter Deisenroth, Miles Brundage, Anil Anthony Bharath 文章目录 摘要 Abstract1. 引言 Introduction2. 奖励驱动行为 Reward-Driven Behavior2.1. 马尔科夫…

深度学习领域,最惊艳的论文!

科研路上我们往往会读到让自己觉得想法很惊艳的论文,心中对不同的论文也会有一个排名,以下介绍了一些知乎作者心中白月光般存在的深度学习领域论文,看看是否你们拥有同样心目中的The one。 提名一 ResNet和Transformer 作者:王…

深度学习领域,你心目中 idea 最惊艳的论文是哪篇?

点击上方“视学算法”,选择加"星标"或“置顶” 重磅干货,第一时间送达 来源丨知乎问答(回答均已授权) 编辑丨极市平台 科研路上我们往往会读到让自己觉得想法很惊艳的论文,心中对不同的论文也会有一个排名&a…

深度学习:STGCN学习笔记

目录标题 基于图神经网络的图分类问题GCN在行为识别领域的应用主要任务研究思路 ST-GCN(SpatialTemporal Graph Convolutional Networks for Skeleton-Based Action Recognition)解读原论文解决问题主要贡献核心思想简介OpenPose 预处理基于人体关键点构造graph构造单帧graph&a…

神经网络中神经元是什么_是什么使神经网络脆弱

神经网络中神经元是什么 What do the images below have in common? 以下图片有什么共同点? Most readers will quickly catch on that they are all seats, as in places to sit. It may have taken you less than a second to recognize this common characteri…

卷积神经网络超详细介绍

文章目录 1、卷积神经网络的概念2、 发展过程3、如何利用CNN实现图像识别的任务4、CNN的特征5、CNN的求解6、卷积神经网络注意事项7、CNN发展综合介绍8、LeNet-5结构分析9、AlexNet10、ZFNet10.1 意义10.2 实现方法10.3 训练细节10.4 卷积网络可视化10.6 总结 11、VGGNet11.1 结…

经典神经网络

文章目录 第四章 经典网络解读4.1 LeNet-54.1.1 模型介绍4.1.2 模型结构4.1.3 模型特性 4.2 AlexNet4.2.1 模型介绍4.2.2 模型结构4.2.3 模型特性 4.3 ZFNet4.3.1 模型介绍4.3.2 模型结构4.3.3 模型特性 4.4 Network in Network4.4.1 模型介绍4.4.2 模型结构4.4.3 模型特点 4.5…

卷积神经网络 CNN 学习

什么是神经网络 人工神经网络(artificial neural network,ANN),简称神经网络(neural network,NN),是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工…

【CS224W】(task7)标签传播与节点分类(semi-supervised)

note 对某一节点的标签进行预测,需要其本身特征、邻居的标签和特征。message passing的假设是图中相似的节点之间会存在链接,也就是相邻节点有标签相同的倾向。这种现象可以用homophily(相似节点倾向于聚集)、influence&#xff…

4.经典网络

文章目录 第四章 经典网络解读4.1 LeNet-54.1.1 模型介绍4.1.2 模型结构4.1.3 模型特性 4.2 AlexNet4.2.1 模型介绍4.2.2 模型结构4.2.3 模型特性 4.3 ZFNet4.3.1 模型介绍4.3.2 模型结构4.3.3 模型特性 4.4 Network in Network4.4.1 模型介绍4.4.2 模型结构4.4.3 模型特点 4.5…

Python 深度学习

Pytorch 一 、深度学习概览1、工具篇2、流程介绍3、基础知识(常用操作)1、数据结构类型 4、常见名词概念 二、深度学习Pytorch1、神经网络1.1 如何构建神经网络1.2 核心组件 2、数据处理工具2.1 torchvision(可视化处理工具)2.1.1…

神经网络与深度学习作业8:RNN - 简单循环网络

1. 使用Numpy实现SRN import numpy as npinputs np.array([[1., 1.],[1., 1.],[2., 2.]]) # 初始化输入序列 print(inputs is , inputs)state_t np.zeros(2, ) # 初始化存储器 print(state_t is , state_t)w1, w2, w3, w4, w5, w6, w7, w8 1., 1., 1., 1., 1., 1., 1., 1.…

深度神经网络回归_深度神经网络

深度神经网络回归 深度神经网络 (Deep Neural Networks) A deep neural network (DNN) is an ANN with multiple hidden layers between the input and output layers. Similar to shallow ANNs, DNNs can model complex non-linear relationships. 深度神经网络(DNN)是在输入和…

DNN深度神经网络、RBM受限玻尔兹曼机、DBN深度置信网络

DNN前向传播算法和反向传播算法 感知机的模型大家都比较熟悉,它是一个有若干输入和一个输出的模型,如下图: 输出和输入之间学习到一个线性关系,得到中间输出结果: 接着是一个神经元激活函数: 从而得到我们想要的输出结果1或者-…

十道CSS+HTML高频企业级面试题

有句古话说得好,面试造火箭,工作拧螺丝。经历过职场的小伙伴都清楚,对于一般的工作需求,用不到太过高深的技术,但是,往往面试过程中,会进行所谓深层次的技术交流,所以,跳…

详细前端面试题HTML篇

CSS篇 JS篇 Vue篇 TypeScript篇 React篇 微信小程序篇 前端面试题汇总大全(含答案超详细,HTML,JS,CSS汇总篇)-- 持续更新 前端面试题汇总大全二(含答案超详细,Vue,TypeScript,React&…

前端面试题---html/css

文章目录 1. html标签的类型(head, body,!Doctype) 他们的作用是什么2. 在head标签里面的标签的作用分别是啥?3. 在 HTML 中插入 css 样式表的方法4. 比较插入 css 样式的链接方式和导入方式5. html5 新特性…

HTML 常见面试题

一、HTML5(超文本标记语言,第五次重大修改) 二、HTML5新特性 ①:新的语义标签 header footer nav aside article section ②:新的表单控件 calendar date time email url search ③:音频、视频(…

经典HTML前端面试题总结

经典HTML前端面试题总结 1. 1简述一下你对 HTML 语义化的理解?.1.2 标签上 title 与 alt 属性的区别是什么?1.3 iframe的优缺点?1.4 href 与 src?1.5 HTML、XHTML、XML有什么区别1.6 知道img的srcset的作用是什么?1.7 …

html相关面试题

html相关面试题 1.html和css中的图片加载与渲染规则是什么样的?2.title与h1的区别、b与strong的区别、i与em的区别?title 和 h1 的区别b 和 strong 的区别i 和 em 的区别最后 3.script 标签为什么建议放在 body 标签的底部(defer、async&…