深度学习领域,最惊艳的论文!

article/2025/11/4 0:10:30

科研路上我们往往会读到让自己觉得想法很惊艳的论文,心中对不同的论文也会有一个排名,以下介绍了一些知乎作者心中白月光般存在的深度学习领域论文,看看是否你们拥有同样心目中的The one。

提名一

ResNet和Transformer

作者:王晋东不在家

时至今日,许多大领域都离不开这两种结构。Transformer更是从NLP领域走入了CV领域,大有一统天下之势。

ResNet大道至简,更倾向于从原来的CNN结构设计出发,通过大量的实验和分析,添加了skip connection,一招封神。

Transformer则另起炉灶,干脆完全抛弃了RNN的结构,从根本上尝试self-attn加全连接层对于序列建模的能力。

今日的你或许通过实验可以大概搞出来ResNet的skip connection结构,但是能想出来跟transformer一样完全不用RNN、并能让这种当时看来“非主流”的结构work的比RNN还好,就能称得上是天才了。

这其中,固然要有科研的敏锐嗅觉,更多的还是源于超强的代码能力,以及愿意为你这种尝试提供资金和设备支持的大环境。

所以说,要想取得绝对的成功,天时(CNN与NLP发展的大环境)、地利(所在单位的资源投入)、人和(老板与同事的支持),三者缺一不可。

提名二

DUT(视频增稳)

作者:rainy

来分享一篇小众方向(视频增稳/Video Stabilization)的论文,可能不是那种推动领域进步的爆炸性工作,这篇论文我认为是一篇比较不错的把传统方法deep化的工作。

DUT: Learning Video Stabilization by Simply Watching Unstable Videos

https://arxiv.org/pdf/2011.14574.pdf

看样子应该是投稿CVPR21,已开源。

https://github.com/Annbless/DUTCode

首先介绍一下视频增稳的定义,如名称所示,视频增稳即为输入一系列连续的,非平稳(抖动较大)的视频帧,输出一系列连续的,平稳的视频帧。

由于方向有点略微小众,因此该领域之前的工作(基于深度学习)可以简单分为基于GAN的直接生成,基于光流的warp,基于插帧(其实也是基于光流的warp)这么几类。这些论文将视频增稳看做了“视频帧生成问题”,但是理想的视频增稳工作应该看做“轨迹平滑”问题更为合适。

而在深度学习之前刘帅成(http://www.liushuaicheng.org/)大神做了一系列的视频增稳的工作,其中work的即为meshflow。这里贴一个meshflow解读的链接

https://www.yuque.com/u452427/ling/qs0inc

总结一下,meshflow主要的流程为“估计光流–>估计关键点并筛选出关键点的光流–>基于关键点光流得到mesh中每一个格点的motion/轨迹–>进行轨迹平滑并得到平滑后的轨迹/每一个格点的motion–>基于motion得到满足平滑轨迹的视频帧”。

总结了meshflow之后,这篇DUT主要进行的工作其实很简单,在meshflow的框架下,将其中所有的模块都deep化:

LK光流---->PWCNet

SIFT关键点----->RFNet

基于Median Filters的轨迹平滑------>可学习的1D卷积

除此之外,由于原始的meshflow是基于优化的方法,因此DUT在替换了模块之后依旧保留了原始的约束项,并且可以使用无监督的方式完成训练,效果也好于一票supervised的方法。

提名三

可形变卷积(DCN)

作者:陀飞轮

图片

当年看Deformable Convolutional Networks(DCN)的时候最为惊艳,可能看过的文章少,这种打破固定尺寸和位置的卷积方式,让我感觉非常惊叹,网络怎么能够在没有直接监督的情况下,学习到不同位置的offset的,然后可视化出来,能够使得offset后的位置能够刚好捕捉到不同尺寸的物体,太精彩了!

提名四

深度学习框架、图像识别、图像生成、模型优化 、自然语言处理

作者:叶小飞

我想从深度学习框架图像识别、图像生成、模型优化 、自然语言处理五个领域评选出一篇最惊艳的论文, 并且对每一篇论文都赋予一个**武侠小说里对应的绝顶武功****,**以此来表达我的膜拜与狂热。

深度学习框架

  • 论文名称:Caffe: Convolutional Architecture for Fast Feature Embedding

  • 论文链接:https://arxiv.org/abs/1408.5093

  • 惊艳理由:在那个大家都用matlab和自己diy深度学习框架的年代,贾大神的Caffe横空出世,为深度学习领域创立了一个通用、易拓展的框架,使复现、开发各种新型算法变得更加容易,可以说是开山鼻祖。

  • 对标武功:《天龙八部》内的**易筋经****。**易筋锻骨,重塑七经,这不正和caffe的效用不谋而合?caffe不就相当于重塑了深度学习的筋骨,使得后续各种五花八门的算法变得可能实现?

图像识别

  • 论文名称:Deep Residual Learning for Image Recognition

  • 论文链接:https://arxiv.org/pdf/1512.03385.pdf

  • 惊艳理由:一个简简单单的skip connection一招制敌,优雅至极,直接将CNN的表现提升了一个大档次。

  • 对标武功:《天涯明月刀》里傅红雪的刀法。傅红雪的武功就一招——拔刀收刀,简单却致命,正如resnet的skip connection. 这一刀是傅红雪拔了千万次刀后凝练的精魂,正与skip connection是作者做了无数实验与分析后凝练的结构如出一辙。

图像生成

  • 论文名称:Generative Adversarial Networks

  • 论文链接:https://arxiv.org/abs/1406.2661

  • 惊艳理由:Encoder-decoder 出现已久, 分类器出现也很久,Goodfellow却是真正意义上把这二者完美结合起来的第一人,是现如今图像视频模拟生成的鼻祖。

  • 对标武功:《射雕英雄传》里的左右互博。老顽童让左手和右手打架,结果两只手突飞猛进,Goodfellow 让generator 和discriminator 互相打架,结果两个模型变得越来越强,最后甚至可以以假乱真。

模型优化

  • 论文名称:Distilling the Knowledge in a Neural Network

  • 论文链接:https://arxiv.org/pdf/1503.02531.pdf

  • 惊艳理由: 知识蒸馏的开山之作,在不增加任何online inference资源的情况下,让模型得到极大优化。

  • 对标武功:《天龙八部》里的北冥神功。段誉吸各个高手的内功变成了天龙三绝之一,student net吸取teacher net的知识变成了更robust的模型。

自然语言处理

  • 论文名称:Language Models are Few-Shot Learners(GPT-3)

  • 论文链接:https://arxiv.org/pdf/2005.14165.pdf

  • 惊艳理由:在看到这篇论文之前,我做梦也想不到一个NLP模型居然有175亿个参数,可以说是深度学习里的暴力美学的极致了。

  • 对标武功:降龙十八掌。降龙十八掌刚猛无双,遇到强敌以刚劲的掌力与无所畏惧的气势压倒对方。GPT-3庞大无比,遇到语言数据以175亿的模型参数与超出想象的计算资源死磕硬刚。如果乔峰是个深度学习科学家,一定会爱死这个模型。

提名五

CAM,class activation map

作者:Ferenas

那就从我的研究领域中挑一个出来吧,我的研究方向是基于image-level的弱监督语义分割,(貌似这个点近两年趋势渐淡),而其中令我最惊艳的就是CAM,class activation map

文章题目叫Learning Deep Features for Discriminative Localization,google百度一下都可以找到。这篇文章其实是想探究我们的CNN在学习图像的时候到底重点关注在哪个部分。这里抛开论文里面的繁琐的数学解释啥的(大家可以看看原论文),最后论文用一张图表示了这个大概是怎么样的一个过程。

图片

对你没有看错,图像关注的部分就是将该类的fc层中的权重和feature maps对应加权求和就行了。说实话我觉得这个真的是经过很多实验才发现的idea。因此通过这个CAM我们便可知这个网络到底在学什么东西。

至于后面CAM变体例如grad-cam等大家可以去查阅了解。通过这个惊艳的CAM,我觉得是开了基于弱监督图像分割领域的先河,简直是祖先级别的神工作。

为什么这么说呢,基于image-level的弱监督分割旨在仅通过分类标签而生成对应的分割标签图,(毕竟手工标记分割图上的像素太烧钱了呀哈哈哈 )你看看CAM,如果通过阈值一下的话,那些热点处的不就可以作为置信度高的前景像素标签了嘛!!!

于是你便可以看到大量的弱监督领域分割之作都是在这个CAM之上完成的。不仅如此,CAM也在可解释领域中被作为一种基本的工具。这篇五年前的文章至今仍在视觉领域中放光发热,让很多的学者以此为基石展开研究。

我也是很感谢这篇工作让我接触到弱监督领域。毕竟是我转做计算机视觉读的第一篇文章hhhh,所以,thank you, CAM!

参考链接:

回答1-王晋东不在家:

https://www.zhihu.com/question/440729199/answer/1697212235

回答2-rainy:

https://www.zhihu.com/question/440729199/answer/1693346011

回答3-陀飞轮:

https://www.zhihu.com/question/440729199/answer/1695810150

回答4-叶小飞:

https://www.zhihu.com/question/440729199/answer/1698687630

回答5-Ferenas:

https://www.zhihu.com/question/440729199/answer/1695809572


http://chatgpt.dhexx.cn/article/VDbvhgRI.shtml

相关文章

深度学习领域,你心目中 idea 最惊艳的论文是哪篇?

点击上方“视学算法”,选择加"星标"或“置顶” 重磅干货,第一时间送达 来源丨知乎问答(回答均已授权) 编辑丨极市平台 科研路上我们往往会读到让自己觉得想法很惊艳的论文,心中对不同的论文也会有一个排名&a…

深度学习:STGCN学习笔记

目录标题 基于图神经网络的图分类问题GCN在行为识别领域的应用主要任务研究思路 ST-GCN(SpatialTemporal Graph Convolutional Networks for Skeleton-Based Action Recognition)解读原论文解决问题主要贡献核心思想简介OpenPose 预处理基于人体关键点构造graph构造单帧graph&a…

神经网络中神经元是什么_是什么使神经网络脆弱

神经网络中神经元是什么 What do the images below have in common? 以下图片有什么共同点? Most readers will quickly catch on that they are all seats, as in places to sit. It may have taken you less than a second to recognize this common characteri…

卷积神经网络超详细介绍

文章目录 1、卷积神经网络的概念2、 发展过程3、如何利用CNN实现图像识别的任务4、CNN的特征5、CNN的求解6、卷积神经网络注意事项7、CNN发展综合介绍8、LeNet-5结构分析9、AlexNet10、ZFNet10.1 意义10.2 实现方法10.3 训练细节10.4 卷积网络可视化10.6 总结 11、VGGNet11.1 结…

经典神经网络

文章目录 第四章 经典网络解读4.1 LeNet-54.1.1 模型介绍4.1.2 模型结构4.1.3 模型特性 4.2 AlexNet4.2.1 模型介绍4.2.2 模型结构4.2.3 模型特性 4.3 ZFNet4.3.1 模型介绍4.3.2 模型结构4.3.3 模型特性 4.4 Network in Network4.4.1 模型介绍4.4.2 模型结构4.4.3 模型特点 4.5…

卷积神经网络 CNN 学习

什么是神经网络 人工神经网络(artificial neural network,ANN),简称神经网络(neural network,NN),是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工…

【CS224W】(task7)标签传播与节点分类(semi-supervised)

note 对某一节点的标签进行预测,需要其本身特征、邻居的标签和特征。message passing的假设是图中相似的节点之间会存在链接,也就是相邻节点有标签相同的倾向。这种现象可以用homophily(相似节点倾向于聚集)、influence&#xff…

4.经典网络

文章目录 第四章 经典网络解读4.1 LeNet-54.1.1 模型介绍4.1.2 模型结构4.1.3 模型特性 4.2 AlexNet4.2.1 模型介绍4.2.2 模型结构4.2.3 模型特性 4.3 ZFNet4.3.1 模型介绍4.3.2 模型结构4.3.3 模型特性 4.4 Network in Network4.4.1 模型介绍4.4.2 模型结构4.4.3 模型特点 4.5…

Python 深度学习

Pytorch 一 、深度学习概览1、工具篇2、流程介绍3、基础知识(常用操作)1、数据结构类型 4、常见名词概念 二、深度学习Pytorch1、神经网络1.1 如何构建神经网络1.2 核心组件 2、数据处理工具2.1 torchvision(可视化处理工具)2.1.1…

神经网络与深度学习作业8:RNN - 简单循环网络

1. 使用Numpy实现SRN import numpy as npinputs np.array([[1., 1.],[1., 1.],[2., 2.]]) # 初始化输入序列 print(inputs is , inputs)state_t np.zeros(2, ) # 初始化存储器 print(state_t is , state_t)w1, w2, w3, w4, w5, w6, w7, w8 1., 1., 1., 1., 1., 1., 1., 1.…

深度神经网络回归_深度神经网络

深度神经网络回归 深度神经网络 (Deep Neural Networks) A deep neural network (DNN) is an ANN with multiple hidden layers between the input and output layers. Similar to shallow ANNs, DNNs can model complex non-linear relationships. 深度神经网络(DNN)是在输入和…

DNN深度神经网络、RBM受限玻尔兹曼机、DBN深度置信网络

DNN前向传播算法和反向传播算法 感知机的模型大家都比较熟悉,它是一个有若干输入和一个输出的模型,如下图: 输出和输入之间学习到一个线性关系,得到中间输出结果: 接着是一个神经元激活函数: 从而得到我们想要的输出结果1或者-…

十道CSS+HTML高频企业级面试题

有句古话说得好,面试造火箭,工作拧螺丝。经历过职场的小伙伴都清楚,对于一般的工作需求,用不到太过高深的技术,但是,往往面试过程中,会进行所谓深层次的技术交流,所以,跳…

详细前端面试题HTML篇

CSS篇 JS篇 Vue篇 TypeScript篇 React篇 微信小程序篇 前端面试题汇总大全(含答案超详细,HTML,JS,CSS汇总篇)-- 持续更新 前端面试题汇总大全二(含答案超详细,Vue,TypeScript,React&…

前端面试题---html/css

文章目录 1. html标签的类型(head, body,!Doctype) 他们的作用是什么2. 在head标签里面的标签的作用分别是啥?3. 在 HTML 中插入 css 样式表的方法4. 比较插入 css 样式的链接方式和导入方式5. html5 新特性…

HTML 常见面试题

一、HTML5(超文本标记语言,第五次重大修改) 二、HTML5新特性 ①:新的语义标签 header footer nav aside article section ②:新的表单控件 calendar date time email url search ③:音频、视频(…

经典HTML前端面试题总结

经典HTML前端面试题总结 1. 1简述一下你对 HTML 语义化的理解?.1.2 标签上 title 与 alt 属性的区别是什么?1.3 iframe的优缺点?1.4 href 与 src?1.5 HTML、XHTML、XML有什么区别1.6 知道img的srcset的作用是什么?1.7 …

html相关面试题

html相关面试题 1.html和css中的图片加载与渲染规则是什么样的?2.title与h1的区别、b与strong的区别、i与em的区别?title 和 h1 的区别b 和 strong 的区别i 和 em 的区别最后 3.script 标签为什么建议放在 body 标签的底部(defer、async&…

html面试复习

目录 网页的显示过程 浏览器的渲染引擎 不同浏览器的内核 什么是标记语言(markup language ) 什么是超文本( HyperText ) 完整的html结构 文档声明 html元素 head元素 body元素 html元素 img标签 a标签 锚点链接 i…

HTML 面试题汇总

HTML 面试题汇总 1. 什么是 <!DOCTYPE>&#xff1f;是否需要在 HTML5 中使用&#xff1f; 参考答案&#xff1a; 它是 HTML 的文档声明&#xff0c;通过它告诉浏览器&#xff0c;使用哪一个 HTML 版本标准解析文档。 在浏览器发展的历史中&#xff0c;HTML 出现过很多个…