深度学习领域引用量最多的前20篇论文简介

本文来源：全球人工智能

作者：Pedro Lopez，数据科学家，从事金融与商业智能

深度学习是机器学习和统计学交叉领域的一个子集，在过去的几年里得到快速的发展。强大的开源工具以及大数据爆发使其取得令人惊讶的突破进展。本文根据微软学术（academic.microsoft.com）的引用量作为评价指标，从中选取了20篇顶尖论文。注意，引用量会随着时间发生快速的变化，本文参考的是本文发表时候的引用量。

在这份清单中，超过75%的文章都提到了深度学习和神经网络，尤其是卷积神经网络（CNN），其中，50%的文章是计算机领域模式识别应用。随着硬件性能、数据量及开源工具的发展，使用基于GPU的工具箱，如TensorFlow、Theano等，有利于数据科学家和机器学习工程师扩展相应的应用领域。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

1.Deep Learning，Yann L., Yoshua B. & Geoffrey H. (2015) (引用量: 5,716)

本文是深度学习大牛Hinton的开山之作，引用量高达5700多次。在这篇文章中，提出了深度学习的方法，它允许由多个处理层组成的计算模型来学习具有多个抽象层次的数据表示。这些方法极大地促进了语言识别、视觉物体识别、目标检测以及药物发现、基因组合灯许多领域的进展。

论文地址：

https://www.cs.toronto.edu/~hinton/absps/NatureDeepReview.pdf?spm=a2c4e.11153940.blogcont576283.17.3ac27677LdbpjU&file=NatureDeepReview.pdf

2.TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems, by Martín A., Ashish A. B., Eugene B. C., et al. (2015) (引用量: 2,423)

这篇文章发布了TensorFlow工具箱，该工具箱使用非常灵活，十分受研究者的追捧，很多研究者认为该工具箱在之后的研究中会占据主导地位。TensorFlow可以用来表示各种各样的算法，包括深层神经网络模型以及推理算法等。TensorFlow已经被用于研究，并将计算机学习系统部署到计算机科学和其它的多个领域，包括语言识别、计算机视觉、机器人、信息检索、自然语言处理、地理信息提取等。

论文地址：

http://download.tensorflow.org/paper/whitepaper2015.pdf?spm=a2c4e.11153940.blogcont576283.18.3ac27677XarSxP&file=whitepaper2015.pdf

3.TensorFlow: a system for large-scale machine learning, by Martín A., Paul B., Jianmin C., Zhifeng C., Andy D. et al. (2016) (引用量: 2,227)

TensorFlow支持各种应用，对深层神经网络的训练和推理能力成为了研究者的关注点。谷歌在其一些产品中使用了TensorFlow，并将其公开为一个开源项目，目前已被广泛用于机器学习的研究中。

论文地址：

https://www.usenix.org/legacy/system/files/conference/osdi16/osdi16-abadi.pdf%20rel=?spm=a2c4e.11153940.blogcont576283.19.3ac27677wXFSLT&file=osdi16-abadi.pdf%20rel=

4.Deep learning in neural networks, by Juergen Schmidhuber (2015) (引用量: 2,196)

这篇文中是一个综述类文章，总结了深度学习和神经网络的发展历史。浅层和深层学习器是通过网络层数的数量区分，并且详细讲解了有监督学习（简要介绍反向传播算法的历史）、无监督学习、强化学习、进化计算以及深层编码网络。

论文地址：

https://arxiv.org/pdf/1404.7828.pdf?spm=a2c4e.11153940.blogcont576283.20.3ac27677wM2vCk&file=1404.7828.pdf

5.Human-level control through deep reinforcement learning, by Volodymyr M., Koray K., David S., Andrei A. R., Joel V et al (2015) (引用量: 2,086)

这篇文章主要是使用深层神经网络的最新进展——强化学习，并训练了一种新颖且智能的代理，被称为Q网络。Q网络使用端到端强化学习直接从高维感官输入学习到成功的策略，并使用经典游戏Atari 2600对其进行测试，结果表明其效果非常好。

论文地址：

https://web.stanford.edu/class/psych209/Readings/MnihEtAlHassibis15NatureControlDeepRL.pdf?spm=a2c4e.11153940.blogcont576283.21.3ac27677khlbo4&file=MnihEtAlHassibis15NatureControlDeepRL.pdf

6.Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, by Shaoqing R., Kaiming H., Ross B. G. & Jian S. (2015) (引用量: 1,421)

这篇文章的主要工作是引入了区域推荐网络（RPN），该网络能够与检测网络共享全图像卷积特征，从而使无成本的区域推荐成为可能。一个RPN网络是一个全卷积网络，同时预测每个位置对象的范围和其分数。

论文地址：

https://arxiv.org/pdf/1506.01497.pdf?spm=a2c4e.11153940.blogcont576283.22.3ac276779Ttljn&file=1506.01497.pdf

7.Long-term recurrent convolutional networks for visual recognition and description, by Jeff D., Lisa Anne H., Sergio G., Marcus R., Subhashini V. et al. (2015) (引用量: 1,285)

与当前假设固定时空感受野或简单时间平均序列的模型处理相比而言，递归卷积模型是“双份深度”，这是由于该模型是“时间层”和“空间层”的组合。

论文地址：

https://arxiv.org/pdf/1411.4389.pdf?spm=a2c4e.11153940.blogcont576283.23.3ac27677bXpou7&file=1411.4389.pdf

8.MatConvNet: Convolutional Neural Networks for MATLAB, by Andrea Vedaldi & Karel Lenc (2015) (引用量: 1,148)

本文是针对MATLAB开发的深度学习工具箱，它揭露了CNN模型也可以通过简单使用MATLAB函数完成搭建。该工具箱提供了卷积层、池化层等功能。该文档简单介绍了CNN，并说明如何在matconvnet工具箱中实现模型的搭建，并给出了每个计算块的技术细节。

论文地址：

https://arxiv.org/pdf/1412.4564.pdf?spm=a2c4e.11153940.blogcont576283.24.3ac27677k3MDgU&file=1412.4564.pdf

9.Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, by Alec R., Luke M. & Soumith C. (2015) (引用量: 1,054)

在这篇文章中，希望通过CNN缩小有监督学习和无监督学习二者之间的差距。引入了一类新的CNN模型，被称作深层卷积生成对抗网络（DCGANs）。该网络具有一定体系结构约束，也被证明是无监督学习问题中一种有效方法。

论文地址：

https://arxiv.org/pdf/1511.06434.pdf?spm=a2c4e.11153940.blogcont576283.25.3ac276771TzGAy&file=1511.06434.pdf

10.U-Net: Convolutional Networks for Biomedical Image Segmentation, by Olaf R., Philipp F. &Thomas B. (2015) (引用量: 975)

对于深度学习而言，人们大多有个共识——深层网络训练成功需要依赖于大量的训练样本。而在本篇文章中，提出了一种新的网络和训练策略，其训练策略依赖于数据增强，使其可以更高效地使用现有样本。

论文地址：

https://arxiv.org/pdf/1505.04597.pdf?spm=a2c4e.11153940.blogcont576283.26.3ac276770IHiyG&file=1505.04597.pdf

11.Conditional Random Fields as Recurrent Neural Networks, by Shuai Z., Sadeep J., Bernardino R., Vibhav V. et al (2015) (引用量: 760)

在这篇文章中，引入了一种新的模型，它将卷积神经网络（CNN）与条件随机场（CRF）二者的优点相结合，构造出RNN网络。

论文地址：

http://www.robots.ox.ac.uk/~szheng/papers/CRFasRNN.pdf?spm=a2c4e.11153940.blogcont576283.27.3ac27677wwmxH5&file=CRFasRNN.pdf

12.Image Super-Resolution Using Deep Convolutional Networks, by Chao D., Chen C., Kaiming H. & Xiaoou T. (2014) (引用量: 591)

这篇文章采用方法是直接学习低分辨率到高分辨率图像的端到端映射，该映射被表示为一个深层卷积神经网络（CNN），它以低分辨率图像作为输入，输出的是高分辨率图像。

论文地址：

https://arxiv.org/pdf/1501.00092.pdf?spm=a2c4e.11153940.blogcont576283.28.3ac27677uoRVt5&file=1501.00092.pdf

13.Beyond short snippets: Deep networks for video classification, by Joe Y. Ng, Matthew J. H., Sudheendra V., Oriol V., Rajat M. & George T. (2015) (引用量: 533)

在这篇文章中，提出了将CNN与LSTM结合在一起对视频数据进行特征提取，单帧的图像信息通过CNN获取特征，然后将CNN的输出按时间顺序通过LSTM，最终将视频数据在空间和时间维度上进行了特征表达。

论文地址：

https://arxiv.org/pdf/1503.08909.pdf?spm=a2c4e.11153940.blogcont576283.29.3ac27677qJnF3L&file=1503.08909.pdf

14.Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning, by Christian S., Sergey I., Vincent V. & Alexander A A. (2017) (引用量: 520)

卷积网络变得越来越深，网络模型也变得越来越复杂。谷歌公司提出的Inception-v4网络结构是近年来图像识别领域取得的最大进展。该网络结构具有三个残差网络和一个Inception-v4结构单元。在ImageNet挑战赛（CLS）top-5中实现3.08%的错误率。

论文地址：

https://arxiv.org/pdf/1602.07261.pdf?spm=a2c4e.11153940.blogcont576283.30.3ac27677uhbfsE&file=1602.07261.pdf

15.Salient Object Detection: A Discriminative Regional Feature Integration Approach, by Huaizu J., Jingdong W., Zejian Y., Yang W., Nanning Z. & Shipeng Li. (2013) (引用量: 518)

在这篇文章中，将显著图计算转化为一个回归问题。采用的方法是基于多层次的图像分割，并利用监督学习方法将区域特征向量映射为一个显著性分数。

论文地址：

https://arxiv.org/pdf/1410.5926.pdf?spm=a2c4e.11153940.blogcont576283.31.3ac27677YZbKox&file=1410.5926.pdf

16.Visual Madlibs: Fill in the Blank Description Generation and Question Answering, by Licheng Y., Eunbyung P., Alexander C. B. & Tamara L. B. (2015) (引用量: 510)

在这篇文章中，介绍了一个新的数据集——Visual Madlibs。该数据集包含360001个针对10738幅图像的自然语言描述，它是在空白模板中利用自动生成进行收集，收集的是有针对性的描述，比如人和物体、外貌、活动和互动、以及对一般场景或更广阔背景的推论。

论文地址：

https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Yu_Visual_Madlibs_Fill_ICCV_2015_paper.pdf?spm=a2c4e.11153940.blogcont576283.32.3ac27677NTzhEK&file=Yu_Visual_Madlibs_Fill_ICCV_2015_paper.pdf

17.Asynchronous methods for deep reinforcement learning, by Volodymyr M., Adrià P. B., Mehdi M., Alex G., Tim H. et al. (2016) (引用量: 472)

A3C算法是AC算法的异步变体，在Atari领域是最先进的算法。训练时候采用的多核CPU，而不是单个GPU，节约了一半的时间。此外，还发现A3C算法在各种各样的连续电机控制问题上性能表现优异。

论文地址：

http://proceedings.mlr.press/v48/mniha16.pdf?spm=a2c4e.11153940.blogcont576283.33.3ac27677kBRXJT&file=mniha16.pdf

18.Theano: A Python framework for fast computation of mathematical expressions., by by Rami A., Guillaume A., Amjad A., Christof A. et al (2016) (引用量: 451)

Theano是一个Python库，它允许使用者定义、优化以及有效地评估涉及多维数组的数学表达式。自推出以来，它一直是最常用的CPU和GPU数学编译器，尤其是在机器学习社区中显示出其性能的稳定提升。

论文地址：

https://arxiv.org/pdf/1605.02688.pdf?spm=a2c4e.11153940.blogcont576283.34.3ac27677blRucu&file=1605.02688.pdf

19.Deep Learning Face Attributes in the Wild, by Ziwei L., Ping L., Xiaogang W. & Xiaoou T. (2015) (引用量: 401)

该框架不仅大大提升了系统的性能，而且表明了学习人脸表征是有价值的事实。（1）展示了人脸定位（LNET）和属性预测（ANET）可以通过不同的预训练方法改进；（2）尽管只微调了LNet过滤器，但它们在整个图像上的响应图对人脸位置有很强的指示性。

论文地址：

https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Liu_Deep_Learning_Face_ICCV_2015_paper.pdf?spm=a2c4e.11153940.blogcont576283.35.3ac27677CwhXcF&file=Liu_Deep_Learning_Face_ICCV_2015_paper.pdf

20.Character-level convolutional networks for text classification, by Xiang Z., Junbo Jake Z. & Yann L. (2015) (引用量: 401)

这篇文章使用字符级卷积神经网络（Char-CNN）实现文本的分类，并构建了几个大规模数据集，实验结果表明，字符级卷积神经网络可以实现很好的性能。

论文地址：

http://papers.nips.cc/paper/5782-character-level-convolutional-networks-for-text-classification.pdf?spm=a2c4e.11153940.blogcont576283.36.3ac276778WChsu&file=5782-character-level-convolutional-networks-for-text-classification.pdf

近期热文