2021年3月四篇深度学习论文推荐

article/2025/9/29 14:45:49

这是Machine-Learning-Collage系列,每隔一周作者都会编写一个本周论文的幻灯片摘要。每月底所有的幻灯片画都会被集中到一个总结文章中。作者希望给读者一个直观和直观的一些最酷的趋势。以下是作者在2021年3月读到的四篇最喜欢的论文,以及为什么我相信它们对深度学习的未来很重要。

“Discovery of Options via Meta-Learned Subgoals“

Veeriah et al. (2021) | 📝https://arxiv.org/abs/2102.06741

运动控制是一个极具挑战性的问题。我们人类擅长这一点是因为我们在多个扩展的时间尺度上进行计划:我们不制定每一个单独的肌肉动作,而是在一个抽象的层次上进行推理,并执行一系列细粒度的动作。层次强化学习(HRL)旨在借助所谓的时间抽象来模拟这种方法。简单地说,时间抽象就是一个在一段时间内执行的运动程序。它们由子策略和相应的终止条件组成。策略由更高级别的管理器调用并执行,直到终止条件停止为止。HRL中的一个关键问题是,如何自动推断出在多个任务之间传输的有用策略选项?Veeriah等人(2021)提议通过元梯度学习将选项参数化。在外部循环中,元梯度通过优化更新步骤(以可微的方式)传播高阶梯度来优化超参数。论文中使用经过优化的超参数训练神经网络。并提出的称为MODAC的元梯度方法能够发现有用的策略选项。元梯度方法可以从任务分布中提取有意义的规律性。他们在一个标准的四个房间的问题上测试了他们的方法,然后将其扩展到更具挑战性的DeepMind Lab领域。

“Clockwork Variational Autoencoders“

Saxena et al. (2021) | 📝 https://arxiv.org/abs/2102.09532

递归生成模型很难并捕获视频中的长期依存关系并生成长序列清晰图像的。 Saxena等人的CW-VAE(2021)旨在通过扩展递归状态空间模型(RSSM; Hafner et al.2019)来克服这一限制,这是一类递归VAE。 CW-VAE的核心是通过引入以不同固定时钟速度变化的潜在动态变量来扩展这些潜在动态模型。顶层以较低的速率适应,并调节较低层的生成过程。速度随着层次结构中的下降而增加,在最低层模型通过转置的CNN上采样输出生成的图像。使用ELBO目标对整个循环VAE体系结构进行端到端训练。作者证明,这种动态潜在变量的时间抽象层次优于许多基线模型,因为这些基线不包含潜在层次或者所有层次都以相同的速度移动。论文中的消融研究旨在提取存储在不同级别的内容信息。通过切断流入顶层的输入信号,作者能够证明顶层为低层提供全局的非特定信息。最后他们还表明,这种操作能够适应预处理序列输入的速度:高频序列导致更多的信息被快速低水平潜在变量捕获。总之,作用于不同时间尺度的机制层次结构不仅对强化学习非常有用,而且对于生成模型也非常有用。

“Coordination Among Neural Modules Through a Shared Global Workspace“

Goyal et al. (2021) | 📝 https://arxiv.org/abs/2103.01197

最著名的意识理论之一是全局工作空间理论。它提出了一个简单的认知架构,在这个架构中,经过处理的感官感知被投射到一个共享的工作空间,也被称为“黑板”。来自不同来源的信息被选择性地写入这个工作空间,并被潜意识地处理。这个处理阶段整合了不同的形态,抛弃了不相关的特征。转换后的信息被广播到与意识过程相关的大脑其他区域。Goyal等人(2021)从高层次意识的神经科学理论中获得灵感,并概述了将工作空间与注意力机制相结合的计算框架,以促进学习的神经模块之间的协调,作者提出了一个低维瓶颈区(也就是共享工作区)来促进专家模块的同步。不同的神经网络(例如Transformer 或不同的LSTMs)必须为“瓶颈”工作空间的写入而进行竞争。然后根据软或硬注意机制更新其外向表示。其核心思想是带宽限制有助于独立但集成的机制的协调学习。通过一组详尽的实验,作者表明,所提出的机制有助于模块之间的专业化,并有助于稳定它们的端到端训练。此外,工作空间的低维特性降低了专家之间的成对注意力交互的成本。因此,它不仅对训练有好处,而且对推理也有好处。

“Gradient Descent on Neural Networks Typically Occurs at the Edge of Stability“

Authors: Cohen et al. (2021) | 📝 http://arxiv.org/abs/2103.00065

深度学习中最令人着迷但仍未完全解释的现象之一是:我们似乎仅使用简单的算法(例如随机梯度下降)就能有效地优化数十亿个参数。但是我们对学习动力和趋同行为到底了解多少呢?Cohen等人(2021)研究当批处理包含整个数据集时梯度下降的特殊情况。作者表明,这个全批梯度下降版本运行在一个非常特殊的区域。也就是说,处于“稳定的边缘”。这边缘到底是关于什么的?神经网络训练有两个阶段:在初始第一阶段,训练损失的最大特征值Hessian(即锐度)逐渐增加,直到达到2/学习率。在这一阶段,训练损失单调地减少。一旦该特征值达到2/学习率,则达到稳定边缘’。之后,梯度下降抑制了锐度的进一步增长。相反,它徘徊在2/学习率阈值之上。在短时间内,训练损失不再表现为单调而是波动的。但在较长的时间尺度上,梯度下降仍然能够减少损失。作者通过多个任务和不同的架构(包括标准的cnn和Transformer)来验证这一经验观察。结果发现,有关梯度下降的常规优化方法的许多方面都受到质疑:梯度下降如何抑制持续增长的清晰度?这对学习率表意味着什么?我们真的需要随着时间的流逝对其进行退火吗?良好的科学工作带来了很多有趣的未来研究问题,而这项工作肯定属于这个范畴。

作者:Robert Lange


http://chatgpt.dhexx.cn/article/1pwgof8f.shtml

相关文章

深度学习论文《Deep Learning》

论文《Deep Learning》 (深度学习) 作者:Yann Lecun, Yoshua Bengio, Geoffery Hinton 单位: FAIR, NYU, UMontreal, Utoronto, Google 发表会议及时间:《Nature》杂志 1、论文作者简介 2019…

2022 年 1 月推荐阅读的四篇深度学习论文

自举元学习到深度学习的时间序列预测,外推与泛化之间的关系与 Ridge Rider 探索多样化最优 ‘Bootstrapped Meta-Learning’ Flennerhag et al. (2021) | 📝 https://arxiv.org/pdf/2109.04504.pdf 元学习算法旨在自动发现归纳偏差,这允许…

深度学习9篇论文

Introduction 卷积神经网络CNN,虽然它听起来就像是生物学、数学和计算机的奇怪混杂产物,但在近些年的机器视觉领域,它是最具影响力的创新结果。随着Alex Krizhevsky开始使用神经网络,将分类错误率由26%降到15%并赢得2012年度Image…

2020年最新Spark企业级面试题【上】

前言 现在距离2021年还有不到一个月的时间了,是不是有的小伙明年不知该怎么复习spark,以及不知道该备战企业中会问到那些问题。好今天他来了总结了20个企业中经常被问到的面题以及会附带一些笔试题哦,编写不易建议收藏。 一、 Spark 有几种…

spark相关面试题总结

(根据博客总结并不断增加自己的内容) 1.spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一…

spark面试题

1.spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计…

Spark面试

场景描述:这是一个Spark的面试题合集。是我自己作为面试者和作为面试官都会被问到或者问到别人的问题,这个总结里面有大量参考了网上和书上各位老师、大佬的一些原文答案,只是希望可以给出更好的回答,一般上我都会把原文链接贴上&…

还有多少人搞不懂这 40 道 Spark 灵魂面试题?

大家好,我是峰哥~ 最近看到了各大厂裁员的消息,没办法,到了毕业季,大家总有一天会各奔东西,今天给分享一些面试题,希望大家能拿到更好的offer! 来源:大数据真好玩 1、spark的有几种部…

关于Spark的面试题,你应该知道这些!

之前分享过一篇博客,👉不会这20个Spark热门技术点,你敢出去面试大数据吗?,那一篇确实是非常精华,提炼出了非常重要同样非常高频的Spark技术点,也算是收到了一些朋友们的好评。本篇博客,博主打算…

史上最全的spark面试题——持续更新中

1.spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合 Dataset:就是一个集合,用于存放数据的 Destributed:分布式,可以并行在集群计算 …

spark 面试题汇总

大数据面试题汇总 大数据面试题汇总 - 简书 spark 资源调优 1、列式存储和行式存储的区别 行存储,数据行存储,一个文件可表达一个二维表。适用于一般的业务场景如CSV文件,文本文件 因为这里的行结构是固定的,每一行都一样&…

Spark面试问题整理(持续更新中......)

Spark应用转换流程 1、 spark应用提交后,经历了一系列的转换,最后成为task在每个节点上执行 2、 RDD的Action算子触发Job的提交,生成RDD DAG 3、 由DAGScheduler将RDD DAG转化为Stage DAG,每个Stage中产生相应的Task集合 4、 Task…

大数据知识面试题-Spark(2022版)

序列号内容链接1大数据知识面试题-通用(2022版)https://blog.csdn.net/qq_43061290/article/details/1248190892大数据知识面试题-Hadoop(2022版)https://blog.csdn.net/qq_43061290/article/details/1248222933大数据知识面试题-…

Spark面试,Spark面试题,Spark面试汇总

Table of Contents 1、你觉得spark 可以完全替代hadoop 么? 2、Spark消费 Kafka,分布式的情况下,如何保证消息的顺序? 3、对于 Spark 中的数据倾斜问题你有什么好的方案? 4、你所理解的 Spark 的 shuffle 过程? 5、Spark有…

Spark高频面试题总结

1. Spark高频面试题总结 1.1 Spark有几种部署方式?请分别简要论述 Local:运行在一台机器上,通常是练手或者测试环境。 Standalone:构建一个基于MsterSlaves的资源调度集群,Spark任务提交给Master运行。是Spark自身的一个调度系统。 Yarn: …

【大数据面试题】(八)Spark 相关面试题

1.spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计…

spark面试题总结

文章目录 一、你是怎么理解Spark,它的特点是什么?二、Spark有几种部署方式,请分别简要论述三、Spark提交作业的参数四、简述Spark的作业提交流程五、你是如何理解Spark中血统(RDD)的概念?它的作用是什么?六、简述Spark的宽窄依赖…

Spark高频面试题(建议收藏)

一、你是怎么理解Spark,它的特点是什么? Spark是一个基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。 它内部的组成模块,包含SparkCore&…

Spark面试题汇总及答案(推荐收藏)

一、面试题 Spark 通常来说,Spark与MapReduce相比,Spark运行效率更高。请说明效率更高来源于Spark内置的哪些机制?hadoop和spark使用场景?spark如何保证宕机迅速恢复?hadoop和spark的相同点和不同点?RDD持久化原理&am…

日报日报!Spark综合面试题总结

Spark 什么是Spark 基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。 Spark特点 快: Spark计算速度是MapReduce计算速度的10-100倍 易用:&#x…