2023年2月的十篇深度学习论文推荐

article/2025/9/29 14:46:43

本月的论文包括语言模型、扩散模型、音乐生成、多模态等主题。

1、MusicLM: Generating Music From TextPage

https://arxiv.org/abs/2301.11325

By Andrea Agostinelli, Timeo I. Denk, et al.

扩散模型和自回归离散模型都在生成音乐/音频显示出令人印象深刻的性能。

与最近使用连续扩散模型的其他生成音频工作不同,MusicLM 是一种完全自回归和完全离散的音乐生成模型。它巧妙地利用现有工作(SoundStream [1] 和 w2v-BERT [2])在不同的时间尺度引导表示学习,并在长达几分钟的长时间跨度内实现以前看不见的连贯性的音乐生成。作者将这种技术称为层次表示,因为自回归建模发生在不同的粒度级别,这是实现长期一致性的关键。

这个项目的关键组成部分之一是数据:对于 MuLan [3],他们采用冻结模型的方式,对于 SoundStream 和 w2v-BERT,他们使用免费音乐存档。为了训练分词器和自回归模型,他们使用自己的专有数据集,其中包含 5M 音频剪辑,总计 280,000 小时 24kHz 的音乐。这意味着在低级和高级表示之间,模型接受了大约 10 亿(高级)和 500 亿(低级)标记的训练。就训练数据而言,MusicLM 可与 GPT-2 相媲美,后者在大约 300 亿个令牌上进行了训练。

在他们的项目页面,有一些音乐样本。如果对音频生成主题感兴趣,请查看 archinet 在过去一个月中不断增加的音频 AI 作品列表(下表)。

https://github.com/archinetai/audio-ai-timeline

2、A Watermark for Large Language Models

https://arxiv.org/abs/2301.10226

John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, Tom Goldstein.

随着 chatGPT 在主流中越来越受欢迎,对作弊的担忧也越来越多。应该在哪里使用这些模型?可以检测模型的输出吗?

这项工作提出了一种为专有语言模型(例如来自 OpenAI 的语言模型)的输出添加水印的方法。此水印的指导原则之一是它永远不会导致误报(即对某人的“诬告”)。该方法的工作原理如下:

  • 给定一个标记,确定性伪随机算法将语言模型词汇表分成白/黑名单标记。
  • 该模型在每个推理步骤仅从列入白名单的词汇表生成输出。
  • 为了避免生成降级,这个过程只应用于高熵令牌。该方法有点复杂,作者从信息论的角度提供了理论保证

现在,正如作者所展示的那样,这种技术对于一些攻击是稳健的,比如只是在这里和那里交换一些单词,但它不是无懈可击的,并且可以通过一些方式来规避(例如,让第三方语言模型改写第一个语言模型的输出)。不过,有传言称,OpenAI计划发布一款带有类似水印技术的产品,希望减少欺诈性使用该技术。

3、Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP

https://arxiv.org/pdf/2212.14024.pdf

Omar Khattab, Keshav Santhanam, Xiang Lisa Li, David Hall, Percy Liang, Christopher Potts, Matei Zaharia.

检索增强 LM:用外部显式记忆增强 LM 有可能彻底改变我们查找信息的方式。这项工作代表了超越通过检索增强 LM 的一步。

大多数检索增强的LM以先检索后读取的方式工作:给定提示,对检索模型(RM)进行查询,然后将其用作生成LM的上下文。但有时复杂的信息需求需要LM和RM之间更复杂的交互,这就是本文提出的建模方法。

Demonstrate-Search-Predict (DSP)是一个用于上下文学习的框架,其中LM和冻结RM交互,交换自然语言和分数。这表明在知识密集型多跳问答场景下(即当不能立即找到答案时),性能得到了提高。作者提供了一个python实现,通过3个步骤定义LM和RM交互:演示(从训练样本中自动挖掘少量示例)、搜索(RM和LM交互)和预测(生成最终答案)。

4、The Flan Collection: Designing Data and Methods for Effective Instruction Tuning

https://arxiv.org/abs/2301.13688

Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V. Le, Barret Zoph, Jason Wei, Adam Roberts.

你可以自己部署和运行的最好的全面公开、完全开源的语言模型是什么?FLAN-T5。

最初在 FLAN [5] 中提出,指令调整(不要与 InstructGPT 混淆)是在 LM 的训练中以自然语言指令的形式包含标记数据的过程。

这项研究比较了现有的开源预训练指令调优模型在各种设置下的情况:保持或保持任务(模型在训练期间看到任务了吗?)和零或少样本学习。比较的所有模型都属于T5家族,除了OPT-IML-Max[8]有1750亿个参数外,其余型号都有30亿个参数。

最重要的是:(1)在训练过程中混合零样本和少样本的例子,有助于在所有设置下的性能,(2)指令调优再次证明,使更小的小模型能够达到更大一个数量级的模型的性能。

这些结果证实了一个现有的流行观点,即Flan T5是目前最适用于零样本和少样本学习的中等规模(3-10B)模型。

5、Tracr: Compiled Transformers as a Laboratory for Interpretability

https://arxiv.org/abs/2301.05062

David Lindner, János Kramár, Matthew Rahtz, Thomas McGrath, Vladimir Mikulik.

把Transformers 看作计算机可以让我们对这些模型的计算能力有新的认识。

Restricted Access Sequence Processing Language (RASP[6])是一种特定于领域的语言,用于表达Transformer可以执行的计算。将Transformer视为一个计算平台,其输入是一系列分类变量,操作符可以是:(1)进行选择,(2)进行元素计算,或(3)进行选择-聚合计算。

Tracr是一种将RASP直接编译为Transformer 权重值的方法。例如,下面是一个对序列进行排序的程序。

虽然目前这个论文提出的方法在实际应用中非常有限,但它可以作为一个工具,更好地理解Transformers 执行的那种计算。它可以作为在神经网络中实现符号操作的桥梁,或者在检测到实现某些算法的某些权重模式时,用更有效的算法替换神经网络组件。

本文还比较了编译权重与梯度下降学习权重的比较,从经验上证实了这两种方法如何收敛到相同的结果。

6、Extracting Training Data from Diffusion Models

https://arxiv.org/abs/2301.13188

Nicholas Carlini, Jamie Hayes, Milad Nasr, Matthew Jagielski, Vikash Sehwag, Florian Tramèr, Borja Balle, Daphne Ippolito, Eric Wallace.

在生成式人工智能的迅速崛起中,训练数据的所有权、归因和隐私已经成为一个激烈辩论的领域。这项工作突出了扩散模型在重现训练图像时的缺点和风险,这是令人担忧的,因为训练数据通常没有完全过滤,最终包括私人信息。

他们在论文中所做的工作的要点非常简单,即生成具有稳定扩散的图像,并带有与训练集中发现的提示相匹配的提示,并查看模型生成与训练图像完全相同的图像的频率。

主要要点是:

  • 模型越强大,检索到训练图像的可能性就越大。
  • 基于 GAN 的图像生成模型也可以从训练数据集中生成图像, 但不太容易受到直接记忆的影响。有趣的是,GANs和dm有很强的记忆相同图像的倾向,这表明这些图像/提示对之间存在一些共性,使它们“令人难忘”

这项工作并没有调查自回归图像生成模型,但考虑到它们也被训练成精确复制训练数据,看看它们与扩散模型相比如何肯定会很有趣。

7、Multimodal Chain-of-Thought Reasoning in Language Models

https://arxiv.org/abs/2302.00923

Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, Alex Smola.

Chain-of-thought[9] 在一年前证明可以从现有的语言模型中提取大量推理。现在该技术应用于多模式设置(视觉+语言)。

这项工作调查了问答模型,包括图像生成模型。之前的研究发现,Chain-of-Thought小模型的推理性能,而联合视觉+语言模型会在推理中产生大量幻觉。作者建议通过将基本原理生成和回答分两个阶段解耦来解决这个问题。这可以提高性能,例如超过了 ScienceQA 基准测试中的先前技术水平(这是一种文本到文本的纯语言模型,通过 OpenAI 的 API 的 GPT-3.5)。

8、StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

https://arxiv.org/abs/2301.09515

Axel Sauer, Tero Karras, Samuli Laine, Andreas Geiger, Timo Aila.

GANs在扩散模型的强势下依然可以一战

尽管扩散模型由于其令人印象深刻的多功能性和鲁棒性已经成为图像生成的焦点,GANs仍然具有一些优势。最突出的是,它们的效率要高得多:一次向前传递就足以生成一幅图像,而扩散模型则需要多个步骤来完成。

这项工作提出了最新的GAN迭代:StyleGAN-T,以解决大规模文本到图像合成的需求。包括:强文本对齐,可控输出变化,在不同数据上的训练稳定性等。总的来说,这是一项非常扎实的工程工作,将现代神经网络和优化实践应用于基于gan的图像生成。

StyleGan-T与现有的著名扩散模型(如DALL·e2)有一些相似之处,例如使用CLIP嵌入的条件生成引导。作者强调,这种GAN模型可以与文本提示更好地对齐-变化(即,希望生成的图像提示,但在多次生成时也具有合理的可变性)。

考虑到效率等限制因素,gan仍然具有竞争力,但我们不期望它们很快就会使扩散模型过时,因为这些模型在不断改进并找到新的用途。

9、Text-To-4D Dynamic Scene Generation (MAV3D)

https://make-a-video3d.github.io/

Uriel Singer, Shelly Sheynin, Adam Polyak, Oron Ashual, Iurii Makarov, Filippos Kokkinos, Naman Goyal, Andrea Vedaldi, Devi Parikh, Justin Johnson, Yaniv Taigman.

为生成图像增加了一个维度:生成3D视频。

这项工作最令人印象深刻的壮举之一是,与图像不同3D视频和文本数据对并不多。作者依靠现有的预训练文本到视频模型(Make-A-Video[7],也来自Meta)作为NeRF模型的“场景先验”,该模型经过优化以创建场景的3D表示。也就是说在优化过程中,NeRF模型从连续的时空坐标创建场景的一系列视图,然后使用扩散模型对图像的真实感和与文本提示的对齐进行评分,这种技术称为评分蒸馏采样。

可以被视为DreamFusion[8]的扩展,这是一个文本到3d图像模型,其中添加了时间维度。这种模型生成的视频很短,不包含任何故事情节,因为这仍然是长视频生成的一个挑战。

10、PADL: Language-Directed Physics-Based Character Control

https://arxiv.org/abs/2301.13868

Jordan Juravsky, Yunrong Guo, Sanja Fidler, Xue Bin Peng.

超越文本的 LM 应用程序。

这项工作使用 LM 将自然语言指令映射到角色控制。想一想使用任意复杂的高级语言指令在视频游戏中移动角色。这在可访问性(例如,通过减少显式输入更快地设计动画)、新的视频游戏体验,甚至是具有越来越复杂的指令的新颖的一般人机交互方面具有很大的潜力。

该方法涉及学习将语言指令与角色动作对齐的技能嵌入,训练策略,最后学习聚合策略以结合技能和任务(例如,涉及对象和复杂的交互)。

最后本文的一些其他引用

[1] “SoundStream: An End-to-End Neural Audio Codec” by Neil Zeghidour, Alejandro Luebs, Ahmed Omran, Jan Skoglund, Marco Tagliasacchi, 2021.

[2] “W2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training” by Yu-An Chung, Yu Zhang, Wei Han, Chung-Cheng Chiu, James Qin, Ruoming Pang, Yonghui Wu, 2021.

[3] “MuLan: A Joint Embedding of Music Audio and Natural Language” by Qingqing Huang, Aren Jansen, Joonseok Lee, Ravi Ganti, Judith Yue Li, Daniel P. W. Ellis, 2022.

[4] “DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature” by Eric Mitchell, Yoonho Lee, Alexander Khazatsky, Christopher D. Manning, Chelsea Finn, 2023.

[5] “Finetuned Language Models Are Zero-Shot Learners” by Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, Quoc V. Le, 2021.

[6] “Thinking Like Transformers” by Gail Weiss, Yoav Goldberg, Eran Yahav, 2021.

[7] “Make-A-Video: Text-to-Video Generation without Text-Video Data” by Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, Yaniv Taigman, 2022.

[8] “OPT: Open Pre-trained Transformer Language Models” by Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig, Punit Singh Koura, Anjali Sridhar, Tianlu Wang, Luke Zettlemoyer, 2022.

[9] “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” by Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou, 2022.

https://avoid.overfit.cn/post/5cdbc0916d7c4428b44305a2546cc898

作者:Sergi Castella i Sapé


http://chatgpt.dhexx.cn/article/g2ibxYS5.shtml

相关文章

深度学习研究综述

本文分为四章。 第一章 神经网络的发展 深度学习(deep learning)作为机器学习算法中的一个新兴技术,其动机在于建立,模拟人脑进行分析学习的神经网络。 深度学习的本质是对观察数据进行分层特征表示,实现将低级特征进…

如何快速入门深度学习写论文?

原文作者:月来客栈 https://www.zhihu.com/people/the_lastest 最快的方式: 第一,选择一篇有代码的论文,记住一定要有代码; 第二,大致弄清楚论文里所提出算法的思想原理; 第三&#xff…

2021年3月四篇深度学习论文推荐

这是Machine-Learning-Collage系列,每隔一周作者都会编写一个本周论文的幻灯片摘要。每月底所有的幻灯片画都会被集中到一个总结文章中。作者希望给读者一个直观和直观的一些最酷的趋势。以下是作者在2021年3月读到的四篇最喜欢的论文,以及为什么我相信它…

深度学习论文《Deep Learning》

论文《Deep Learning》 (深度学习) 作者:Yann Lecun, Yoshua Bengio, Geoffery Hinton 单位: FAIR, NYU, UMontreal, Utoronto, Google 发表会议及时间:《Nature》杂志 1、论文作者简介 2019…

2022 年 1 月推荐阅读的四篇深度学习论文

自举元学习到深度学习的时间序列预测,外推与泛化之间的关系与 Ridge Rider 探索多样化最优 ‘Bootstrapped Meta-Learning’ Flennerhag et al. (2021) | 📝 https://arxiv.org/pdf/2109.04504.pdf 元学习算法旨在自动发现归纳偏差,这允许…

深度学习9篇论文

Introduction 卷积神经网络CNN,虽然它听起来就像是生物学、数学和计算机的奇怪混杂产物,但在近些年的机器视觉领域,它是最具影响力的创新结果。随着Alex Krizhevsky开始使用神经网络,将分类错误率由26%降到15%并赢得2012年度Image…

2020年最新Spark企业级面试题【上】

前言 现在距离2021年还有不到一个月的时间了,是不是有的小伙明年不知该怎么复习spark,以及不知道该备战企业中会问到那些问题。好今天他来了总结了20个企业中经常被问到的面题以及会附带一些笔试题哦,编写不易建议收藏。 一、 Spark 有几种…

spark相关面试题总结

(根据博客总结并不断增加自己的内容) 1.spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一…

spark面试题

1.spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计…

Spark面试

场景描述:这是一个Spark的面试题合集。是我自己作为面试者和作为面试官都会被问到或者问到别人的问题,这个总结里面有大量参考了网上和书上各位老师、大佬的一些原文答案,只是希望可以给出更好的回答,一般上我都会把原文链接贴上&…

还有多少人搞不懂这 40 道 Spark 灵魂面试题?

大家好,我是峰哥~ 最近看到了各大厂裁员的消息,没办法,到了毕业季,大家总有一天会各奔东西,今天给分享一些面试题,希望大家能拿到更好的offer! 来源:大数据真好玩 1、spark的有几种部…

关于Spark的面试题,你应该知道这些!

之前分享过一篇博客,👉不会这20个Spark热门技术点,你敢出去面试大数据吗?,那一篇确实是非常精华,提炼出了非常重要同样非常高频的Spark技术点,也算是收到了一些朋友们的好评。本篇博客,博主打算…

史上最全的spark面试题——持续更新中

1.spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合 Dataset:就是一个集合,用于存放数据的 Destributed:分布式,可以并行在集群计算 …

spark 面试题汇总

大数据面试题汇总 大数据面试题汇总 - 简书 spark 资源调优 1、列式存储和行式存储的区别 行存储,数据行存储,一个文件可表达一个二维表。适用于一般的业务场景如CSV文件,文本文件 因为这里的行结构是固定的,每一行都一样&…

Spark面试问题整理(持续更新中......)

Spark应用转换流程 1、 spark应用提交后,经历了一系列的转换,最后成为task在每个节点上执行 2、 RDD的Action算子触发Job的提交,生成RDD DAG 3、 由DAGScheduler将RDD DAG转化为Stage DAG,每个Stage中产生相应的Task集合 4、 Task…

大数据知识面试题-Spark(2022版)

序列号内容链接1大数据知识面试题-通用(2022版)https://blog.csdn.net/qq_43061290/article/details/1248190892大数据知识面试题-Hadoop(2022版)https://blog.csdn.net/qq_43061290/article/details/1248222933大数据知识面试题-…

Spark面试,Spark面试题,Spark面试汇总

Table of Contents 1、你觉得spark 可以完全替代hadoop 么? 2、Spark消费 Kafka,分布式的情况下,如何保证消息的顺序? 3、对于 Spark 中的数据倾斜问题你有什么好的方案? 4、你所理解的 Spark 的 shuffle 过程? 5、Spark有…

Spark高频面试题总结

1. Spark高频面试题总结 1.1 Spark有几种部署方式?请分别简要论述 Local:运行在一台机器上,通常是练手或者测试环境。 Standalone:构建一个基于MsterSlaves的资源调度集群,Spark任务提交给Master运行。是Spark自身的一个调度系统。 Yarn: …

【大数据面试题】(八)Spark 相关面试题

1.spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计…

spark面试题总结

文章目录 一、你是怎么理解Spark,它的特点是什么?二、Spark有几种部署方式,请分别简要论述三、Spark提交作业的参数四、简述Spark的作业提交流程五、你是如何理解Spark中血统(RDD)的概念?它的作用是什么?六、简述Spark的宽窄依赖…