Language Models are Unsupervised Multitask Learners 笔记

article/2025/8/21 20:58:02

语言模型是无监督的多任务学习者

摘要

自然语言处理任务,如问题回答、机器翻译、阅读理解和总结,通常是通过任务特定数据集上的监督学习来完成的。我们证明,当语言模型在一个称为WebText的数百万网页的新数据集上训练时,它们可以在没有任何明确监督的情况下开始学习这些任务。当以文档和问题为条件时,语言模型生成的答案在CoQA数据集上达到55F1—在不使用127,000+训练示例的情况下匹配或超过4个基线系统中的3个。语言模型的能力对于零起点任务转移的成功是至关重要的,提高它可以以对数线性的方式提高任务之间的性能。我们最大的模型,GPT-2,是一个1.5B的参数转换器,在零镜头设置下,在8个测试的语言建模数据集中,有7个获得了最先进的结果,但仍然不适合WebText。模型中的样本反映了这些改进,并包含了连贯的文本段落。这些发现为构建语言处理系统提供了一条有希望的道路,该系统可以从自然发生的演示中学习执行任务

Introduction

机器学习系统现在通过使用大数据集、大容量模型和监督学习的组合(Krizhevsky et al., 2012) (Sutskever et al., 2014) (Amodeiet al., 2016)来训练它们。这些系统对数据分布(Recht等,2018)和任务规范(Kirkpatrick等,2017)的变化是脆弱和敏感的。当前的系统更容易被描述为狭隘的专家,而不是称职的通才。我们希望向更通用的系统发展,它可以执行许多任务,最终不需要为每个任务手动创建和标记一个训练数据集。

创建ML系统的主要方法是:收集显示所需任务的正确行为的训练示例数据集,训练系统模仿这些行为,然后在独立且同分布(IID)的保留示例上测试其性能。这有助于在狭隘的专家上取得进展。但是标题模式(Lake et al.,2017)、阅读理解系统(Jia &(Liang, 2017)和图像分类器(Alcorn et al., 2018)对可能输入的多样性和多样性进行了研究,突出了这种方法的一些缺点。

我们怀疑,在单一领域数据集上进行单一任务训练的普遍性是导致当前系统缺乏泛化的主要原因。在当前架构下,向健壮系统的进展可能需要在广泛的领域和任务上进行培训和性能度量。最近,一些基准指标被提出,如GLUE (Wang et al., 2018)和decaNLP (McCann et al., 2018)开始研究这一点。

多任务学习(Caruana, 1997)是一种很有前途的提高综合性能的框架。然而,多任务训练在NLP中还处于起步阶段。最近的工作报告显示了适度的性能改进(Yogatama等人,2019年)和迄今为止最雄心勃勃的两项努力,分别训练了10对和17对(数据集,目标)(McCann等人,2018年)(Bowman等人,2018年)。从元学习的角度来看,每对(数据集、目标)都是从数据集和目标的分布中抽取的单个训练示例。目前的ML系统需要数百至数千个例子来归纳归纳功能。这表明,许多多任务训练需要许多有效的训练对,以实现其承诺与当前的方法。要想继续扩大数据集的创建和目标的设计,达到用现有技术强行达到的程度,将是非常困难的。这就激发了他们去探索额外的多任务学习设置。

当前在语言任务上表现最好的系统利用预先训练监督微调的组合。这一方法历史悠久,其趋势是更灵活的传输形式。首先,单词学习和使用向量作为输入特定于任务的架构(Mikolov et al ., 2013) (Collobert et al ., 2011),然后传输循环网络的上下文表示(戴&勒,2015)(Peters等人,2018),和最近的研究表明,特定于任务的架构都不再必要,转移许多self-attention块就足够了(雷德福et al ., 2018) (Devlin et al ., 2018)。

为了完成一项任务,这些方法仍然需要监督训练。当只有极少的或没有监督数据可用时,另一个领域的研究表明,语言模型有望执行特定的任务,如常识推理(Schwartz et al., 2017)和情感分析(Radford et al., 2017)。

在本文中,我们将这两种工作联系起来,并讨论更一般的转移方法的发展趋势。我们证明了语言模型可以在不需要任何参数或结构修改的情况下,在零距离设置下执行下游任务。我们通过强调语言模型在零镜头设置下执行广泛任务的能力来展示这种方法的潜力。我们根据任务实现有希望的、有竞争力的和最先进的结果。

Approach

我们方法的核心是语言建模。语言建模通常被描述为一组示例(x1, x2,…(x n)每个符号由可变长度的符号序列组成(s1, s2,…,s, n)。由于语言具有自然的顺序性,通常将符号上的联合概率因式分解为条件概率的乘积(Jelinek & Mercer, 1980) (Bengio et al., 2003)。

这种方法允许对p(x)进行可处理的采样和估计,以及p(s n-k,…,s n |s 1,…,s n-k-1)。近年来,可以计算这些条件概率的模型的表达性有了显著的改进,例如Transformer这样的自我关注架构(Vaswani et al., 2017)。

学习执行单个任务可以在概率框架中表示为估计一个条件分布p(输出|输入)。由于一个通用系统应该能够执行许多不同的任务,即使对于相同的输入,它不仅应该对输入设置条件,而且还应该对要执行的任务设置条件。也就是说,它应该对p(输出|输入,任务)进行建模这在多任务和元学习环境中得到了不同程度的形式化任务调节通常在架构级实现,例如任务特定的编码器和解码器(Kaiser et al., 2017),或者在算法级实现,例如MAML的内环和外环优化框架(Finn et al., 2017)。但如McCann等人(2018)所示,语言提供了一种灵活的方式来指定任务、输入和输出,所有这些都是作为符号序列。例如,可以将翻译训练示例编写为序列(翻译成法语、英语文本、法语文本)。同样,一个阅读理解训练的例子可以写成(回答问题、文档、问题、答案)。McCann等人(2018)证明了训练单一模型MQAN是可能的,在使用这种格式的示例上推断并执行许多不同的任务。

原则上,语言建模也能够学习McCann等人(2018)的任务,而不需要明确地监督哪些符号是要预测的输出。由于监督目标与无监督目标相同,但仅在序列的一个子集上求值,因此无监督目标的全局最小值也是有监督目标的全局最小值。在这个稍微有些玩具的设置中,(Sutskever et al., 2015)中讨论的将密度估计作为原则性训练目标的关注点被搁置一边。相反,问题变成了我们能否在实践中优化无监督目标以使其收敛。初步实验证实,足够大的语言模型能够在这种玩具式的设置中执行多任务学习,但学习速度比显式监督方法慢得多。

虽然这是一个很大的步骤,从上面描述的良好的设置到混乱的 “language in the wild”, Weston(2016)认为,在对话的上下文中,为了开发能够直接学习自然语言的系统,并且证明了一个概念——通过使用教师输出的前向预测,在没有奖励信号的情况下学习QA任务。虽然对话是一种吸引人的方式,但我们担心它过于严格。互联网包含了大量的信息,人们可以被动地获取这些信息,而不需要进行互动交流。我们推测,一个具有足够能力的语言模型将开始学习推断和执行自然语言序列中所演示的任务,以便更好地预测它们,而不管它们的获取方法如何。如果一个语言模型能够做到这一点,那么它实际上就是在执行无监督的多任务学习。我们通过分析语言模型在各种任务上的零距离设置的性能来测试是否存在这种情况

2.1 训练数据集

之前的大多数工作都是在单一的文本上训练语言模型,比如新闻文章(Jozefowicz et al., 2016),维基百科(Merity et al., 2016)或小说(Kiros et al., 2015)。我们的方法鼓励建立尽可能大和多样化的数据集,以收集在尽可能多的领域和环境中任务的自然局域网语言演示。

一个有前途的来源,多样化和几乎无限的文本是网页提取,如常见的爬虫。虽然这些归档文件比当前的语言建模数据集要大很多个数量级,但它们存在严重的数据质量问题。陈,Le(2018)在他们关于常识推理的工作中使用了普通的爬虫,但注意到大量文档的内容大多难以理解。在我们最初的普通爬虫实验中,我们发现了类似的数据问题。陈,Le(2018)的最佳结果是通过使用一个小的常见抓取子样本实现的,该子样本只包含与目标数据集最相似的文档,即Winograd模式挑战。虽然这是一种提高特定任务性能的实用方法,但我们希望避免对将要提前执行的任务做出假设

相反,我们创建了一个新的web提取,它强调文档质量。为了做到这一点,我们只抓取那些由人类管理/过滤的网页。手动过滤一个完整的网页抓取会非常昂贵,所以作为一个起点,我们从社交媒体平台Reddit上抓取所有的出站链接,这个平台至少收到了3个karma。这可以被看作是其他用户是否觉得链接有趣、有教育意义或仅仅是有趣的启发式指示器。

得到的数据集WebText包含这4500万个链接的文本子集。为了从HTML响应中提取文本,我们结合使用了Dragnet (Peters &《Lecocq, 2013》和《报纸1》的内容提取器。本文中的所有研究都使用了WebText的初步版本,该版本不包括在2017年12月之后创建的链接,在删除重复和基于启发式清理之后,该版本包含了总计40gb文本的800多万个文档。


http://chatgpt.dhexx.cn/article/VFghRUEb.shtml

相关文章

GPT2.0 Language Models are Unsupervised Multitask Learners 论文解读

转载请注明出处,原文地址 本文是对《Language Models are Unsupervised Multitask Learners》的翻译,部分内容可能会存在理解错误,如有错误欢迎指正交流。 个人对论文的理解 最近GPT-2的关注度很高,其效果极其惊人,…

【论文阅读】强化学习-Transfer and Multitask RL专题8篇

文章目录 什么是Transfer and Multitask RLProgressive Neural Networks, Rusu, et al, 2016. Algorithm: Progressive Networks.Universal Value Function Approximators, Schaul et al, 2015. Algorithm: UVFA.Reinforcement Learning with Unsupervised Auxiliary Tasks, Ja…

论文阅读 decaNLP -- The Natural Language Decathlon: Multitask Leaning as Question Answering

作为一个刚刚入门NLP的学生,希望在阅读每一篇论文后都进行一定的记录,提炼文中观点,写出自己的理解,如有任何解读错误之处敬请指出,O(∩_∩)O谢谢&#xff01…

Recommending What Video to Watch Next: A Multitask Ranking System

文章目录 总结细节实验 总结 魔改mmoewide&deep 细节 mmoewide&deep 分成2个阶段:获得candidates、ranking,ranking时用point-wise ranking时,用w&d获取浅层feature,用于移除position bias ranking model&#x…

《BDD100K: A Diverse Driving Dataset for Heterogeneous Multitask Learning》论文阅读笔记

论文链接 A Diverse Driving Dataset for Heterogeneous Multitask Learning Abstract 介绍了BDD100K数据集,包含100K段视频以及10种类型的任务,针对这种多元化任务需要特殊的训练策略。 1 Introduction ImageNet、COCO等数据集在之前很长一段时间里…

multitask-graph-attention(一)

多任务图注意力框架预测药物毒性,原文:Mining Toxicity Information from Large Amounts of Toxicity Data,代码:MGA,文章从 MGA/interpretation/Ames_interpret.ipynb 开始 文章目录 1.build_dataset1.1.load_graph_…

12.UniT:Multimodal Multitask Learning with a Unified Transformer

1.动机 UniT,它通过统一transformer联合学习跨不同领域的多个任务。我们的UniT模型可以同时处理8个数据集上的7个任务,从对象检测到视觉和语言推理以及自然语言理解,同时通过紧凑的模型参数集实现每个任务的强大性能。 我们提出了一个统一的t…

Flow Prediction in Spatio-Temporal Networks Based on Multitask Deep Learning(TKDE2020)

Flow Prediction in Spatio-Temporal Networks Based on Multitask Deep Learning(TKDE2020) 摘要:预测交通流(如车辆、人群和自行车的交通),包括在一个节点的进出交通和不同节点之间的过渡,在交通运输系统的时空网络…

GPT2.0语言模型 Language Models are Unsupervised Multitask Learners

论文链接:https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf Tensorflow代码链接:https://github.com/openai/gpt-2 Pytorch代码链接:https://github.com/huggingface/pytorch-pretrained-BERT 参考文档&…

论文阅读《Language Models are Unsupervised Multitask Learners》

论文地址:《Language Models are Unsupervised Multitask Learners》 代码地址:https://github.com/openai/gpt-2 文章目录 论文介绍模型框架实验分析结论 论文介绍 本文将常识推理和情感分析两项任务联系起来,采取更一般的方法。证明了语言…

MulT: An End-to-End Multitask Learning Transformer 多任务共享注意力

文章 同时学习多个高级视觉任务,包括深度估计、语义分割、reshading表面法线估计、2D 关键点检测和边缘检测。 与单个任务Transformer相比,跨任务联合培训的Transformer模型能否提高每个任务的性能?在基于Transformer的框架中,可…

Paper | Multitask learning

目录 1. MTL的定义2. MTL的机制 2.1. Representation Bias2.2. Uncorrelated Tasks May Help?3. MTL的用途 3.1. Using the Future to Predict the Present3.2. Time Series Prediction3.3. Using Extra Tasks to Focus Attention3.4. Quantization Smoothing3.5. S…

GPT2(Language Models are Unsupervised Multitask Learners)论文阅读

1. 论文阅读 论文地址:Language Models are Unsupervised Multitask Learners 1.1 背景介绍 2019年OpenAI发布的模型,OpenAI在2018年的GPT1中给出了一种半监督的训练方法,在GPT2中针对如下问题做了升级: 以前机器学习训练代价大…

#Paper Reading# Language Models are Unsupervised Multitask Learners

论文题目: Language Models are Unsupervised Multitask Learners 论文地址: https://life-extension.github.io/2020/05/27/GPT技术初探/language-models.pdf 论文发表于: OpenAI 2019 论文所属单位: OpenAI 论文大体内容: 本文主要提出了GPT-2(Gener…

【论文阅读】Multitask Prompted Training Enables Zero-shot Task Generalization

前言 本文源自 ICLR 2022 原文地址:Multitask Prompted Training Enables Zero-shot Task Generalization Discussion 中提到的 FLAN 参考博文 【论文阅读】Finetuned Language Models Are Zero-Shot Learners_长命百岁️的博客-CSDN博客 Abstract 大模型在多种…

MultiTask Learning Survey

目录 一、常见Multi-Task 架构 二、MTL的一些优化方法 三、ExperimentConclusion 原文链接:MultiTask Survey 一、常见Multi-Task 架构 Hard和Soft区分:Hard共享底层参数,在高层提取中相互独立;Soft使用十字绣的形式&#xf…

Multitask Learning

参考 Multitask Learning - 云社区 - 腾讯云 1、单任务学习VS多任务学习 单任务学习:一次只学习一个任务(task),大部分的机器学习任务都属于单任务学习。多任务学习:把多个相关(related)的任务…

Multi-Task 多任务学习, 那些你不知道的事

作者 | 三和厂妹 来源 | 文末『阅读原文』处 概念 当在一个任务中要优化多于一个的目标函数[1] ,就可以叫多任务学习 一些例外 「一个目标函数的多任务」:很多任务中把loss加到一起回传,实质优化的是一个目标函数, 但优化的是多个任务&…

多任务学习综述:推荐系统多任务学习(multitask)的实战总结和常见问题(一)

多任务学习算法系列的主要内容是回顾和总结自己2019-2021间在深度学习多任务学习算法(multitask)的工业实践和遇到的常见问题,欢迎更多同学讨论和指正,同时也宣传一波我们组在推荐方向的工作成果——大规模推荐算法库PaddleRec(https://githu…

VS2012下载和安装

1.下载链接 https://pan.baidu.com/s/1YR7Xk9Zlv7zQWCsERdVgIQ 提取码:stvi 2.鼠标右击【Visual Studio2012】压缩包选择【解压到Visual Studio2012】。 3.打开解压后的文件夹,鼠标右击【vs_ultimate】选择【以管理员身份运行】。 4.点击【…】可更改安…