论文阅读《Language Models are Unsupervised Multitask Learners》

article/2025/8/21 23:15:51

论文地址：《Language Models are Unsupervised Multitask Learners》
代码地址：https://github.com/openai/gpt-2

文章目录

论文介绍
模型框架
实验分析
结论

论文介绍

本文将常识推理和情感分析两项任务联系起来，采取更一般的方法。证明了语言模型可以在zero-shot下无需任何参数或架构的修改执行下游任务。

模型框架

核心依旧是Language Modeling，形式化为
在这里插入图片描述
，从中可以学习到
。单任务预测形式化为p(output|input)，多任务则为p(output|input,task)，通过将tasks，inputs和outputs都表示为符号序列，便可和上面的语言模型关联起来。

Training Dataset是从网页抓取得到的相对高质量内容，数据集命名为WebText，是4500万链接的一个子集，包含超过800万个文档，共40GB的文本数据，其中Wikipedia的文档被过滤以避免与测试评估任务的数据重叠。

Input Representation采用BPE（Byte Pair Encoding）方法，且在字节级别上进行合并但是限制合并不同类型的字符以避免类似dog. dog! dog?的出现。这种表示方式能够结合词级别语言模型的优点和字节级别的泛化性能，更加灵活。

模型框架基本同GPT，有一点小改动，例如Layer normalization前移到每个子模块之前（顶层多加一层Layer normalization），初始化策略，扩大词表等。

最小模型117M是原始GPT模型，345M是最大的BERT模型，最大的1542M模型为GPT-2模型。

实验分析

在这里插入图片描述
可以看到，在Zero-shot的情况下，WebText LMs几乎在所有测试数据集上达到了新的SOTA，除了1BW数据集，语言建模能力惊人。

另外还在很多其他任务上进行了对比实验，大多数也取得了提升，如下图：
在这里插入图片描述

结论

论文的主要贡献在于表明了“在一个足够大的、多样化的数据集上，训练一个超大的语言模型（high-capacity），能够很好泛化到其他任务上”。

http://chatgpt.dhexx.cn/article/UJlSMMXP.shtml

相关文章

MulT: An End-to-End Multitask Learning Transformer 多任务共享注意力

MulT: An End-to-End Multitask Learning Transformer 多任务共享注意力

文章同时学习多个高级视觉任务，包括深度估计、语义分割、reshading表面法线估计、2D 关键点检测和边缘检测。与单个任务Transformer相比，跨任务联合培训的Transformer模型能否提高每个任务的性能？在基于Transformer的框架中，可…

阅读更多...

Paper | Multitask learning

Paper | Multitask learning

目录 1. MTL的定义2. MTL的机制 2.1. Representation Bias2.2. Uncorrelated Tasks May Help？3. MTL的用途 3.1. Using the Future to Predict the Present3.2. Time Series Prediction3.3. Using Extra Tasks to Focus Attention3.4. Quantization Smoothing3.5. S…

阅读更多...

GPT2(Language Models are Unsupervised Multitask Learners)论文阅读

GPT2(Language Models are Unsupervised Multitask Learners)论文阅读

1. 论文阅读论文地址：Language Models are Unsupervised Multitask Learners 1.1 背景介绍 2019年OpenAI发布的模型，OpenAI在2018年的GPT1中给出了一种半监督的训练方法，在GPT2中针对如下问题做了升级： 以前机器学习训练代价大…

阅读更多...

#Paper Reading# Language Models are Unsupervised Multitask Learners

#Paper Reading# Language Models are Unsupervised Multitask Learners

论文题目: Language Models are Unsupervised Multitask Learners 论文地址: https://life-extension.github.io/2020/05/27/GPT技术初探/language-models.pdf 论文发表于: OpenAI 2019 论文所属单位: OpenAI 论文大体内容： 本文主要提出了GPT-2（Gener…

阅读更多...

【论文阅读】Multitask Prompted Training Enables Zero-shot Task Generalization

【论文阅读】Multitask Prompted Training Enables Zero-shot Task Generalization

前言本文源自 ICLR 2022 原文地址：Multitask Prompted Training Enables Zero-shot Task Generalization Discussion 中提到的 FLAN 参考博文【论文阅读】Finetuned Language Models Are Zero-Shot Learners_长命百岁️的博客-CSDN博客 Abstract 大模型在多种…

阅读更多...

MultiTask Learning Survey

MultiTask Learning Survey

目录一、常见Multi-Task 架构二、MTL的一些优化方法三、ExperimentConclusion 原文链接：MultiTask Survey 一、常见Multi-Task 架构 Hard和Soft区分：Hard共享底层参数，在高层提取中相互独立；Soft使用十字绣的形式&#xf…

阅读更多...

Multitask Learning

Multitask Learning

参考 Multitask Learning - 云社区 - 腾讯云 1、单任务学习VS多任务学习单任务学习：一次只学习一个任务（task），大部分的机器学习任务都属于单任务学习。多任务学习：把多个相关（related）的任务…

阅读更多...

Multi-Task 多任务学习，那些你不知道的事

Multi-Task 多任务学习，那些你不知道的事

作者 | 三和厂妹来源 | 文末『阅读原文』处概念当在一个任务中要优化多于一个的目标函数[1] ，就可以叫多任务学习一些例外「一个目标函数的多任务」：很多任务中把loss加到一起回传，实质优化的是一个目标函数, 但优化的是多个任务&…

阅读更多...

多任务学习综述：推荐系统多任务学习（multitask）的实战总结和常见问题（一）

多任务学习综述：推荐系统多任务学习（multitask）的实战总结和常见问题（一）

多任务学习算法系列的主要内容是回顾和总结自己2019-2021间在深度学习多任务学习算法(multitask)的工业实践和遇到的常见问题，欢迎更多同学讨论和指正，同时也宣传一波我们组在推荐方向的工作成果——大规模推荐算法库PaddleRec（https://githu…

阅读更多...

VS2012下载和安装

VS2012下载和安装

1.下载链接 https://pan.baidu.com/s/1YR7Xk9Zlv7zQWCsERdVgIQ 提取码：stvi 2.鼠标右击【Visual Studio2012】压缩包选择【解压到Visual Studio2012】。 3.打开解压后的文件夹，鼠标右击【vs_ultimate】选择【以管理员身份运行】。 4.点击【…】可更改安…

阅读更多...

Visual Studio 2013 详细安装教程（安装+注册）

Visual Studio 2013 详细安装教程（安装+注册）

转载自：安装注册：https://jingyan.baidu.com/article/09ea3ede3b2496c0afde3944.html IE10报错解决办法：https://jingyan.baidu.com/article/ff42efa92f79cac19e2202cd.html 1.还是老样子，首先要下载安装文件，这里提供…

阅读更多...

使用cubemx工具的STM32对外部flash(W25Q64)的简单编程

使用cubemx工具的STM32对外部flash(W25Q64)的简单编程

SPI SPI简介 SPI通信原理 SPI是串行外设接口（Serial Peripheral Interface）的缩写，是一种高速的，全双工，同步的通信总线，并且在芯片的管脚上只占用四根线，节约了芯片的管脚，同时为…

阅读更多...

stm32 W25QXX系列驱动 W25Q80 W25Q16 W25Q32 W25Q64 W25Q128 W25Q256

stm32 W25QXX系列驱动 W25Q80 W25Q16 W25Q32 W25Q64 W25Q128 W25Q256

头文件 #ifndef W25QXX__H #define W25QXX__H #include "sys.h"#define W25Q80 0XEF13 #define W25Q16 0XEF14 #define W25Q32 0XEF15 #define W25Q64 0XEF16 #define W25Q128 0XEF17 #define W25Q256 0XEF18#define W25QXX_CS PAout(4)//指令表 #define W25X…

阅读更多...

SPI专题（二）——STM32驱动FLASH(W25Q64)

SPI专题（二）——STM32驱动FLASH(W25Q64)

前言： 为了方便查看博客，特意申请了一个公众号，附上二维码，有兴趣的朋友可以关注，和我一起讨论学习，一起享受技术，一起成长。 github：my github 注：博客所涉及的关于 st…

阅读更多...

STM32系列(HAL库)——F103C8T6通过SPI方式读写W25Q64—(Flash存储模块)

STM32系列(HAL库)——F103C8T6通过SPI方式读写W25Q64—(Flash存储模块)

1.软件准备 (1)编程平台：Keil5 (2)CubeMX (3)XCOM(串口调试助手) 2.硬件准备 (1)W25Q64模块 (2)F1的板子，本例使用经典F103C8T6 (3)ST-link 下载器 (4)USB-TTL模块 (5)杜邦线若干 3.模块资料 (1)模块简介： W25Q64(64M-bit)&#xff0c…

阅读更多...

SPI协议学习Cubmx——读写Flash W25Q64

SPI协议学习Cubmx——读写Flash W25Q64

这是最好的时代，这是最坏的时代； 这是智慧的时代，这是愚蠢的时代； 这是信仰的时期，这是怀疑的时期； 这是光明的季节，这是黑暗的季节； 这是希望之春，这是失望之冬&#xf…

阅读更多...

STM32使用QUADSPI读写外部Nor Flash（以W25Q64为例）

STM32使用QUADSPI读写外部Nor Flash（以W25Q64为例）

使用QUADSPI读写W25Q64 QUADSPI介绍硬件连接双闪存模式禁止双闪存模式使能 QUADSPI命令序列指令阶段地址阶段交替字节阶段空指令周期阶段数据阶段 QUADSPI主要信号接口协议模式单线SPI模式双线SPI模式四线SPI模式使用QUADSPI操作W25Q64发送命令函数状态轮询函数读ID函数QUADSP…

阅读更多...

W25Q64内部结构

W25Q64内部结构

和STM32片上一样我们分析函数接口： 擦除1个扇区【参数必须是4096的倍数】 void SPI_FLASH_SectorErase(uint32_t SectorAddr) 擦除芯片全部 void SPI_FLASH_BulkErase(void) 写入一页【数据比256小】 pBuffer：待写入数据的指针 WriteAddr&#xff…

阅读更多...

基于STM32F401RET6字库烧录（SPIW25Q64驱动）

基于STM32F401RET6字库烧录（SPIW25Q64驱动）

目录一、SPI&W25Q64 1-SPI介绍 2-初始化SPI 3-SPI数据接收和发送函数 4-验证SPI是否配置正确（读W25Q64的ID） 二、W25Q64简介与API函数 1 - W25Q64芯片介绍 2- W25Q64芯片管脚说明 3- W25Q64芯片工作原理 4- W25Q64芯片操作时序三、字库烧…

阅读更多...

STM32CubeMx开发之路—13使用SPI读写W25Q64

STM32CubeMx开发之路—13使用SPI读写W25Q64

!!! 本文已同步到码云 - 点击此链接获取最新 - 可进入码云提交修改 !!! 附件源码已放到码云 ! ! ! ( 请点击文首链接进入仓库 ) 运行环境 Windows10STM32CubeMX Version 5.2.0Keil5(MDK5) Version 5.28.0.0 简介本例程主要讲解如何使用硬件IIC读写24C02 STM32CubeMx基本配…

阅读更多...

推荐文章