GPT2(Language Models are Unsupervised Multitask Learners)论文阅读

GPT2(Language Models are Unsupervised Multitask Learners)论文阅读

article/2025/8/21 23:23:43

1. 论文阅读

论文地址：Language Models are Unsupervised Multitask Learners

1.1 背景介绍

2019年OpenAI发布的模型，OpenAI在2018年的GPT1中给出了一种半监督的训练方法，在GPT2中针对如下问题做了升级：

以前机器学习训练代价大，往往先要指定训练任务和高质量的标注数据集，且要保证训练数据和测试数据的分布相同，不同任务间无法复用；GPT2实现一个更通用的系统，支持多种NLP任务的学习，实现了Zero Shot。
大模型训练往往需要海量数据，准备高质量的标注数据集明显是不现实的；GPT2中支持使用网上公开的无标注的数据进行训练。

1.2 方法实现

在GPT1的基础上，GPT2中在多种NLP任务表示、训练数据准备、输入表示、模型设计四个方面上进行了改进实现。

1.2.1 多种NLP任务表示

论文关注的核心是NLP的语言模型，对于一个指定的NLP任务来说是通过条件概率p(output|input)来获取输出；对于多任务学习来说，输出应该跟任务是相关的，即p(output|input,task)；参考论文【Multitask Learning as Question Answering】把多种NLP训练任务都变成了基于上下文的问答任务(Question-Answering-Over-Context)。例如翻译任务表示成(translate to french, english text, french text)，阅读理解任务表示成(answer the question, document question, answer)

1.2.2 训练数据

使用了自己准备的WebText数据集，使用了Dragnet和newspaper内容提取器。总共有800万文档，共40GB的文本数据。

1.2.3 输入表示

输入表示采用了BPE(Byte Pair Encoding)算法进行tokenizer，这里没有直接使用Unicode做为基础的词表，因为Unicode共有超过130000个字符太多了，这里采用了字节粒度的BPE，初始词表有256个(2**8)。

1.2.4 模型设计

模型设计上是基于GPT1进行改造的，GPT1的结构是基于transformer decoder设计的。GPT2的结构如下：
在这里插入图片描述

GPT2跟GPT1相比不同的点在于以下几点：

对于每个子block的输入都加上了layer norm，类似于resnet
在self-attention的最后也加上一个额外的layer norm
residual层的权重初始化乘上了1/sqrt(N)，N是residual的层数
词表扩展到了50257个
上下文的大小从512增加到了1024个token
batch size使用512大小

GPT2的不同网络结构的参数大小如下：
在这里插入图片描述

效果上zero-shot不用经过训练和finetune有些也可以达到SOTA：

2. 参考

Language Models are Unsupervised Multitask Learners
Multitask Learning as Question Answering
Unicode
The Illustrated GPT-2 (Visualizing Transformer Language Models)
Understanding Transformer model architectures
GPT-1 to GPT-4: Each of OpenAI’s GPT Models Explained and Compared

http://chatgpt.dhexx.cn/article/1tZOwwD6.shtml

相关文章

#Paper Reading# Language Models are Unsupervised Multitask Learners

#Paper Reading# Language Models are Unsupervised Multitask Learners

论文题目: Language Models are Unsupervised Multitask Learners 论文地址: https://life-extension.github.io/2020/05/27/GPT技术初探/language-models.pdf 论文发表于: OpenAI 2019 论文所属单位: OpenAI 论文大体内容： 本文主要提出了GPT-2（Gener…

阅读更多...

【论文阅读】Multitask Prompted Training Enables Zero-shot Task Generalization

【论文阅读】Multitask Prompted Training Enables Zero-shot Task Generalization

前言本文源自 ICLR 2022 原文地址：Multitask Prompted Training Enables Zero-shot Task Generalization Discussion 中提到的 FLAN 参考博文【论文阅读】Finetuned Language Models Are Zero-Shot Learners_长命百岁️的博客-CSDN博客 Abstract 大模型在多种…

阅读更多...

MultiTask Learning Survey

MultiTask Learning Survey

目录一、常见Multi-Task 架构二、MTL的一些优化方法三、ExperimentConclusion 原文链接：MultiTask Survey 一、常见Multi-Task 架构 Hard和Soft区分：Hard共享底层参数，在高层提取中相互独立；Soft使用十字绣的形式&#xf…

阅读更多...

Multitask Learning

Multitask Learning

参考 Multitask Learning - 云社区 - 腾讯云 1、单任务学习VS多任务学习单任务学习：一次只学习一个任务（task），大部分的机器学习任务都属于单任务学习。多任务学习：把多个相关（related）的任务…

阅读更多...

Multi-Task 多任务学习，那些你不知道的事

Multi-Task 多任务学习，那些你不知道的事

作者 | 三和厂妹来源 | 文末『阅读原文』处概念当在一个任务中要优化多于一个的目标函数[1] ，就可以叫多任务学习一些例外「一个目标函数的多任务」：很多任务中把loss加到一起回传，实质优化的是一个目标函数, 但优化的是多个任务&…

阅读更多...

多任务学习综述：推荐系统多任务学习（multitask）的实战总结和常见问题（一）

多任务学习综述：推荐系统多任务学习（multitask）的实战总结和常见问题（一）

多任务学习算法系列的主要内容是回顾和总结自己2019-2021间在深度学习多任务学习算法(multitask)的工业实践和遇到的常见问题，欢迎更多同学讨论和指正，同时也宣传一波我们组在推荐方向的工作成果——大规模推荐算法库PaddleRec（https://githu…

阅读更多...

VS2012下载和安装

VS2012下载和安装

1.下载链接 https://pan.baidu.com/s/1YR7Xk9Zlv7zQWCsERdVgIQ 提取码：stvi 2.鼠标右击【Visual Studio2012】压缩包选择【解压到Visual Studio2012】。 3.打开解压后的文件夹，鼠标右击【vs_ultimate】选择【以管理员身份运行】。 4.点击【…】可更改安…

阅读更多...

Visual Studio 2013 详细安装教程（安装+注册）

Visual Studio 2013 详细安装教程（安装+注册）

转载自：安装注册：https://jingyan.baidu.com/article/09ea3ede3b2496c0afde3944.html IE10报错解决办法：https://jingyan.baidu.com/article/ff42efa92f79cac19e2202cd.html 1.还是老样子，首先要下载安装文件，这里提供…

阅读更多...

使用cubemx工具的STM32对外部flash(W25Q64)的简单编程

使用cubemx工具的STM32对外部flash(W25Q64)的简单编程

SPI SPI简介 SPI通信原理 SPI是串行外设接口（Serial Peripheral Interface）的缩写，是一种高速的，全双工，同步的通信总线，并且在芯片的管脚上只占用四根线，节约了芯片的管脚，同时为…

阅读更多...

stm32 W25QXX系列驱动 W25Q80 W25Q16 W25Q32 W25Q64 W25Q128 W25Q256

stm32 W25QXX系列驱动 W25Q80 W25Q16 W25Q32 W25Q64 W25Q128 W25Q256

头文件 #ifndef W25QXX__H #define W25QXX__H #include "sys.h"#define W25Q80 0XEF13 #define W25Q16 0XEF14 #define W25Q32 0XEF15 #define W25Q64 0XEF16 #define W25Q128 0XEF17 #define W25Q256 0XEF18#define W25QXX_CS PAout(4)//指令表 #define W25X…

阅读更多...

SPI专题（二）——STM32驱动FLASH(W25Q64)

SPI专题（二）——STM32驱动FLASH(W25Q64)

前言： 为了方便查看博客，特意申请了一个公众号，附上二维码，有兴趣的朋友可以关注，和我一起讨论学习，一起享受技术，一起成长。 github：my github 注：博客所涉及的关于 st…

阅读更多...

STM32系列(HAL库)——F103C8T6通过SPI方式读写W25Q64—(Flash存储模块)

STM32系列(HAL库)——F103C8T6通过SPI方式读写W25Q64—(Flash存储模块)

1.软件准备 (1)编程平台：Keil5 (2)CubeMX (3)XCOM(串口调试助手) 2.硬件准备 (1)W25Q64模块 (2)F1的板子，本例使用经典F103C8T6 (3)ST-link 下载器 (4)USB-TTL模块 (5)杜邦线若干 3.模块资料 (1)模块简介： W25Q64(64M-bit)&#xff0c…

阅读更多...

SPI协议学习Cubmx——读写Flash W25Q64

SPI协议学习Cubmx——读写Flash W25Q64

这是最好的时代，这是最坏的时代； 这是智慧的时代，这是愚蠢的时代； 这是信仰的时期，这是怀疑的时期； 这是光明的季节，这是黑暗的季节； 这是希望之春，这是失望之冬&#xf…

阅读更多...

STM32使用QUADSPI读写外部Nor Flash（以W25Q64为例）

STM32使用QUADSPI读写外部Nor Flash（以W25Q64为例）

使用QUADSPI读写W25Q64 QUADSPI介绍硬件连接双闪存模式禁止双闪存模式使能 QUADSPI命令序列指令阶段地址阶段交替字节阶段空指令周期阶段数据阶段 QUADSPI主要信号接口协议模式单线SPI模式双线SPI模式四线SPI模式使用QUADSPI操作W25Q64发送命令函数状态轮询函数读ID函数QUADSP…

阅读更多...

W25Q64内部结构

W25Q64内部结构

和STM32片上一样我们分析函数接口： 擦除1个扇区【参数必须是4096的倍数】 void SPI_FLASH_SectorErase(uint32_t SectorAddr) 擦除芯片全部 void SPI_FLASH_BulkErase(void) 写入一页【数据比256小】 pBuffer：待写入数据的指针 WriteAddr&#xff…

阅读更多...

基于STM32F401RET6字库烧录（SPIW25Q64驱动）

基于STM32F401RET6字库烧录（SPIW25Q64驱动）

目录一、SPI&W25Q64 1-SPI介绍 2-初始化SPI 3-SPI数据接收和发送函数 4-验证SPI是否配置正确（读W25Q64的ID） 二、W25Q64简介与API函数 1 - W25Q64芯片介绍 2- W25Q64芯片管脚说明 3- W25Q64芯片工作原理 4- W25Q64芯片操作时序三、字库烧…

阅读更多...

STM32CubeMx开发之路—13使用SPI读写W25Q64

STM32CubeMx开发之路—13使用SPI读写W25Q64

!!! 本文已同步到码云 - 点击此链接获取最新 - 可进入码云提交修改 !!! 附件源码已放到码云 ! ! ! ( 请点击文首链接进入仓库 ) 运行环境 Windows10STM32CubeMX Version 5.2.0Keil5(MDK5) Version 5.28.0.0 简介本例程主要讲解如何使用硬件IIC读写24C02 STM32CubeMx基本配…

阅读更多...

STM32CubeMX系列08——SPI通信（W25Q64、NRF24L01无线模块）

STM32CubeMX系列08——SPI通信（W25Q64、NRF24L01无线模块）

文章目录 1. 准备工作1.1. 所用硬件1.2. SPI 简介1.3. 生成工程1.3.1. 创建工程选择主控1.3.2. 系统配置1.3.3. 配置工程目录 2. 读写EEPROM实验（W25Q64）2.1. W25Q64 简介2.2. 代码实现 3. NRF24L01无线模块通信3.1. 模块简介3.2. SPI 配置3.2.1. SPI1 配…

阅读更多...

STM32驱动W25Q64读写数据

STM32驱动W25Q64读写数据

STM32驱动W25Q64读写数据一．基本参数二．通信协议1、时序：2、代码： 三．引脚定义与接线1、引脚定义2、对应接线四．主要代码五．操作步骤与现象六．总结一．基本参数 1.采用…

阅读更多...

学习日记——W25Q64 FLASH—QSPI

学习日记——W25Q64 FLASH—QSPI

W25Q64串行FLASH基础知识大小：8M（Byte）（128块（Block），每块64K字节，每块16个扇区（Sector），每个扇区4K字节，每个扇区16页&#xff0c…

阅读更多...

推荐文章