Paper简读 - ChatGPT相关的InstructGPT

article/2025/1/23 16:19:44

欢迎关注我的CSDN:https://blog.csdn.net/caroline_wendy
本文地址:https://blog.csdn.net/caroline_wendy/article/details/128866056

发表于NLP会议:NeurlPS,EMNLP

  • EMNLP: Empirical Methods in Natural Language Processing,自然语言处理中的经验方法
  • NeurlPS: Neural Information Processing Systems,神经信息处理系统

ChatGPT

ChatGPT: Optimizing Language Models for Dialogue,优化对话的语言模型

  • ChatGPT:https://openai.com/blog/chatgpt/
  • GPT:Generative Pre-trained Transformer,生成式预训练Transformer

We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is a sibling model to InstructGPT, which is trained to follow an instruction in a prompt and provide a detailed response.

  • 我们已经训练了一个名为 ChatGPT 的模型,以对话方式进行交互。对话格式,使 ChatGPT 可以回答后续问题、承认错误、挑战不正确的前提,和拒绝不适当的请求等。 ChatGPT 是 InstructGPT 的兄弟模型,经过训练,可以按照提示中的说明(Instruction),进行操作并提供详细的响应。

发表时间:2022.3.4

InstructGPT: Training language models to follow instructions with human feedback

  • 训练语义模型以服从带有人类反馈的指示

语言模型的有效性、安全性。

A diagram illustrating the three steps of our method: (1) supervised fine-tuning (SFT), (2) reward model (RM) training, and (3) reinforcement learning via proximal policy optimization (PPO) on this reward model. Blue arrows indicate that this data is used to train one of our models. In Step 2, boxes A-D are samples from our models that get ranked by labelers. See Section 3 for more details on our method.

  • 说明我们方法的三个步骤的图表:
    • (1) 监督微调(Supervised Fine-Tuning,SFT)。
    • (2) 奖励模型(Reward Model,RM)训练。
    • (3) 在奖励模型上,通过近端策略优化 (Proximal Policy Optimization,PPO) 进行强化学习。
  • 蓝色箭头,表示此数据,用于训练我们的模型之一。在第 2 步中,方框 A-D 是来自我们的模型的样本,这些样本由标注者进行排序。有关我们方法的更多详细信息,请参阅第 3 节。

image-20230202171407880

Step1: Collect demonstration data, and train a supervised policy. 收集示范数据,训练监督政策。

  1. A prompt is sampled from out prompt dataset. -> Explain the moon landing to a 6 years old.

    • 一个提示是从提示数据集中采样的。 -> 向 6 岁的孩子解释登月
  2. A labeler demonstrates the desired output behavior. -> Some people went to the moon…

    • 打标人员证明所需的输出行为。-> 有些人去了月球… (人工)
  3. This data is used to fine-tune GPT-3 with supervised learning. -> SFT-Text

    • 这些数据用于使用监督学习对GPT-3进行微调。 -> SFT,Supervised Fine-Tuning,监督微调
    • 将问题和答案的文本,放到一起微调,标注答案很贵。

Step2: Collect comparison data, and train a reward model. 收集对比数据,训练奖励模型。

  1. A prompt and several model outputs are sampled. -> Explain the moon landing to a 6 years old.

    • Explain gravity…,解释重力

    • Explain war…,解释战争

    • Moon is natural satellite of…,月球是天然卫星

    • People went to the moon…,人类去月球

    • 一个提示是从提示数据集中采样的。 -> 向 6 岁的孩子解释登月

    • 例如,使用集束搜索(beam search),采样答案。

  2. A labeler ranks the outputs from best to worst. -> D > C > A = B

    • 打标人员将输出从最好到最差进行排序。
    • 数据标注变得简单,同样的标注成本下,得到更多的数据。
  3. This data is used to train our reward model. -> RM-Rank

    • 这些数据用于训练我们的奖励模型。
    • 问题和答案,一起输入模型,输出打分,进行排序。同时,使得生成的答案分数更高。

Step3: Optimize a policy against the reward model using reinforcement learning. 使用强化学习,针对奖励模型优化策略。

  1. A new prompt is sampled from the dataset. -> Write a story about frogs.
    • 从数据集中采样了一个新提示。 -> 写一个关于青蛙的故事。
  2. The policy generates an output. -> PPO - Once upon a time…
    • 该策略生成输出。 -> 近端策略优化 (Proximal Policy Optimization,PPO) - 从前…
  3. The reward model calculates a reward for the output. 奖励模型为输出计算奖励。
    • RM,奖励模型
  4. The reward is used to update the policy using PPO。 -> r k r_{k} rk
    • 奖励用于使用 PPO 更新策略。

技术要点:

  1. 如何标注文本数据?
  2. 如何标注排序数据?
  3. RM模型如何训练?
  4. RM模型和PPO模型,如何进行强化学习?

模型具有泛化性,和先验知识,Few-shot,工具,可用性,正常的地方。

Prompt Dataset:

  • 标注人员,写了很多问题。Plain、Few-shot、User-based。
  • 每个用户采集200个问题,用户ID,避免同时出现在训练集和测试集,过滤人名。
  • 内测版的模型,试用版本,发布子产品的思路,使用数据。

三个数据集:SFT Dataset (13k)、RM Dataset (33k)、PPO Dataset (31k)。

标注标准:helpfulness、truthfulness、harmlessness

  • Supervised fine-tuning (SFT),监督微调,训练16个epoch。
  • Reward modeling (RM),输出为1的线性层,1个标量奖励,模型由175B -> 6B。
    • Pairwise Ranking loss,log(sigmoid(y1-y2)),交叉熵,K=9,选择36对。
    • 9次前向,计算36次,4个答案。选择最好,softmax,容易overfitter
  • Reinforcement learning (RL),PPO,Proximal Policy Optimization,近端策略优化。
    • 强化学习里面,模型叫做Policy
    • π S F T \pi^{SFT} πSFT训练好的模型, π ϕ R L \pi^{RL}_{\phi} πϕRL需要学习的模型,最大化目标函数,更新之后,采样的数据是不一样的,标的排序,而不是标的Y。
    • 第1项:在线学习,人不停反馈,学一个函数替代人。
    • 第2项:结果和之前的,不要跑太远,KL散度,softmax概率的相似度。PPO的主要思想。
    • 第3项:原始数据集也不要放弃,原始的GPT3函数。

Reward modeling的Pairwise Ranking loss:

image-20230202190142186

Proximal Policy Optimization:

image-20230202191530148

参考文章:

  • NLP:《ChatGPT: Optimizing Language Models for Dialogue一种优化的对话语言模型》翻译与解读
  • AIGC:ChatGPT(一个里程碑式的对话聊天机器人)的简介(意义/功能/核心技术等)、使用方法(七类任务)、案例应用(提问基础性/事实性/逻辑性/创造性/开放性的问题以及编程相关)之详细攻略

http://chatgpt.dhexx.cn/article/gVS8ciBG.shtml

相关文章

ChatGPT  一本正经的胡说八道 那也看看原理吧

最近,ChatGPT横空出世。这款被马斯克形容为“强大到危险”的AI,不但能够与人聊天互动,还能写文章、改代码。于是,人们纷纷想让AI替自己做些什么,有人通过两分钟的提问便得到了一篇完美的论文,有人希望它能帮…

ChatGPT辅助处理excel表格数据

选择使用方法 找现成的工具。试了两个,有各种问题。比如比如北大团队出品的ChatExcel等。我的表格列比较多,上传文件后需要砍掉一部分。输入几个命令以后就识别不了了。即使识别到了,输出也受限制,还不如手工处理。另外&#xff…

全新视角!带你一文读懂ChatGPT!

最了解你的人不是你的朋友,而是你的敌人。 ——《东邪西毒》 目录 什么是ChatGPT? ChatGPT为什么会突然爆红网络? ChatGPT能帮助我们做什么? 获取源码?私信?关注?点赞?收藏&…

AI提效工具|借助chatgpt快速读论文,快速总结、归纳、索引相似文章

目前新论文层出不穷,“快速阅读论文”成为研究者们一个必备能力。本文简单记录了近期出现的两个借助chatgpt来帮助我们快速读论文的“神器”,帮助大家快速上手应用,迅速提升论文阅读速度。 此外,本人也会定期更新记录一些类似的“…

Word+ChatGPT,一分钟完成周报总结作文

大家好,我是可夫小子,关注AIGC、读书和自媒体。解锁更多ChatGPT、AI绘画玩法。加:keeepdance,备注:chatgpt,拉你进群。 Office 的办公软件Word,是我们日常的文字工作的阵地。与ChatGPT的文字生成…

ChatDOC工具——使用ChatGPT高效阅读技术科研论文

ChatDOC是一款功能强大的人工智能阅读辅助工具,专为帮助用户快速理解论文内容而设计。使用ChatDOC,您可以通过上传PDF版论文文献,利用先进的ChatGPT技术,只需三个简单步骤,便可以高效地阅读论文,提高阅读效…

如何用 ChatGPT 帮你10分钟读完数据库论文

本周,OpenAI 向所有 ChatGPT Plus 用户开放了两个重要功能: Web Browsing 和 Plugins 它俩都需要用户自己开启,才能使用,如下: 作为对数据库论文的爱好者,我第一款挑选的 Plugin 便是 ChatWithPDF,毕竟真的…

ChatGPT实现代码解释

代码解释 新手程序员在入门之初,最好的学习路径就是直接阅读其他人的代码,从中学会别人是怎么写的,为什么这么写。过去,这个学习过程可能需要广泛阅读官方文档,在 GitHub issue 上提问,上 Stack Overflow …

chatPDF | 别再自己读文献了!让chatGPT来帮你读吧!~

1写在前面 自从chatGPT开放API以后,相关基于此的app也是层出不穷。🤪 ChatGPT API是基于OpenAI的自然语言处理模型的API。🧐 基于这个API,开发人员可以通过程序调用和使用ChatGPT模型来解决各种文本相关的任务。😉 其实…

使用ChatGPT工具阅读文献的实战教程

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

chatGPT陪你读源码

概述 chatGPT从2022年11月份崭露头角以来,一直备受关注。他的人工智能对话颠覆了以往智能对话的刻板印象,跟chatGPT聊天,感觉就像百晓生一样,什么都懂。尤其在编程方面,chatGPT可以根据实际的业务场景需求&#xff0c…

用 ChatGPT 读 Vue3 源码,会怎么样?

前言 ChatGPT 最近十分火爆,今天我也来让 ChatGPT 帮我阅读一下 Vue3 的源代码。 都知道 Vue3 组件有一个 setup函数。那么它内部做了什么呢,今天跟随 ChatGPT 来一探究竟。 实战 setup 函数在什么位置呢,我们不知道他的实现函数名称&…

ChatGPT读PDF、生成思维导图的几种方案

大家好,我是可夫小子,《小白玩转ChatGPT》专栏作者,关注AIGC、读书和自媒体。 日常办公,我们离不开pdf文档读取,思维导图制作,那么ChatGPT能够给我们什么帮助呢? 通常的方法是:我们…

chatgpt赋能python:Numpy读音:是“num-pie”还是“num-pee”?

Numpy读音:是“num-pie”还是“num-pee”? 你是否曾经在想,“numpy”这个词怎么念?很多人都有不同的看法。有些人说“num-pie”,而另一些人则说“num-pee”。那么,谁是正确的呢?在这篇文章中&a…

一文读懂ChatGPT(全文由ChatGPT撰写)

最近ChatGPT爆火,相信大家或多或少都听说过ChatGPT。到底ChatGPT是什么?有什么优缺点呢? 今天就由ChatGPT自己来给大家答疑解惑~ 全文文案来自ChatGPT! 01 ChatGPT是什么 ChatGPT是一种基于人工智能技术的自然语言处理系统&…

【记录】ChatGPT使用记录

文章目录 2023年02月08日数学哲学Java其他 2023年02月09日ChatGPT网络 2023年02月10日算法组网 2023年02月11日ChatGPT(优化目标)DOS 2023年02月15日影评(三体、流浪地球2)Discord 2023年02月17日翻译 🔥 根据对话的日…

ChatGPT App 来了!

两个月前,在 ChatGPT 相继公开 API、带来「插件功能」之际,我们明显感知到了 GPT 正在以前所未有的速度成为人工智能时代的 Windows,AI 发展也正处于 iPhone 4 时刻。 当下,ChatGPT 的进度再下一城,其自身真正迎来了 …

ChatGPT大规模封锁亚洲地区账号

我是卢松松,点点上面的头像,欢迎关注我哦! 在毫无征兆的情况下,从3月31日开始OpenAI大规模封号,而且主要集中在亚洲地区,特别是ip地址在台湾、日本、香港三地的,命中率目测40%。新注册的账号、…

Chatgpt详细登录教程

一、准备“梯子” 梯子、科学上网、翻墙,三者是同一个意思。本店没相关科技产品和服务,请用户各显神通。 1. 确认IP 打开跳转入口,看下图 ​ 2.尝试登录 注意,第1点不是必需的,有些设备ip查询会延迟但当下依然能登…

ChatGPT知识库丨ChatGPT 登不上官网怎么办?

ChatGPT知识库丨公开 分享 进步 一站式GPT知识库 语雀秉持公开、分享和进步的理念,打造一站式ChatGPT知识库https://www.yuque.com/gptcn/gpt原文首发于语雀知识库文档 最近看见不少人说ChatGPT 登不上官网了,那怎么办? 首先,记…