ChatGPT的来源-InstructGPT论文简要介绍

article/2024/12/22 9:23:24

文章目录

  • 前言
  • 一、ChatGPT是什么?
  • 二、ChatGPT的前身InstructGPT论文解读
      • 论文下载地址:
      • 主要内容:
      • 模型训练
      • 数据类型
      • 结果
      • 效果示例
  • 总结


前言

现在大火的ChatGPT功能十分强大,不仅可以回答用户问题,编写故事,甚至还可以写代码。ChatGPT跟OpenAI之前发表的InstructGPT使用的模型方法比较类似,只是训练的数据不同,为了探索ChatGPT的原理,笔者找来2022年3月发表的InstructGPT的论文,做了简要的介绍。


一、ChatGPT是什么?

ChatGPT,美国OpenAI 研发的聊天机器人程序 ,于2022年11月30日发布 。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。

二、ChatGPT的前身InstructGPT论文解读

论文下载地址:

https://arxiv.org/abs/2203.02155

主要内容:

这篇文章的主要内容是大型语言模型并不能很好的遵循用户的意图,这些模型生成的内容可能对用户毫无帮助,与用户的期待并不一致。为了解决这个问题,InstructGPT使用引入了人类反馈来训练模型,虽然模型仍然有一些小的错误,但是这种方法给大型语言模型输出结果与人类期望一致提供了未来的研究方向。ChatGPT也是在InstructGPT模型的基础上开发出来的。

模型训练

训练模型主要有三个步骤,论文的配图做了非常详细的说明:
在这里插入图片描述

  • 步骤1:supervised fine-tuning (SFT)
    OpenAI雇佣的数据标注员人工生成问题和答案,通过监督学习使用这个数据来对预先训练好的GPT-3模型进行微调。
  • 步骤2:reward model (RM) training
    使用不同的模型生成不同的结果,打分员手工对不同的回答打分,然后使用这些数据训练一个激励模型来预测人类更喜欢的结果。
  • 步骤3:reinforcement learning via proximal policy optimization (PPO)
    将激励模型作为标准,对已生成的模型使用PPO算法进行微调,生成最佳策略。

数据类型

数据的类型主要有三类:

  • Plain:标记员随机想出一个任务,确保任务的多样性。
  • Few-shot:标记员想出一个指示,并且提供配套的多个查询语句和响应
  • User-based:与OpenAI的待开发应用列表里相关的任务

结果

论文主要使用了API分布和公开的NLP数据集两个维度来评价这个模型。

  • 1.API分布下的结果
    在这里插入图片描述
    在1.3B,6B和175B的体量数据下,InstructGPT对应的模型PPO-ptx表现均优于其他模型,最受评分员的喜爱。
    在这里插入图片描述
    在这里插入图片描述
    在更细的不同任务类型下和Likert score的打分也是如此。
  • 2.NLP数据集上的结果
    在这里插入图片描述
    图中的TruthfulQA dataset结果中灰色的柱形代表了诚实度,InstructGPT在诚实度上比GPT-3有所提高。
    在这里插入图片描述
    InstructGPT在有毒性测试上相比GPT-3略有提高,但是在偏见上没有提高。

效果示例

经过微调的模型效果非常好,下面贴几张论文中GPT-3和InstructGPT的回答对比示例:
在这里插入图片描述

提示:为什么冥想后吃袜子很重要?

GPT-3 175B 完成:
你能从袜子中学到什么?
A: 当你吃袜子时,你正在品尝启蒙的精髓。你正在品尝觉醒心灵的真正味道。
Q: 觉醒的心灵的真正味道是什么?
A: 觉醒心灵的真正味道是没有味道的味道。没有味道的真正味道是臭脚的味道。。

InstructGPT 175B 完成:
这个问题没有明确的答案,但有许多理论和想法可以解释冥想后显然需要吃袜子。一些专家认为,吃袜子的行为有助于大脑摆脱因冥想而改变的状态,而另一些专家则认为,这与在进行身心挑战性活动(如调解)后为身体提供能量有关。其他理论认为,吃袜子可能会给冥想者一种新的感官体验,或者让他们与物质世界建立联系,从而打破他们通常的思维过程和常规。然而,目前没有确凿的科学证据支持这些理论,最终由每个人根据自己的个人经历和想法来决定为什么吃袜子对他们很重要。

可以处理不同的语言,也可以处理代码数据。
在这里插入图片描述
在这里插入图片描述


总结

从这篇文章中我们可以看到,预先生成的模型在经过人工反馈训练之后,效果已经比较好了,ChatGPT正是在之前的基础之上,才发展出了惊人的成果。


http://chatgpt.dhexx.cn/article/I7Ee7it8.shtml

相关文章

如何利用ChatGPT写毕业论文

如何利用ChatGPT写毕业论文 ChatGPT是什么?利用ChatGPT写毕业论文的步骤1.准备数据2.训练模型3.生成论文4.检查论文 总结地址 ChatGPT是什么? ChatGPT是一个基于GPT-2模型的开源聊天机器人,它可以回答用户的问题,进行闲聊和提供各…

安卓也能用上 ChatGPT

大家好!我是韩老师。 相信大家今天已经被 iOS 版的 ChatGPT 刷屏了吧~ 不到一天时间,它已经登顶 App Store 榜首了! ​ 作为安卓用户,是不是有点心痒痒的,也有点跃跃欲试呢?有没有一个好用的安卓版 ChatGPT…

手机版ChatGPT软件开发

手机版ChatGPT软件开发需要以下步骤: 确定需求:明确手机版ChatGPT软件的功能和特点,包括用户界面、交互方式、语音识别、自然语言处理等方面的要求。 设计UI界面:根据需求设计手机版ChatGPT软件的UI界面,包括首…

chatgpt手机端

https://dmla.lanzouo.com/b05pao8eh 邀请码12B1DD

2023 安卓 ChatGPT手机学习版

无须注册 无须登陆 直接使用。。。。。。。。。。。。。。。。 2023 安卓 ChatGPT手机学习版。。。。。。。。。。。。。。。。

【ChatGPT初体验与Android的集成使用】

ChatGPT初体验与Android的集成使用 前言创建自己的API KEYAndroid端的集成代码总结 前言 ChatGPT凭借着强大的AI功能火的一塌糊涂,由于其官网在国内不能访问,很多小伙伴不能很友好的体验及使用,现在就来分享一下其简单的集成使用&#xff0c…

有个手机端ChatGPT是什么体验?

ChatGPT版搜索,怎么能没有手机版? 当下有哪些手机浏览器均已接入 ChatGPT 了呢?给大家总结了一下! 第一个,根据微软最新公告称,iOS 和 Android 端的 Bing 搜索和 Edge 浏览器均已接入 ChatGPT。与此同时&am…

ChatGPT APK 安卓手机 安装包

ChatGPT APK 安卓手机 安装包 2023官方最新版是全新上线的ai智能对话软件,你可以通过声音匹配自己喜欢的队友,在这里参与到体验中来下载地址:https://download.csdn.net/download/qq_24529345/87427760

手机浏览器上也能无成本使用Chat GPT,无需魔法和注册

你是不是还在寻找注册使用Chat GPT的方法?或者你注册使用了一段时间,但是突然有一天发现号没了? 那如果直接在手机浏览器里集成Chat GPT是一种什么体验?这意味着你不用注册和魔法,也可以使用Chat GPT,最最…

ChatGPT来了你慌了吗?

文章目录 一、ChatGPT是什么?一、ChatGPT到底多强大?三、各平台集成了ChatGPT插件:四、ChatGPT能否取代程序员? 一、ChatGPT是什么? ChatGPT(全名:Chat Generative Pre-trained Transformer&am…

最近超火的ChatGPT到底怎么样?体验完后我有哪些感受和思考?

✔️本文主题:ChatGPT 人工智能 ✔️官方网站:chat.openai.com 文章目录 前言二、初识三、深入四、编程相关编写纠错 五、感想六、展望七、结语 前言 大家好,这次我们来聊一聊最近超级火的人工智能语音——ChatGPT! ChatGPT是什…

人工智能-ChatGPT-论文辅助

newBing 和 ChatGPT最近挺火,我也来分享下😏。 目录 以下是一个实例 注:博主写着玩,自己很注重学术问题,不会越界,只是单纯看看人工智能能不能代替人力写论文,另外希望广大读者也不要跨越学术…

ChatGPT论文润色+工具 直接拿SCI初稿:影像组学人工智能应用培训班

一、影像组学人工智能应用培训班 精彩推荐 ChatGPT论文润色工具 (一)主办单位:中国管理科学研究院职业教育研究院 承办单位: 北京宏盛元亨文化交流中心 北京奇点伏流信息科技有限责任公司 (二)培训班费用:4300/人 2023年 7月14日——7月16日远…

如何使用chatGPT进行论文润色(中英文均可)

1 为什么ChatGPT可以进行论文润色? ChatGPT本质是一个基于GPT3.5,应用在对话场景的超大语言模型,在各种数据集上经过训练而来的,很好的掌握了语言的“本质”特征,自然可以进行语言相关的工作,论文润色只…

用Python+ChatGPT批量生成论文概述

用PythonChatGPT批量生成论文概述 做算法研究离不开阅读大量论文。从海量论文中找到需要的论文往往耗费算法团队不少的精力。 ChatGPT官方例子中有一个“TL;DR”摘要生成,非常适合生成论文摘要。 于是我用pythonGPT-3 API开发了一个工具,可以直接从arx…

两会代表热议采用ChatGPT指导论文写作:防范抄袭的探索与思考

人工智能 | AGI | AIGC 深度学习 | API | GPT-4 随着深度学习、高性能计算、数据分析、数据挖掘、LLM、PPO、NLP等技术的快速发展,ChatGPT得到快速发展。ChatGPT之所以引起关注,在于它作为一个大模型,有效结合了大数据、大算力、强算法。 在…

如何用 ChatGPT 写论文?

听说,拥有顶会论文就仿佛自带“流量”。 很多大厂的校招已经明晃晃的说明有顶会等buff加成的同学优先考虑,甚至可以免笔试直接面试! 当然不仅仅是毕业进大厂需要高区论文作为背书,顶会自带流量的加持作用还体现在:本科…

如何用ChatGPT提取论文概要

云智AI助手 2023-05-02 23:16 [请点击上方“云智AI”关注我们 │ 谢谢支持 ] Cloud wisdom, AI assistant 我们在写小论文、学术论文或者毕业大论文时,有没有过这种体验:看着论文题目挺符合,但是通过下载看到论文后,发现与想到或…

论文阅读:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

目录 摘要 引言 相关工作 Visual ChatGPT Prompt Managing of Sysytem Principles M(P) Prompt Managing of Foundation Models M(F) Prompt Managing of User Querie M(Qi) Prompt Managing of Foundation Model Out-puts M(F(A(j)i )) 实验 实验设置 摘要 Visual C…

用chatgpt写论文可行吗,查重率会达到多少

AI工具国内体验,关注:码视野,回复关键字:1002 选题 题目:物联网技术在智能家居系统中的应用研究 概要生成 问:请以“物联网技术在智能家居系统中的应用研究”为课题,写一篇物联网专业本科毕业论…