Tech Talk | ChatGPT的技术演进及问答应用

article/2025/4/23 3:02:54

去年12月1号,自Sam Altman在Twitter上公开宣布ChatGPT后,ChatGPT逐步引发了全球瞩目。据新华社报道,在今年1月份ChatGPT已经拥有了一亿的月活用户,成为了历史上增长最快的应用程序。甚至,斯坦福大学有研究认为它已经具有了人类的心智。

尽管ChatGPT有时会存在事实错误,但是其所拥有的内在的开放域知识、遵循人指示的语言理解能力、代码编写、数学计算、常识推理给我们带来了极大的震撼。就开放域问答这一领域来说,ChatGPT已经完全不同于之前常见的问答技术,带来了全新的范式和变革。

“ 

本期的Tech Talk,我们邀请到了小米知识问答团队的工程师——刘惠文,为大家介绍ChatGPT的技术演进及问答应用,包括ChatGPT相关的工作和技术,并探讨ChatGPT会给小爱的开放域问答服务带来什么样的转变。

2b220661be59fe9a30cd7dba0d7ed6f0.jpeg

硬核指数:⭐⭐⭐⭐⭐

趣味指数:⭐⭐⭐

阅读时长:约14分钟

一、技术背景

ChatGPT由OpenAI推出,OpenAI是2015年由硅谷大佬里德·霍夫曼、埃隆·马斯克等人创办的非盈利(初始目标)的实验室,旨在研究通用的人工智能技术AGI。ChatGPT也算是在其宗旨下的一个阶段性的成果。

目前其学术论文还没有被公开,不过OpenAI在他们的博客中提到,ChatGPT是基于他们前面的InstructGPT发展而来。其中涉及到GPT系列的相关工作,还有IFT(Instruction Fine-Tuning)、CoT(Chain-of-Thought)和RLHF(Reinforcement Learning from Human Feedback)等。除此之外,目前人们还认为OpenAI的另一份工作Codex也与之相关。总的来说,ChatGPT不是突然出现的,之前的大量研究和技术积累为它的出现创造了条件。

值得一提的是,很多工作并非由OpenAI首创。甚至Meta首席科学家Yann LeCun认为“ChatGPT并没有多大的创新,只是组合的很好,就其底层技术,除了Google和Meta,还有好几家公司都有相似的技术”。但是OpenAI站在前人的肩膀上,借鉴和吸纳了其他的技术最终成就了ChatGPT。在这里,我们首先介绍ChatGPT诞生的技术背景

 >>>> 1.1 GPT1-3

ChatGPT被认为是在GPT系列模型(GPT3.5)的基础上,经过微调和人工反馈强化学习训练得到。GPT(Generative Pre-Training)是一种语言模型(Language Model),最早的模型GPT1在2018年6月由OpenAI推出。GPT1拥有约一亿个可学习的参数,采用自然语言处理(NLP)任务中常见的预训练+微调的模式。值得一提的是,GPT1模型随后被Google团队借鉴和修改,于当年10月份推出了BERT。而在ChatGPT之前,BERT被认为是NLP领域上一个跨时代的工作。

GPT2模型在BERT之后于19年2月份推出。相比GPT1,它具有了更多的参数,达到了15亿,不过它在预训练+微调的模式下仍旧弱于BERT。但是从GPT2开始,OpenAI转变了视角,开始从预训练+微调的模式改为零样本学习。随后而来的Prompt, Instruction以及最终ChatGPT能够自然地与用户交互,都发轫于这一转变。就知名度来说,GPT2可能不如开篇之作GPT1和后面的GPT3,但它承上启下十分的重要。

GPT3在GPT2基础上,于20年5月份推出。它的训练参数达到了1750亿个。这么大规模的参数,需要耗费大量的计算资源才能完成训练,训练花销已高达数百万美元,引发了大型语言模型的新一轮军备竞赛。

GPT3有比较重要的两点:其一,它提出了一种新的范式In-Context Learning,可以认为后面的CoT、IFT都与之相关;其二,GPT3开始表现出了大型语言模型的涌现能力(Emergent Abilities)。涌现能力,通俗点说,就是当模型的参数量比较少时(比如GPT1、GPT2所具备的一亿或者十五亿的参数规模),模型不具备或者具备较弱的相关的能力,但是当参数量变大很多后,这些能力会突然具备或者变得很强。GPT3以数学中的加减法开展了实验,当模型达到GPT3这种参数规模时,它的两位数的加减法运算会好很多。涌现能力是一种意料之外的发现,到目前为止,学术界没有对这一现象给出很好的解释。


 >>>> 1.2 IFT

IFT全称是Instruction Fine-Tuning,可以称为遵循指示的微调。通俗点说,就是尽量按照人的语言或者命令等常规说话的那种方式来组织一批训练数据,来对大型语言模型(比如GPT3)进行微调。微调后的这类模型已经是类似于ChatGPT的这种方式,可以更好地“理解”人说的话或者给出的命令,再在这个基础上给出回答。这个领域比较早的工作是2021年10月Google提出的FLAN,FLAN这篇工作在InstructGPT的论文中有提到,被认为和ChatGPT技术相关。

 >>>> 1.3 CoT

CoT全称是Chain-of-Thought,中文叫思维链,最早由Google Brain发表在NeurIPS 2022上。思维链,简单点描述,就是用大型语言模型来回答问题前,先给它几个例子,而且在这些例子中给出整个问题的推理过程。比如做数学应用题时,先要给模型出一个例子,例子需要包含题干、答案,思维链的重点是和学生做题时一样,给出中间过程。与思维链相对的是,在给出的例子中,不给中间过程,仅仅给题干和最后的答案。此外,还有一种是鼓励模型自己生成中间过程("Let’s think step by step")的思维链,并基于模型自己的推导过程最终给出答案。

思维连被认为和ChatGPT的能力息息相关,比如,ChatGPT在回答鸡兔同笼的问题时,会给出中间的推导过程。它比较重要的一点在于,没有重新训练或者是微调大型语言模型,而仅仅是在给出的例子中增加了中间步骤的说明,就可以明显提升大型语言模型在数学计算、逻辑推理等任务上的表现。因此,有研究的观点认为,诸如数学计算、逻辑推理是大型语言模型的涌现能力,这些能力在模型规模、训练语料达到一定量级后,就自然而然地出现了,而思维链等方式只是解锁(或者叫唤醒)了这种能力。

 >>>> 1.4 RLHF

RLHF,全称Reinforcement Learning from Human Feedback,来自人类反馈的强化学习。不同于模型在预训练阶段使用的大规模无标记文本数据,微调阶段用人工标注好的训练数据。RLHF会在训练过程中,引入人工的干预。模型产生的结果,会被标注人员进行比较和排序,然后这批数据会被用来指导模型的训练和迭代。OpenAI的数据标注质量被认为是比较高的,经过人工的干预,RLHF某种程度上减少了有害和不真实内容的输出。

 >>>> 1.5 Codex

除了上述的IFT、CoT、RLHF外,OpenAI的另一项工作Codex有可能和ChatGPT的代码编写、逻辑推理能力相关,Codex也是GitHub的AI代码补全工具Copilot背后的技术。之前GPT3是在互联网上选择文本来进行训练,Codex在训练的过程中加入了GitHub上的代码,并发展了一套评估系统。从论文的结果来看,其在编码能力方面是大大超过GPT3的。

按照介绍,大家可以看到,ChatGPT并不是突然出现的,它所基于的技术,在其他的公司也有积累,甚至做得更早更多。OpenAI做到了集各家之所长,最终拿出了跨时代的成果。

二、问答业务探讨

开放域问答承接的是不限领域的知识类问题,这里我们讨论一下ChatGPT对问答业务的影响。不得不说,ChatGPT已经具备了不限领域,任何问题的回答能力。以下展示ChatGPT在几类知识问题上的效果。

 >>>> 2.1 示例

2.1.1 语文

7afc80b9b2261e491a9a649e8df32e62.png

f37ea455b92d5030d2f38547e67a4aee.png

图1. ChatGPT回答语文问题示例

2.1.2 数学

1f6e2bb9ca96dfab3a4f67a51b06bf2f.png

2285a6cc129d94ee213210ebcffa8c7a.png

图2. ChatGPT回答数学问题示例

2.1.3 物理

9b35ab76f75a4b5711dbadcfa0ac79fd.png

97880063018b794b815229d83f314b08.png

图3. ChatGPT回答物理问题示例

可以看到,ChatGPT能够应付语、数、物等学科知识,而且在比较复杂的数学和物理问题上,ChatGPT不仅给出了结果,还给出了充分的推导过程。除开学科知识,在常识类的长尾问题上,ChatGPT也有很好的表现。

2.1.4 常识

f528ba3336f6a50ed90c3ab174c16c44.png

a32a1377b236ede75cb60e06f162d5c9.png

图4. ChatGPT回答常识类问题示例

>>>> 2.2 不足

ChatGPT已经具备很强的问答能力了,如果说存在一些不足的话,我们认为有四点:

① 有时存在事实性错误,无法判断它回答的对错,如下图5所示;

② 不能够像Google搜索那样查询新的信息,无法获知最新的知识;

③ 有时结果并不稳定,换个问法后ChatGPT回答可能会变化,如下图6所示;

④ 缺乏可解释性,这也是现阶段模型的通用问题。

当然,我们认为以上问题,与ChatGPT目前能够带来的变革相比,显得微不足道。

ea0d10e2631ad40999099cf67ccd2826.jpeg

图5. ChatGPT的回答存在事实性错误

6b70a083244ed07a69a59d945c172f14.png

f17a5dd25129a6264b9632de53995611.png

图6. 回答不稳定示例

>>>> 2.3 应用

我们可以设想如何在小爱的开放域问答场景中应用ChatGPT以及相关技术。就目前来说,直接采纳ChatGPT会有两个问题:其一,有时它会产生事实性的错误且人们无法进行区分;其二,计算资源消耗大,成本高。

基于以上特点,我们认为对于高频且常规类的问答,仍旧需要传统的技术来提供稳定且可靠的服务,但是ChatGPT提供的开放域问答能力,可以被用来处理长尾且低频的问答。合理的产品形态设计再结合搜索引擎等提供的答案,可以给用户带来更好的产品体验。

除了直接在线使用外,ChatGPT还可以作为问答中的一个离线的工具。以数据构建为例,列举两方面的例子,来简单说明一下:

● 补充槽位抽取的训练数据;

● 补充长尾的问答对数据。

① 槽位抽取的训练数据补充

ChatGPT本身具备有很强的In-Context Learning能力,只需要提供一个槽位提取的例子,它能够模仿着从用户的提问中自动地抽取槽位,如下图7所示。如此,可以将无标记的文本送到ChatGPT中来自动化的抽取槽位信息,经过人工审核后,作为训练数据来使用。

54fe41107a635d1673595fe655526441.png

图7. 槽位抽取的例子

② 问答对数据补充

多数时候,问答对数据的收集需要花费产品、运营、标注同学大量的人力。有了ChatGPT,在准备好问题后可以直接用它来生成答案。ChatGPT的回复可能存在事实性错误,在正式使用前还需要进行人工的审核,但这种方式会比直接收集数据便利不少。

d61e08ac84d360049599129a8b62b757.png

图8. ChatGPT关于生活常识的回答,可以用来补充数据

三、结论和展望

ChatGPT具备了很强的开放域问答能力,于问答技术而言是当之无愧的跨时代的成果,前景无可限量,未来可期。尽管我们提到了它的一些缺点,比如事实性错误问题、不能获取新的知识等,但在当前全球的ChatGPT热潮下,这些问题都是可以避免或有解决的可能性。

拿事实性错误问题来说,就目前阶段而言,看似是大型语言模型无法完全和彻底解决的问题。但如果在给出结果的同时,给出一些材料作为参考或者依据,那么人们就可以自己判断结果的真伪了。据我们所知,给语言模型的生成结果加上参考材料是有相关的研究工作的。关于检索新的信息,其实DeepMind的Sparrow已经在做了,我们有理由期待未来的模型是具备相关能力的。那样的话,不仅可以解决回复的答案带有参考和依据的问题,还可以尝试回答时间上比较新的问题。另外,关于模型的资源消耗大,能不能小型化的问题,在ChatGPT引发全球关注后,相信会有相关研究跟进的。我们乐观地期待,未来ChatGPT一定能够更好地应用到开放域问答中。

不过,尽管ChatGPT前景无限,但并不会全面地替代现有的问答技术。ChatGPT在通用领域的问答能力确实很强,但在需要极其丰厚的领域知识的垂直领域,ChatGPT还不一定合适。

下图9所示是ChatGPT在中文字词相关问题上的回复,涉及拼音相关的知识,尽管好像有一些道理,但结果是错误的。这些细致领域,需要专门的数据建设,但为了回答一个细分领域,对ChatGPT进行重新训练是不太可能的。所以传统的问答方式未来在客服、电商、医疗等专业问答领域还是有一定的优势的。在未来的问答形式中,传统问答可以和ChatGPT共存,优势互补。就像当前BERT并没有在所有的任务中都取代传统的机器学习方法一样。

3b31512272e098e1300b902bb740c63d.png图9. ChatGPT在中文字词问题上出现事实性错误

参考文献

[1] Improving Language Understanding by Generative Pre-Training

[2] Language Models are Unsupervised Multitask Learners

[3] Language Models are Few-Shot Learners

[4] Finetuned Language Models Are Zero-Shot Learners

[5] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

[6] Large language models are zero-shot reasoners

[7] Training language models to follow instructions with human feedback

[8] Evaluating Large Language Models Trained on Code

[9] Emergent Abilities of Large Language Models

[10] Improving alignment of dialogue agents via targeted human judgements

你还有哪些希望了解的技术?欢迎在评论区留言,我们将继续邀请工程师就大家关心的话题进行分享。更多硬核知识,请持续关注小米Tech Talk!

e15ac2e018f782fc2491cd3de426198f.gif

612ae5da2966e7baa4b7297ae624bafa.png


http://chatgpt.dhexx.cn/article/rruc7Xod.shtml

相关文章

怒怼 OpenAI 之后,马斯克正招募团队研发 ChatGPT 替代品

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 众所周知,马斯克和 Sam Altman 在 2015 年共同创立了 OpenAI 。然而,却因为特斯拉也在开发人工智能相关的自动驾驶技术,担心与 OpenAI 存在利益冲突&…

马斯克要杀回马枪?正招募团队将开发 ChatGPT 替代品

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 众所周知,马斯克和 Sam Altman 在 2015 年共同创立了 OpenAI 。然而,却因为特斯拉也在开发人工智能相关的自动驾驶技术,担心与 OpenAI 存在利益冲突&…

2016年chatGPT之父Altman与马斯克的深度对话(值得一看)

2016年9月,现今OpenAI CEO,ChatGPT之父,时任创投公司Y Combinator的总裁Sam Altman在特斯拉加州弗里蒙特工厂采访了埃隆马斯克。马斯克阐述了创建OpenAI的初衷,以及就他而言,对于未来最为重要的五件事。这是OpenAI的两…

马斯克版ChatGPT计划曝光!OpenAI叛将牵头,坚定推进AGI

来源:金磊 萧箫 发自 凹非寺量子位 | 公众号 QbitAI Madio.net 数学中国 马斯克终于也对ChatGPT产生兴趣了!? 据The Information爆料,最近马斯克频频与一位叫Igor Babuschkin(伊戈尔巴布什金)的人接触&…

2023年 16 种最佳 ChatGPT 替代品

除非你一直生活在岩石下,否则你一定已经看到ChatGPT在互联网上的爆炸式流行。该聊天机器人基于 OpenAI 的 GPT-3 语言模型,允许用户通过输入提示与 AI 进行对话。然而,最近随着推出 GPT-4 这为机器人提供了更大的功能。为了增加更多的进步&am…

最新解读:马斯克计划开发ChatGPT替代品

马斯克最近几周与人工智能研究人员接触,希望组建一个新的研究实验室,开发OpenAI的ChatGPT的替代方案。 感谢大家的支持和喜欢!欢迎转发!在看🐇 *转载请扫码添加后台微信二维码,转载请注明来源,且…

用ChatGPT做表格真香!只需动嘴提要求和复制粘贴

明敏 发自 凹非寺量子位 | 公众号 QbitAI 托ChatGPT的福,梦想中让Excel自己统计数据,现在成真了。 △ 图源:抖音秦远国际物流 只需输入要求、数据,ChatGPT就能从头做个表。 想要增加行列、进行表内计算,通通不是问题&a…

chatGPT革了谁的命?

最近朋友圈、各大论坛、网站、短视频等平台都在热议ChatGPT4,ChatGPT确实已经引发了部分网友的失业焦虑,担心内卷。 ChatGPT是由Open AI公司开发,Open AI是一家2015年成立的创业公司,创始人包括美国创业孵化器Y Combinator前总裁阿…

ChatGpt——一款人工智能交互程序的初次体验(有了它的出现程序员真的会失业?)

Hello,大家好,我是小胡同学。今天小胡带大家体验体验当下爆火的人工智能AI程序ChatGpt让我们看看ChatGpt是不是传说中的万能的AI。 1.首先我们先进入ChatGPT网站里面,这里展示的是它的主界面 Tip: 现在ChatGpt也可以在IDEA和VS等主…

ChatGPT懂SAP吗?跟ChatGPT聊完后,我暂时还不担心会被它取代岗位

我弄了个ChatGPT账号。随便问了一下他SAP的问题。它的回答还是比较有意思的。贴出来跟大家分享一下。 问题1:我是 SAP 开发工程师,你有什么可以帮到我。 作为一个语言模型,我可以为您提供关于SAP开发的一般性建议,以及关于如何使…

ChatGPT初体验——开发好帮手

写在前面 最近ChatGPT AI机器人火爆全网,甚至有人说,继画师之后,策划、程序、运营统统都要失业了,好奇之下,我也去试了下,最大的感受就是震惊,确实被惊艳到了,但大家也不用太焦虑&a…

如何将ChatGPT培养成「私人助理」

「让她先懂你,然后再AI你」。人类的爱建立在相互理解的基础上,而人工智能也是如此。因此,使用ChatGPT并不仅仅是一种训练,而更是一种相互理解的过程。 与许多介绍如何使用ChatGPT进行编程、翻译、信息查找或闲聊的文章不同&#x…

关于ChatGPT的一些随笔

大家好,我是效率体验官,最近几个月关于ChatGPT的信息可以说是铺天盖地。 “王炸,ChatGPT……” “xxx震撼发布……” “真的要失业了,xxx来袭……” “普通如何利用ChatGPT……” …… 老哥我前一阵比较忙,对Chat…

ChatGPT扇动翅膀后带来的蝴蝶效应

对于蝴蝶效应最常见的阐述是:“一只南美洲亚马逊河流域热带雨林中的蝴蝶,偶尔扇动几下翅膀,可以在两周以后引起美国得克萨斯州的一场龙卷风。” 简介肯尼亚essay 正文论文代写之都为什么是肯尼亚?蝴蝶效应 简介 在印象中贫穷且落后的东非国家…

我玩了玩chatGPT,她确实NB!

大家好,我是北妈。 0. 如果这几天你不知道一个叫chatGPT的东西,那说明你网感真不太好了,或者说你过的很幸福,完全不需要关注网络世界的新动向。 因为毫不夸张地说,北妈个人未来可以预见的是,普通互联网从业…

ChatGPT能让DBA失业吗

ChatGPT是科技狂人马斯克献给人类的又一个新礼物,2015年马斯克创办OpenAI的时候可能不会意识到,它的旗下会诞生一个如此伟大的产品。这是一个现象级的应用,上线两个月就突破了一亿日活。当ChatGPT出现在大众眼中时,我对此并不太感…

ChatGPT帮我写了个方案

文章目录 ChatGPT会不会导致程序员失业2023年做什么生意赚钱Java开发面试自我介绍 废话不多说,先看录屏 体验后我惊呆了,一时不知如何形容这该死的功能 然后我又问了大家都在讨论的的问题 ChatGPT会不会导致程序员失业 失业倒不至于,但是像…

程序员如何利用chatGPT提高开发效率

对于编程人员来说了解 ChatGPT 是很有帮助的,因为它是一个自然语言处理模型,可以用于处理各种文本任务,例如生成代码注释、代码自动补全、错误检测和纠正、问题回答等等。通过利用 ChatGPT,程序员可以更快速地生成代码&#xff0c…

热议:ChatGPT 的出现会不会导致底层程序员失业?

点击上方“芋道源码”,选择“设为星标” 管她前浪,还是后浪? 能浪的浪,才是好浪! 每天 10:33 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路,很肝~中文详细注释的开源…