ChatGPT的成功,源自数据策略的精巧设计

article/2024/9/17 3:28:08

最近,OpenAI推出的ChatGPT火了。

60天月活破亿,迅速狂飙出圈。ChatGPT不仅刷爆了星尘君的朋友圈,也炸醒了国内外的科技圈、创投圈。

有人说ChatGPT相当于AI版瓦特蒸汽机,有人说ChatGPT让我们看到AI的未来,连微软联合创始人比尔·盖茨都说,ChatGPT的意义不亚于计算机和互联网的诞生,英伟达CEO黄仁勋更盛赞其诞生堪比iPhone问世。

在国外,微软宣布将向OpenAI追加数十亿美元投资,旗下产品将全线整合ChatGPT;谷歌紧急推出Bard对标ChatGPT;苹果、亚马逊、Meta等海外科技巨头纷纷透露将积极布局AIGC、ChatGPT相关技术。

在国内,百度、阿里、腾讯、京东、网易、360、科大讯飞等相继官宣要做中文版ChatGPT;就连已退休三年的美团网创始人王慧文也在朋友圈官宣携5000万美元入坑......

ChatGPT是由OpenAI训练的一个大型语言模型,它使用了深度学习算法中的Transformer模型,通过对数十亿个语言文本进行学习,可以与人类进行自然对话,并尽可能准确地回答用户的问题。作为突破性的AIGC(人工智能生成内容)技术,ChatGPT为AI 行业带来了全新的想象力,由它引爆的“全球AI大战”火速拉开帷幕。

一、抢占先机,大模型是必由之路

值得注意的是,追赶ChatGPT的大厂,都在提及"大模型"。

百度文心一言将基于文心大模型推出;谷歌“Bard”由大模型LaMDA提供支持;360称自家布局ChatGPT类产品的优势在于数据和语料,在预训练大模型方面还存在短板。

出门问问CEO李志飞则表示,「2023年是AI大模型时代元年,此波变幅堪比2010年左右开始的移动互联网,听到最多的词是all in,许多人跃跃欲试要搞中国版的OpenAI/ChatGPT。如果把这个比作一场运动竞赛,那2023年Q1是报名阶段,目前的报名费是5000万美金起。」

可见,想要追上ChatGPT,离不开大模型。

但事实上,大模型并不是什么新鲜事物。

以下是「NLP领域大模型发展历程和重要突破」:

  • 2017年,Google提出了Transformer架构,为大型模型奠定了基础。

  • 2018年,Google推出基于Transformer架构的大型语言模型——BERT,成为当时最先进的自然语言处理模型。

  • 2019年,OpenAI发布了语言模型GPT-2,该模型是一个大型的生成模型,能够自动生成高质量的文本,并且能够在多个NLP任务上实现零样本学习。

  • 2020年,OpenAI发布了语言模型GPT-3,该模型是迄今为止最大的自然语言处理模型,拥有1750亿个参数。

  • 2022年底,OpenAI发布基于GPT-3.5训练而成的ChatGPT,引发行业关注。

2017年,谷歌提出的Transformer架构为大语言模型发展奠定了基础,大模型由来已久。

很多人会有疑问,既然ChatGPT的核心架构Transformer最初是由谷歌提出的,并且谷歌在大模型技术上的积累可以说不弱于OpenAI,他们也不缺算力和数据,为什么会被ChatGPT打的措手不及呢?

这就必须来说说在算法和算力都是现成的情况下,ChatGPT在数据和反馈策略上的精妙之处。

二、RLHF基于人类反馈的强化学习,ChatGPT大力出奇迹

对于大模型训练来说,数据是其根本。但是想要训练一个类似ChatGPT的大模型,有足够的数据还不够,还需要有效的数据标注策略。

因为大规模的数据集早已存在,但是随着数据量的增加,杂讯也会增多,提取有效数据内容和知识的难度也呈指数级增加,对技术团队的数据工程化实现能力要求非常高,训练成本也极高。

如何降低数据成本,使用有效的数据策略引入人类反馈,形成数据和模型的反馈闭环,从而保证大模型不输出有害内容,并输出有用、符合人类偏好的内容,是大语言模型训练的重中之重。

ChatGPT能够突破难点大力出奇迹的核心就在于:Open AI在ChatGPT训练过程中设计了一套精巧的数据反馈链路策略——Reinforcement Learning with Human Feedback (RLHF,基于人类反馈的强化学习)。

图:RLHF基于人类反馈的强化学习基本原理

ChatGPT由GPT-3.5系列大型语音模型微调而成,通过RLHF基于人类反馈的强化学习,ChatGPT可以在人的动态反馈和指导下生成内容,因此具备了堪称“上知天文、下知地理”的能力,可以进行多轮对话、精准问答,生成编程代码、电子邮件、论文、小说。

可以这样理解,此前的大模型是在海量数据上自由奔跑,因为见识多,所以能预测,但会乱说话,有风险。RLHF数据反馈策略的加入,让ChatGPT在“自由奔跑”的基础上,用少量数据学会了遵循人的指令,揣摩人的喜好,不乱说话,说有用的话。

下面我们来看看RLHF数据反馈策略是如何实现的:

ChatGPT的训练分为四步:

(图片来源:OpenAI官网)

1、预训练(自监督学习):预备一个GPT-3.5模型

可以理解为预备一个在海量数据基础上自由奔跑过的模型,它具备了随机生成内容的能力,但生成的内容可能有毒有害,人类无法控制,所以需要强大的反馈策略来有效辅助。

2、微调(有监督学习):人类撰写少量的典型问题和标准答案形成标准语料库,微调GPT-3.5模型

这一步,相当于人类老师为GPT-3.5模型提供了一本标准习题册,学习了这本习题册后,GPT-3.5初步学习了如何输出人类期望的回答,说的话还不一定符合标准答案,此时模型根据「问答对」进行了微调。这一步最关键的是使用的「问答对」足够全面、精确,能够涵盖方方面面的基础问答,起到类似百科全书一样的地基作用,让无监督的模型迅速在监督反馈下有效的进行问题的回答。

3、人类反馈——用人类老师的打分结果训练一个反馈模型

在这一步,微调后的GPT-3.5输出多个答案后,人类老师将对答案进行价值排序,用强化学习训练一个全新的反馈模型。这时,人工反馈策略的加入,成为OpenAI在数据反馈策略上的重要创新,仅需要少量反馈数据就能显著提升模型的输出结果。这一步最重要的是需要一套数据闭环系统,能够将人类反馈接入大模型,并将人类反馈和大模型接入同一个平台,形成人类反馈+模型迭代的数据闭环。

4、RLHF(基于人类反馈的强化学习)——用反馈模型对微调后的GPT-3.5进行强化学习

最后,人类反馈形成的反馈模型代替人类老师继续为GPT-3.5的输出结果打分,并不断对它进行强化学习,形成最终的ChatGPT。这一步RLHF基于人类反馈的强化学习数据策略设计,直接让ChatGPT在算力和算法现成的基础上,形成了模型和数据的动态反馈闭环,带来惊艳的效果。

有业内人士指出,这种超大规模训练,并不依靠算法本身,硬件和数据才是王道,纯自然语言数据,网上公开的到处都是,也没有什么门槛,但是ChatGPT有一个巨大的先发优势,就是它通过抢先开始公测,收集了大量的用户的使用数据,这是更加宝贵的数据,而这部分数据只有他们家有。

其实,这套精妙的数据反馈策略在此前的InstructGPThttps://arxiv.org/pdf/2203.02155.pdf中已经披露,ChatGPT采用的是和InstructGPT相同的数据策略。

过去,由Transformer带来了一次深度学习的范式转变,BERT类模型实现了从纯粹监督学习,转向了“预训练+微调”的范式。而今天ChatGPT的成功,带给我们的启示是,一个好的模型,需要经历:

  • “预训练”来学习广泛知识

  • “微调”来保证合理的输出方式

  • “强化学习”来保证有效的人类反馈能进一步提高模型效果

业内普遍认为,RLHF基于人类反馈的强化学习引入,带来了NLP乃至AI领域研究范式的转换。这种新的范式,有可能成为第三阶段人工智能的核心驱动技术,即基于自监督预训练的大模型,再结合基于人类反馈强化学习的数据标注策略,形成模型和数据的闭环反馈,获得进一步的技术突破。

由此可见,GPT这个大模型之所以知识渊博,是因为摄入了数以亿计的语料库内容;而ChatGPT之所以“聪明”,是通过精妙的数据策略,加入了人类老师的指导。而这背后离不开大量的数据标注。如果缺乏有效的数据反馈,各大厂商想要训练一个类似ChatGPT的大语言模型也只是纸上谈兵。星尘数据在数据增强、数据反馈策略、数据闭环产品方面正好有着很多的积累。

三、星尘数据推出国内首个基于RLHF交互式数据标注业务,助力ChatGPT中国赛开卷

2023年1月,星尘数据正式对外发布了基于人类反馈的强化学习标注服务(Human Feedback as a Service)。星尘数据的闭环数据策略已应用于众多实验室项目,达到国际领先水平。同样的标注成本下,星尘的RLHF人类反馈强化学习闭环数据策略,可以帮助客户得到更多的有效数据,并动态反馈给客户的大语言模型。

星尘数据CEO章磊指出,有效的大模型=算法策略+数据策略+人类反馈(标注)。作为国内首家提供数据策略专家服务的数据标注公司,星尘将为中文ChatGPT的研发和数据策略制定提供最强辅助。

图:星尘数据Rosetta平台交互式数据标注服务(HFS)

通过星尘的Rosetta3.0数据标注系统,客户可以快速将语言模型接入系统,并实时将结果通过API显示在标注平台上,星尘专属基地的NLP标注员可以快速给出反馈。奖励强化模型实时接收到反馈并进行训练,可以实现模型的高效训练并及时发现难例和缺陷。

为什么星尘能够成为国内首家提供基于人类反馈的强化学习标注服务(HFS)的公司呢?

其实在ChatGPT大火之前,国内外就有多家实验室进行了深入的人机互动方向研究。星尘在服务这些前沿科研需求的同时,也积累了大量的强化学习、人机互动、语言文本方面的经验和服务能力。

斯坦福视觉实验室:人类交互行为和意图识别,星尘通过对人类和环境的交互行为进行准确标注,协助研究探索了人和环境的交互关系,为机器如何更好地在虚拟空间中给人类指令提供反馈的课题奠定了基础。

国家媒体重点实验室:星尘和国家媒体实验室共同完成了多项语言语义方面的科研项目,在人机问答(QA)、语义推理(NLI)、文本摘要(Summarization)、语义检错(Gramma Correction)、情感分析(Sentiment Analysis)、语义关系挖掘(Relation Extraction)等方面均通过星尘专业的数据策略经验和数据标注服务,极大提高了模型在基准测试中的得分。

科研院所:星尘还和国内外多家科研院所共同合作,在前沿人机交互和语义理解方向进行了深入探索。在合作中,星尘数据的数据策略专家和学者就语言模型、知识图谱、领域问答等方向共同进行研究。星尘通过提供数据标注的体系设计、反馈闭环工程化实现、训练实验反馈等工作让学术研究可以更快得到结果,模型训练在相同数据成本下可以更快收敛达到预期效果。

值得一提的是,在科研工作中星尘也参与到研究所的文献paper撰写和消融实验中,通过数据增强的方式,让联合研发的算法在国际NLP顶会的workshop中以第一名的成绩脱颖而出。

四、结语

可以预见,未来几年的AI大模型竞争将非常激烈,还未入局的玩家,或将面临淘汰。我们期待中国版ChatGPT的诞生,也将助力AI大模型的快速落地和应用。

ChatGPT等通用语言大模型一直被理解为“三高”,即“算力要求高”、“数据要求高”、“人才要求高”。实际上,星尘发现通过良好的反馈闭环系统和数据策略设计,仅需要三十分之一的模型大小就可以实现甚至超越GPT-3的1750亿模型参数量的模型效果。

星尘在语言模型和人机交互方面的丰富经验,积累下来的不仅仅是标注高质量数据的能力,更是数据策略的设计能力,以及不断打磨并符合科研需求的一整套数据闭环产品。

在大模型领域,我们不仅仅需要通用语言模型能够解决聊天、问答、信息检索等需求,更会在客服、金融、出行、工业制造、生物医药、农业等垂直领域对大模型有更加明确并可预期的落地效果。希望星尘数据在这方面积累的经验和产品,能够助力客户在各个领域快速打磨出一套够用、好用的交互体验算法,快速建立起行业领先优势。

如果您正在训练类似ChatGPT的大语言模型,需要优质的语料库资源和RLHF基于人类反馈的强化学习数据策略,星尘数据将竭诚为您服务。

*文中部分图片来自网络


http://chatgpt.dhexx.cn/article/wKFTeEst.shtml

相关文章

使用ChatGPT设计多选题

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

使用 ChatGPT 来设计系统时序图

前言 ChatGPT 的受欢迎程度不断增长,现在被广泛用于各种应用程序。作为一名全栈工程师,出于对技术的追求,使用 ChatGPT 来探索一些可能的使用场合,本文就来探索 ChatGPT 设计一个资产购买系统并画出 Mermaid 流程图,开…

用ChatGPT写2023高考语文作文(一):全国甲卷

题目 人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。 这句话引发了你怎样的联想与思考?请写一篇文章。 要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得…

让ChatGPT来写今年的高考作文,会得几分?

使用最新的ChatGPT4模型,做2023年全国甲卷的高考作文。 作文考试题目如下 人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。这句话引发了你怎样的联想与思考?请写一篇文章。 要求:选准角度,确定立意&#xff0…

2023年新课标I卷作文,5位人工智能考生(ChatGPT,文心一言,GPT4, ChatGLM-6b, ChatT5)来写作,看谁写得最好

大家好,我是微学AI,今天是2023年6月7日,一年一度的高考又来了,今年的高考作文题也新鲜出炉。今年是特殊的一年,有人说2023是AI的元年,这一年里有大语言模型的爆发,每天都有大模型的公布&#xf…

实用教学Prompt 提示词实战:如何用 ChatGPT 指导高考语文作文写作

又是一年高考季,牵动着广大学生和家长的心。7 日上午,语文科目考试结束。 今年高考语文共7套试卷:全国甲卷、全国乙卷、新课标Ⅰ卷、新课标Ⅱ卷、北京卷、天津卷、上海卷。 以高考语文作文题目来实践检验一下,如何用合适的提问词&…

2023高考第一天,用ChatGPT挑战全国卷作文,已达到双一流高校学生水平?

前言 2023年高考语文结束啦,今天我们用ChatGPT来挑战高考作文,一起来看看它的表现如何?ChatGPT突然爆火网络,它真的会取代人类的工作吗? 什么是ChatGPT? ChatGPT是由OpenAI开发的,OpenAI是一家…

ChatGPT大战高考作文,一起看看写的如何

文章目录 引言实操作文分析写作指导作文 文末福利:学生管理系统实现亮点 总结 引言 自从上次高考作文题目出来后,很多人在看到高考甲卷时都发出了感慨,的确,这次的题目的确很吸引人 人们因技术发展得以更好地掌控时间&#xff0c…

AI 大战高考作文!实测 ChatGPT、文心一言、通义千问等 8 款“神器”

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 今天中午十一点半,2023 年高考作文题目火热出炉,其中全国甲卷作文题引人深思: 人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。 身处技…

ChatGPT写高考作文

又是一年一度高考时,又是一批学子奋笔考场,逐梦未来。 我们不用在考场里奋笔疾书,就在考场外欣赏一下AI写作水平吧。 作文 首先使用GPT-3写一下全囯甲卷作文 再看看GPT-4的作文水平 点评 从对比GPT-3和GPT-4的这两篇文章,我们…

用ChatGPT来写高考作文,看看效果!

又是一年高考日,今天高考作文题目一出来,很多人第一时间就用AI进行写作,我这边也用gpt3和4分别生成了一篇文章,没有给他投喂范文,把要求和题目的prompt给它,让它分析和写作,来看看效果吧。 GPT4…

我用ChatGPT写2023高考语文作文(一):全国甲卷

2023年 全国甲卷 适用地区:广西、贵州、四川、西藏 人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。 这句话引发了你怎样的联想与思考?请写一篇文章。 要求:选准角度,确定立意,明确文体&am…

使用chatgpt写6.5分作文范文

其实使用chatgpt最大的背单词好处就是你可以看到真正的外国人的思维到底是如何的。 而且,你也可以看到chatgpt这个模型,如果是编写代码的话,你如果使用中文,它编写的效果是没有英文输入的好的,为什么呢?因为…

怎么让chatGPT写作文-ChatGPT如何写作

chatGPT写文章攻略 ChatGPT 可以生成文章的概要,但生成的文章质量和效率与输入的信息质量和有效性有着重要关系,以下是使用 ChatGPT 写作时需要注意的攻略: 确定写作主题和目的:在开始使用 ChatGPT 进行写作前,需要明确…

ChatGPT 创业:如何用人工智能 AI 开一家赚钱的公司

这是一篇演示如何使用 ChatGPT prompt (提示词)的文章。 在了解 ChatGPT 的文案写作能力后,我产生了一个念头,如果让它来写一篇命题作文,会是怎样? Prompt 提示词,和人工智能 AI 对话中一个重要…

到底有多厉害?ChatGPT初探(多图)

众所周知,nlp领域发展迅猛,出现了很多新东西,注意力、多模态...甚至影响了cv领域。 ChatGpt是OpenAI的最新力作,作为一个阅(git)读(clone)广泛的工程师,迫不及待到官网感受一下有多厉害。 打寒暄后,先问几…

如何让chatgpt能够发送或生成图片?

作为一个聊天机器人,在大部分的chatgpt场景中,我们都是以文字的形式和chatgpt交流,chatgpt也是以文字的形式回复我们,当我们想让chatgpt给我们生成图片时,往往会遇到一些错误,例如: 在上面的对话…

ChatGPT生成图片

有小伙伴说我想用ChatGPT生成图片怎么操作,ChatGPT怎么画图等 这里阐明一下,ChatGPT是不能够做到画图的 因为它是一种自然语言处理模型,主要用于处理文本和语言相关的任务,例如问答、对话、翻译等。但是,我们可以使用C…

【教程】如何让ChatGPT生成图片?最新指令分享

我们都知道ChatGPT可以生成文本,但如果让他生成图片就会显示如下的声明: ChatGPT3月16日的回答但通过这个教程,你却可以在ChatGPT内实现这样的效果,让ChatGPT直接生成对应的图片: ChatGPT按照指令生成对应的图片 这个…

如虎添翼,强大插件让ChatGPT更加游刃有余

ChatGPT模型是当前人工智能领域中备受瞩目的存在。作为一款强大的自然语言处理模型,它具备跨时代的意义,将深刻影响我们的未来。而强大的插件不仅可以丰富ChatGPT的功能,提高其应对复杂问题的能力。还也可以解决一些常见的错误,如…