ChatGPT爆火的背后,到底是什么在跟我们对话?

article/2024/9/17 3:30:18

2022年11月底美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具——ChatGPT聊天机器人。一经推出便迅速在社交媒体上走红,成为AI领域最炙手可热的话题,掀起了新一轮的人工智能浪潮。

ChatGPT不单是聊天机器人,它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得ChatGPT具备上知天文下知地理,还能根据聊天的上下文进行互动的能力,能够响应用户提出的各种自然语言形式的请求,做到与真正人类几乎无异的聊天交流。

ChatGPT像人一样的对话过程是最大的亮点,背后的对话语义技术功不可没。ChatGPT使用了大型语言模型GPT-3.5,其核心技术涵盖了在多轮对话过程中的用户意图理解,以及融合了机器翻译、信息抽取、文案生成、代码生成、邮件撰写等先进的内容生成技术,使其拥有语言理解和文本生成能力。

然而,ChatGPT并非技术的颠覆式创新,但该应用为何如此“出圈”?归根结底,是支撑这套人工智能技术训练语言模型的底层技术正变得越来越成熟。事实上,如果想完成如ChatGPT乃至更高级的人机交互,背后需要对海量数据处理分析及训练。

数十年来数据堂凭借自身优势,针对对话语义方面已设计制作了大量覆盖多领域的多轮对话文本训练数据集,以下为数据堂相关文本数据集:
DATATANG

垂直领域多轮对话文本

203,029组医疗类多轮问答数据

语种:中文
规模:超过20万组,每组包含医生和患者两人之间的多轮对话。
{

“id”: 55034,

“category”: “黑头”,

“content”: [

“patient:女 22岁 黑头多 毛孔粗大 鼻翼两侧泛红 有什么方法可以治疗或者缓解吗?然后再麻烦医生看看我的皮肤还有什么其他的问题”,

“doctor:你好,你的皮肤中间T区应该是比较油的,所以时间长了导致毛孔粗大,清洁以后会有鼻翼发红的现象。建议你使用针对敏感肌的药妆化妆品,如薇诺娜,玉泽等。T区可以适当多做清洁,面颊要少做清洁,洗脸的时候要面颊少按摩。在此基础毛孔粗大以及鼻翼泛红可以采用激光治疗,效果比较好。平常注意清淡饮食,辛辣刺激的少吃,皮肤上其他问题就是有黑眼圈,注意少熬夜,看你眼睛有黑眼圈。散在的小痘痘,有脓头的可以用莫匹罗星软膏涂一下,防止产生色沉。祝好。”,

“patient:感谢您的回答 我想问一下激光治疗和果酸换肤那个比较合适我 这两个都有什么优缺点”,

“doctor:你现在主要适合做激光先解决一下毛孔以及泛红的问题。果酸换肤有一定的角质剥脱作用,做完皮肤会看起来比较嫩一点,但你现在皮肤鼻翼旁有泛红,会敏感一点,所以暂不建议做果酸。”

],

},

电脑端打开可查看更多内容:
https://www.datatang.com/datas‍et/1086

DATATANG

开放领域多轮对话文本

830,276组人人多轮对话文本数据

语种:中文
规模:超过83万组,每组包含两个人之间的多轮对话。

09:30:07 B A 哈,你上班了没?我等着呢,十分钟吧。哈本来还想让你看看我的手机呢,哈
09:31:09 A B 上班了呵 过年的时候看吧 你嫂子明天回去
09:51:04 B A 哦,我知道的。移动硬盘在家吗?
10:18:51 A B 哪一个 新买的在 在我屋北边那个床头柜下边
10:20:42 B A 哦,哈,回去看看
17:01:38 A B 到家了吗
17:03:10 B A 没呢,估计快了

电脑端打开可查看更多内容:
https://www.datatang.com/dataset/150

DATATANG

垂直领域意图理解数据

47811句交互场景单句意图标注数据

语种:中文

规模:涵盖电话、导航、翻译、附属意图、闹钟、拍照、日程、设置、视频、提醒、天气、信息、页面控制、音乐、应用等15个领域的意图标注数据。

图片

电脑端打开可查看更多内容:
https://www.datatang.com/‍dataset/1085

84,516句交互场景英文单句意图标注数据

语种:英文
规模:涵盖电话、导航、翻译、附属意图、闹钟、拍照、日程、设置、视频、提醒、天气、信息、页面控制、音乐、应用、语音助手等16个领域的意图标注数据。

图片

电脑端打开可查看更多内容:
https://www.datatang.com/‍dataset/1154

DATATANG

开放领域意图理解数据

687,694句开放领域意图标注数据

涵盖出行、乘车、乘飞机、叫车、租车、行程购票、订机票、改签机票、订火车票、改签火车票、订宾馆、看电影、查询电影、定电影票、看综艺、看演唱会、查询地点位置、联系、打电话、发消息、寄快递、取快递、查询快递、充话费、充流量、开会、送人、接人、订餐馆、吃美食、看动漫等60个领域的意图标注数据。

{
“短信”:“王总,订明天中午大房间12一13人用餐,点几个漂亮的茶点。谢谢!邻居方总”,
“模块”:“订餐馆”,
“是否发送方意图”:“不是”,
“是否接收方意图”:“是”,
“主题”:“”,
“前置条件”:“”,
“条件地点”:“”,
“间隔时间”:“”,
“参与人姓名”:“”,
“参与人号码”:“”,
“动作发生地”:“”,
“动作开始时间”:“”,
“动作结束时间”:“”,
“就餐时间”:“明天中午;1”,
“餐馆名”:“”,
“餐馆地点”:“”,
“是否团购”:“”,
“菜系”:“”
},

电脑端打开可查看更多内容:
https://www.datatang.com/dataset/197

除此之外,数据堂还提供文本数据的定制服务以及文本数据标注平台服务。
文本数据定制服务可支持采集多语言、多领域的对话文本数据,并可根据不同的业务目标对不同类型的文本数据进行情感分析、主题分类、问答标注等任务。
文本数据标注平台覆盖实体、实体关系、阅读理解、交互意图、文本属性、文档属性、文本问答等标注工具,是数据堂根据多年标注实施经验打造而成,每一个按钮都经过多次实战考验,致力将操作体验优化到极致。
作为全球领先的人工智能的数据服务商,数据堂会持续制作新的对话语义训练数据集,为支撑ChatGPT模式的落地尽力。


http://chatgpt.dhexx.cn/article/p6fKm8BS.shtml

相关文章

解析ChatGPT背后的工作原理

ChatGPT 是 OpenAI 发布的最新语言模型,比其前身 GPT-3 有显著提升。与许多大型语言模型类似,ChatGPT 能以不同样式、不同目的生成文本,并且在准确度、叙述细节和上下文连贯性上具有更优的表现。它代表了 OpenAI 最新一代的大型语言模型&…

最近大火的chatGPT是什么?它是怎样聊天的?

ChatGPT是一款革命性的聊天机器人软件, ChatGPT( ChatGPT AI,聊天机器人欢迎您!)的核心功能是自动回复,可以根据客户的输入自动生成回复,从而提高客户服务的效率。还可以根据客户的输入自动生成…

ChatGPT 背后的经济账

拿投资和赚钱之前,要先去了解下成本。 来源:OneFlow 原文地址:https://sunyan.substack.com/p/the-economics-of-large-language-models 作者:Sunyan 翻译:杨婷、徐佳渝、贾川 原标题:ChatGPT 背后的经济账…

ChatGPT,背后的核心是什么?

来源:远川科技评论 作者:钟靖怡 马冰莹 编辑:董指导 2022年12月份的时候,ChatGPT还只是个被人各种撩的聊天工具。但进入2023年后,已经向着效率工具迈进了。 微软宣布正和ChatGPT开发团队OpenAI进行洽谈,投资…

最近大火的ChatGpt,到底给我们带来了哪些改变?

我相信最近大家都有听说这个ChatGpt了吧! 即使没有听说过也没有关系,我来给大家掰扯掰扯。 OpenAI公司推出了一款名为ChatGPT的人工智能聊天机器人,该技术通过利用大量训练数据,实现了人类般的自然语言处理能力,并能…

探索ChatGPT背后的网络基础设施

ChatGPT是OpenAI公司开发的一款聊天机器人应用,自2022年11月推出以来以迅雷不及掩耳盗铃之势火爆全球。ChatGPT不仅可以模仿人类对话,还可以创建音乐、电视剧、童话故事和学生论文,甚至是编写和调试计算机程序。 截至2023年1月,C…

Stable Diffusion、ChatGPT爆火的背后!

整编 | Carol 参考 |《AIGC 发展趋势报告 2023》 出品 | AI科技大本营 “Generative AI(生成式AI)有什么社会价值?” 当腾讯研究院的研究员将上面这个问题输入到ChatGPT中,得到如下回复: "生成式AI是一种人工智能…

ChatGPT最近大火?教你实现破产版ChatGPT(一)数据预处理

目录 一.前言 二.下载数据文件 三.导包并设置使用GPU 四.加载和预处理数据 五.为模型准备数据 一.前言 最近ChatGPT大火,成功破圈,到底是个啥? 简单说,它是一个模型,一个语言模型!它是以对话方式与人进…

爆火的ChatGPT 背后的大模型与大数据创新

最近,ChatGPT 迅速引爆 AIGC 领域,依托全网大数据与海量智能模型训练,一举成为 Stable Diffusion 之外的 AI 新宠。不同于过往初阶聊天机器人,这位“懂王”似乎可以取代大型搜索平台,与用户展开高质量同频对话。网友也…

ChatGPT背后有哪些关键技术?CSIG企业行带你一探究竟

目录 1 ChatGPT的时代2 CSIG企业行3 议题&嘉宾介绍3.1 对生成式人工智能的思考3.2 对话式大型语言模型研究3.3 文档图像处理中的底层视觉技术 4 观看入口 1 ChatGPT的时代 2015年,马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合…

ChatGPT背后的模型三兄弟

ChatGPT作为最接近强人工智能的系统,具有强大的信息理解和信息抽象总结能力,在这个信息过剩的时代,为我们提供了一个非常好的智能辅助工具。在我们日常的工作中,怎么充分的利用ChatGPT等类似的智能系统,会给我们生活和…

ChatGPT火爆,背后的核心到底是什么?

点击上方“小麦大叔”,选择“置顶/星标公众号” 福利干货,第一时间送达 2022年12月份的时候,ChatGPT还只是个被人各种撩的聊天工具。但进入2023年后,已经向着效率工具迈进了。 微软宣布正和ChatGPT开发团队OpenAI进行洽谈&#xf…

ChatGPT背后的模型

文章目录 1.RLHF方法2.ChatGPT中的RLHF方法2.1 微调模型GPT-32.2 训练奖励模型2.3 利用强化学习进一步微调语言模型 3.效果4.面临挑战5.参考 InstructGPT语言模型,是一个比 GPT-3 更善于遵循用户意图,同时使用通过我们的对齐研究开发的技术使它们更真实、…

ChatGPT既然这么火,有没有弊端呢?

介绍 在现代社会中,人们越来越依赖技术来解决问题。聊天机器人是一种最新的技术趋势,这种技术可以为人们带来很多便利。而ChatGPT聊天机器人则是其中的一种,它使用了大型的语言模型GPT(Generative Pre-trained Transformer&#…

突发!ChatGPT疯了!

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 今天,笔者正常登录ChatGPT,试图调戏一下他。但是,突然震惊的发现,ChatGPT居然疯了。 之所以说他是疯了,而不是崩溃了,是因为他还能回复我,但…

ChatGPT背后的逻辑

版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl OpenAI与ChatGPT OpenAI是一个美国的人工智能(AI)研究实验室,由非营利组织OpenAI Incorporated和其盈利子公司OpenAI Limited Partnersh…

ChatGPT爆火网络背后的故事?

文章目录 前言一、ChatGPT的诞生背景二、ChatGPT的技术原理三、ChatGPT的推广策略四、ChatGPT的未来展望五、橙子送书第2期 前言 ChatGPT是一款基于人工智能技术的聊天机器人,它的出现引起了广泛的关注和热议。在短短的时间内,ChatGPT就成为了全球范围内…

ChatGPT 用户破亿背后...

2022 年 12 月初,ChatGPT 被社会广泛讨论之初,我们就介绍了 ChatGPT 母公司 OpenAI 使用了身份云(IDaaS)服务。在当时,人们还在感慨 ChatGPT 上线不到一周时间用户量就突破百万,而仅仅在不到两个月后&#…

ChatGPT背后的经济账

ChatGPT能否取代Google、百度这样的传统搜索引擎?为什么中国不能很快做出ChatGPT?当前,对这些问题的探讨大多囿于大型语言模型(LLM)的技术可行性,忽略或者非常粗糙地估计了实现这些目标背后的经济成本&…

ChatGPT是风口吗?爆火后的质疑猝不及防

作者观: 首先要明确一点,ChatGPT代替不了人类,不要抱不切实际的期望。 作为一款由OpenAI开发的人工智能聊天软件,该程序在一些人的眼里具有革命性的意义。 有人说,这玩意儿可以在一夜之间让无数人失业,也有…