2022年11月底美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具——ChatGPT聊天机器人。一经推出便迅速在社交媒体上走红,成为AI领域最炙手可热的话题,掀起了新一轮的人工智能浪潮。
ChatGPT不单是聊天机器人,它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得ChatGPT具备上知天文下知地理,还能根据聊天的上下文进行互动的能力,能够响应用户提出的各种自然语言形式的请求,做到与真正人类几乎无异的聊天交流。
ChatGPT像人一样的对话过程是最大的亮点,背后的对话语义技术功不可没。ChatGPT使用了大型语言模型GPT-3.5,其核心技术涵盖了在多轮对话过程中的用户意图理解,以及融合了机器翻译、信息抽取、文案生成、代码生成、邮件撰写等先进的内容生成技术,使其拥有语言理解和文本生成能力。
然而,ChatGPT并非技术的颠覆式创新,但该应用为何如此“出圈”?归根结底,是支撑这套人工智能技术训练语言模型的底层技术正变得越来越成熟。事实上,如果想完成如ChatGPT乃至更高级的人机交互,背后需要对海量数据处理分析及训练。
数十年来数据堂凭借自身优势,针对对话语义方面已设计制作了大量覆盖多领域的多轮对话文本训练数据集,以下为数据堂相关文本数据集:
DATATANG
垂直领域多轮对话文本
203,029组医疗类多轮问答数据
语种:中文
规模:超过20万组,每组包含医生和患者两人之间的多轮对话。
{
“id”: 55034,
“category”: “黑头”,
“content”: [
“patient:女 22岁 黑头多 毛孔粗大 鼻翼两侧泛红 有什么方法可以治疗或者缓解吗?然后再麻烦医生看看我的皮肤还有什么其他的问题”,
“doctor:你好,你的皮肤中间T区应该是比较油的,所以时间长了导致毛孔粗大,清洁以后会有鼻翼发红的现象。建议你使用针对敏感肌的药妆化妆品,如薇诺娜,玉泽等。T区可以适当多做清洁,面颊要少做清洁,洗脸的时候要面颊少按摩。在此基础毛孔粗大以及鼻翼泛红可以采用激光治疗,效果比较好。平常注意清淡饮食,辛辣刺激的少吃,皮肤上其他问题就是有黑眼圈,注意少熬夜,看你眼睛有黑眼圈。散在的小痘痘,有脓头的可以用莫匹罗星软膏涂一下,防止产生色沉。祝好。”,
“patient:感谢您的回答 我想问一下激光治疗和果酸换肤那个比较合适我 这两个都有什么优缺点”,
“doctor:你现在主要适合做激光先解决一下毛孔以及泛红的问题。果酸换肤有一定的角质剥脱作用,做完皮肤会看起来比较嫩一点,但你现在皮肤鼻翼旁有泛红,会敏感一点,所以暂不建议做果酸。”
],
},
电脑端打开可查看更多内容:
https://www.datatang.com/dataset/1086
DATATANG
开放领域多轮对话文本
830,276组人人多轮对话文本数据
语种:中文
规模:超过83万组,每组包含两个人之间的多轮对话。
09:30:07 B A 哈,你上班了没?我等着呢,十分钟吧。哈本来还想让你看看我的手机呢,哈
09:31:09 A B 上班了呵 过年的时候看吧 你嫂子明天回去
09:51:04 B A 哦,我知道的。移动硬盘在家吗?
10:18:51 A B 哪一个 新买的在 在我屋北边那个床头柜下边
10:20:42 B A 哦,哈,回去看看
17:01:38 A B 到家了吗
17:03:10 B A 没呢,估计快了
电脑端打开可查看更多内容:
https://www.datatang.com/dataset/150
DATATANG
垂直领域意图理解数据
47811句交互场景单句意图标注数据
语种:中文
规模:涵盖电话、导航、翻译、附属意图、闹钟、拍照、日程、设置、视频、提醒、天气、信息、页面控制、音乐、应用等15个领域的意图标注数据。
图片
电脑端打开可查看更多内容:
https://www.datatang.com/dataset/1085
84,516句交互场景英文单句意图标注数据
语种:英文
规模:涵盖电话、导航、翻译、附属意图、闹钟、拍照、日程、设置、视频、提醒、天气、信息、页面控制、音乐、应用、语音助手等16个领域的意图标注数据。
图片
电脑端打开可查看更多内容:
https://www.datatang.com/dataset/1154
DATATANG
开放领域意图理解数据
687,694句开放领域意图标注数据
涵盖出行、乘车、乘飞机、叫车、租车、行程购票、订机票、改签机票、订火车票、改签火车票、订宾馆、看电影、查询电影、定电影票、看综艺、看演唱会、查询地点位置、联系、打电话、发消息、寄快递、取快递、查询快递、充话费、充流量、开会、送人、接人、订餐馆、吃美食、看动漫等60个领域的意图标注数据。
{
“短信”:“王总,订明天中午大房间12一13人用餐,点几个漂亮的茶点。谢谢!邻居方总”,
“模块”:“订餐馆”,
“是否发送方意图”:“不是”,
“是否接收方意图”:“是”,
“主题”:“”,
“前置条件”:“”,
“条件地点”:“”,
“间隔时间”:“”,
“参与人姓名”:“”,
“参与人号码”:“”,
“动作发生地”:“”,
“动作开始时间”:“”,
“动作结束时间”:“”,
“就餐时间”:“明天中午;1”,
“餐馆名”:“”,
“餐馆地点”:“”,
“是否团购”:“”,
“菜系”:“”
},
电脑端打开可查看更多内容:
https://www.datatang.com/dataset/197
除此之外,数据堂还提供文本数据的定制服务以及文本数据标注平台服务。
文本数据定制服务可支持采集多语言、多领域的对话文本数据,并可根据不同的业务目标对不同类型的文本数据进行情感分析、主题分类、问答标注等任务。
文本数据标注平台覆盖实体、实体关系、阅读理解、交互意图、文本属性、文档属性、文本问答等标注工具,是数据堂根据多年标注实施经验打造而成,每一个按钮都经过多次实战考验,致力将操作体验优化到极致。
作为全球领先的人工智能的数据服务商,数据堂会持续制作新的对话语义训练数据集,为支撑ChatGPT模式的落地尽力。