ChatGPT开源替代来了!参数量200亿,在4300万条指令上微调而成

article/2025/4/21 20:13:17

OpenChatKit 是一个类 ChatGPT 开源工具包,内含一个 20B 参数量的大模型,而且该模型在 4300 万条指令上进行了微调。

转自《机器之心》

2023 年,聊天机器人领域似乎只剩下两个阵营:「OpenAI 的 ChatGPT」和「其他」。

ChatGPT 功能强大,但 OpenAI 不太可能将其开源。「其他」阵营表现欠佳,但不少人都在做开源方面的努力,比如前段时间 Meta 开源的 LLaMA。

除此之外,一个名为 EleutherAI 的开源 AI 研究团队也一直在贡献开源大模型成果。自 2020 年 7 月成立以来,该团队先后开源了基于 GPT-3 的、包含 60 亿参数的 NLP 模型 GPT-J,类 GPT 的 27 亿参数模型 GPT-Neo,以及 200 亿参数的 GPT-NeoX-20B。据悉,他们的最终目标是将开源模型的参数规模扩展到 1700 亿左右,就像 GPT-3 一样。

在 ChatGPT 火遍全球之际,EleutherAI 的这些开源成果派上了用场。一家名为 Together 的组织表示,他们基于 EleutherAI 开源的 GPT-Neo 和 GPT-J 构建了一个新的类 ChatGPT 开源项目 ——OpenChatKit。

项目链接:https://github.com/togethercomputer/OpenChatKit

这个项目提供了一个强大的、开源的基础,可以为各种应用创建专门和通用的聊天机器人。具体来说,它包含:

  • 一个参数量达 20B 的开源模型,该模型基于 EleutherAI 的 GPT-NeoX-20B,在 4300 万条指令上进行了微调;

  • 一个参数量达 60 亿的审核模型(moderation model),可以帮模型过滤不当内容;

  • 一个可扩展的检索系统,可以帮模型检索维基百科等资源库,从而给出最新信息。

根据 Together 提供的链接,我们可以粗略看到 OpenChatKit 在摘要提取、问答、写作等方面的表现。以下是 Together 提供的一些 demo:

想要深入了解 OpenChatKit 的读者也可以亲自测试。

测试链接:https://huggingface.co/spaces/togethercomputer/OpenChatKit

从目前的表现来看,OpenChatKit 可能还不太令人满意。但在此开源项目的基础上,社区有望构建出更加强大的聊天机器人应用。

参数量 20B 的指令调优大模型

GPT-NeoXT-Chat-Base-20B 是构成 OpenChatKit 基础的大型语言模型。它基于 EleutherAI 的 GPT-NeoX 模型,并通过专注于对话互动的数据进行了微调。Together 在 Huggingface 上发布了这个模型的预训练权重:https://huggingface.co/togethercomputer/GPT-NeoXT-Chat-Base-20B

Together 的开发者将模型调整的重点放在几个任务上,如多轮对话、问答、分类、提取和总结。他们用 4300 万条高质量指令对模型进行了微调,并与 LAION 和 Ontocord 合作,创建了该模型所基于的 OIG-43M 数据集。数据集信息参见:https://laion.ai/blog/oig-dataset/

OIG-43M 数据集示例。

开箱即用的 GPT-NeoXT-Chat-Base-20B 为一系列广泛的自然语言任务提供了一个强大的基础。从质量上看,它在 HELM 基准上的得分比其基础模型 GPT-NeoX 高,特别是在涉及问答、提取和分类的任务上。

在 HELM 上评估 GPT-NeoXT-Chat-Base-20B 并与 GPT-NeoX 进行比较。†表示测试包含微调语料库中的数据。

模型长处

OpenChatKit 有几个任务是开箱即用的,包括:

1、将一份长的文件总结成一句话,并回答与该文件相关的问题,问答可进行多轮;

2、从非结构化文件中提取结构化信息,如下图所示;

3、将一个句子或段落分为不同的类别(比如情绪是积极还是消极)。

利用 OpenChatKit 把一段长文字内容转化成图表。

模型短板

OpenChatKit 目前的短板包括:

  • 基于知识的封闭式问答。该聊天机器人可能会给出不正确的结果,需要用户提供反馈;

  • 代码相关任务。由于训练数据中没有足够多的代码,因此该聊天机器人在代码方面表现欠佳;

  • 重复性。该聊天机器人有时会重复自己的回答,用户可以点击刷新,开始新的对话;

  • 上下文切换。该聊天机器人不太擅长转换话题。

  • 创意写作和较长的答案。该聊天机器人不会生成长的、有创意的文本,如论文或故事。

针对特定任务定制聊天机器人

在一般问答任务中,大型语言模型已经显示出令人印象深刻的能力。当为特定的应用进行微调时,它们往往能达到更高的准确率。例如,谷歌的 PaLM 在医学回答上达到了大约 50% 的准确率,但是通过添加指令支持和对医学特定信息的微调,谷歌创造了 Med-PaLM,其准确率达到了 92.6%。同样的方法也可以用于其他任务。

OpenChatKit 提供了一些工具来为专门的应用微调聊天机器人。其开发团队正在与研究小组和公司合作,帮助他们为各种任务创建自定义模型。这些任务包括:

  • 教育助手:在开放的教科书数据集上进行微调,创建一个聊天机器人,通过自然对话帮助各年龄段的学生了解各种主题;

  • 金融问答:微调并利用美国证券交易委员会文件等金融数据的检索,实现金融领域的问答;

  • 客户支持代理:利用知识库数据进行微调,创建聊天机器人,帮助终端用户分辨问题并快速找到答案。

如何进行微调

微调需要的操作包括

  • 准备好你的数据集,使用指定格式的交互示例;

  • 将你的数据集保存为 jsonl 文件,并按照 OpenChatKit 的 GitHub 文档对聊天模型进行微调;

  • 不要忘记审核模型!在开始使用你的微调模型之前,请注意审核模型可能需要过滤的域外问题。如果有必要,准备一些调节数据并微调审核模型。

这个过程的文档和源代码可以在 OpenChatKit 的 GitHub 链接中找到。由于 OpenChatKit 在 Apache-2.0 许可下完全开源,你可以为自己的应用或研究深入调整、修改或检查权重。

用于实时更新答案的可扩展检索系统

OpenChatKit 还包括一个可扩展的检索系统。有了这个检索系统,聊天机器人能够将定期更新的内容或自定义的内容,如来自维基百科的知识、新闻提要或体育比赛成绩纳入回答中。

检索增强系统的工作流程示例。

审核模型在必要时进行干预

OpenChatKit 的最后一个组件是一个由 GPT-JT 微调的 60 亿个参数的审核模型。在聊天应用中,审核模型与主聊天模型同步运行,检查用户话语中是否有任何不适当的内容。基于审核模型的评估,聊天机器人可以将输入的内容限制在经过审核的主题上。当然,这个审核模型只是一个基线,用户可以根据不同的需求进行调整和定制。

在推理过程中,开发者进行了 few-shot 分类,将用户问题分为五类。聊天机器人只在问题落入允许的分类中时才会做出回应。

参考链接:https://www.together.xyz/blog/openchatkit

文章源自:”计算机视觉研究院“公众号

卡奥斯开源社区是为开发者提供便捷高效的开发服务和可持续分享、交流的IT前沿阵地,包含技术文章、群组、互动问答、在线学习、开发者平台、OpenAPI平台、低代码平台、开源项目等服务,社区使命是让每一个知识工人成就不凡。

官网链接:Openlab.cosmoplat—打造工业互联网顶级开源社区


http://chatgpt.dhexx.cn/article/sfwBvsGn.shtml

相关文章

ChatGPT开源平替来了,开箱即用!前OpenAI团队打造,GitHub刚发布就揽获800+星

点击上方“视学算法”,选择加"星标"或“置顶” 重磅干货,第一时间送达 丰色 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT的开源平替来了,源代码、模型权重和训练数据集全部公开。 它叫OpenChatKit,由前OpenAI研究员共同…

一大波 ChatGPT 开源项目,诞生了!

这是「进击的Coder」的第 764 篇技术分享 作者:小 G 来源:GitHubDaily “ 阅读本文大概需要 8 分钟。 ” 本月初 ChatGPT 问世,犹如平地惊雷般,在技术圈中引起了广泛讨论。 作为全球最大的开发者社区,GitHub 平台也在…

推荐 4个有趣实用的 ChatGPT 开源应用

以下是 4个有趣实用的基于 ChatGPT 的开源应用,让我们一起来探索吧! 1. ChatGPT 快捷键 ChatGPT Shortcut 是一个让你使用 ChatGPT 时生产力翻倍的快捷指令网站。你只需在该开源项目中复制提示词,稍加修改后发送给 ChatGPT,就能…

ChatGPT开源优秀项目推荐

作为一名开发者,总是希望能够找到一些优秀的开源项目来学习、使用和贡献。而随着人工智能技术的不断发展,ChatGPT作为一个开源的大型语言模型,已经成为了人们学习和开发自然语言处理应用的重要工具。在这篇技术博客中,我将向大家介…

ChatGPT 开源替代项目整理

项目作者 nichtdax 整理了 9 个开源的 ChatGPT 平替项目。接下来会一一介绍。 项目地址:https://github.com/nichtdax/awesome-totally-open-chatgpt PaLM-rlhf-pytorch 第一个项目是「PaLM-rlhf-pytorch」,项目作者为 Phil Wang。该项目是在 PaLM 架构之…

5 个令人惊艳的 ChatGPT 项目,开源了!

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 自 3 月初 Open AI 开放 ChatGPT API 以来,GitHub 上诞生的开源项目数量之多,着实让我应接不暇。 今天,我将着重挑选几个对日常工作、生活、学习帮助较大…

6 个令人惊艳的 ChatGPT 项目,开源了!

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 过去一周,技术圈的各个爆炸新闻,可以说是让我真正见证到了什么叫人间一日,AI 一年。 首先是 New Bing 对所有用户放开,注册即可用&#xff0…

开源版ChatGPT,30分钟训完,性能堪比GPT3.5!

转自:新智元 话说,ChatGPT 开源,是一件好事吗? 此前,OpenAI 不 Open 的事件,已经引发了坊间的诸多争议。 光放出基准和测试结果,不提供训练数据、成本、方法,是真的要「赢家通吃」了…

最近很火的ChatGPT究竟是什么?本文解释得非常全面,还通俗易懂

目录 01 ChatGPT是什么? 02 ChatGPT能做什么? 1)回答问题。 2)撰写文章。 3)总结提炼。 4)生成代码。 03 ChatGPT 的缺点和问题 04 ChatGPT的未来前景 1)搜索。 2)阅读…

知乎、百度会被ChatGPT取代吗?百度文心一言胜算如何

有人说ChatGPT革了知乎的命,这种看法是很直观能理解的,因为知乎上面有问题(题主),也有很多人回答问题,解决题主的疑惑,其实这种形式和ChatGPT的“一问一答”“知识分享”或“对话交流”很相像。…

如何让ChatGPT写出更符合知乎调性的文章

文 / 韩彬(微信公众号:量子论) 很多朋友疑问,怎么起的”量子论”这个不伦不类的名字。 这背后的故事,有必要做个解释。 最早时候,我们想起个与ChatGPT有关的名字,比如“ChatGPT学习指南”、“Ch…

2023最新商业版ChatGPT网站源码4.8.0+功能强大/新增一键安装

正文: 安装教程: 一台VPS 搭建宝塔 解析域名 上传程序至根目录 访问首页在线安装配置数据库 PHP版本选择:7.3 安装完成后访问网站首页即可! 配置APIKEY,登录网站后台自定义配置,不然网站无法使用! 网站后台地址/admin 默…

2023商业版ChatGPT网页版源码V4.4+有后台/功能配置多

正文: 4.4版本来了 V4.4 新增注册用户赠送次数自定义 修复前端密钥明文 V4.3 优化首页加载CSS 之前加载的时候div块会往左边跑 代码安全性逻加强 优化首页输入框换行过高的问题 安装教程: 搭建宝塔 解析域名 上传程序至根目录 配置数据库信息:lib/config.php 导入…

2023最新ChatGPT中文自适应网页版带后台会员中心PHP源码

ChatGPT是一种使用人工智能技术开发的聊天机器人,它可以与人类进行自然语言对话,并提供有用的回答和建议。 ChatGPT使用了监督学习和强化学习技术,在GPT-3.5模型的基础上进行了微调和升级。这使得它能够理解人类的语言,并根据问题…

如何高效性的使用ChatGPT

目录 简单介绍 考虑以下几点 举几个例子 简单介绍 ChatGPT是由OpenAI开发的一种自然语言处理模型,它基于GPT(Generative Pre-trained Transformer)架构,旨在为用户提供更加流畅、准确的对话体验。 ChatGPT通过在大规模的互联网…

【Python】极简部署私有化ChatGPT-Web,使用Flask框架编写网页版ChatGPT

极简部署私有化ChatGPT 使用ChatGPT最新API创建的聊天页面,模型回复效果与官网的ChatGPT一致特性演示动图使用前提介绍 使用ChatGPT最新API创建的聊天页面,模型回复效果与官网的ChatGPT一致 特性 python环境下可极简配置windows、linux、mac os均可部署…

她用ChatGPT写了一篇文章,日赚14000元!

金磊 Pine 发自 凹非寺量子位 | 公众号 QbitAI 用ChatGPT写篇博客,竟能实现日入过万! 没开玩笑,这事真真儿地就发生了。 事情的起因,是一位小姐姐正准备发布一篇数据分析文章,字数大约在3000左右。 但她觉得一边要分析…

​ChatGPT爆火后:API与平台战争

无界社区是一个跨学科的创新组织,由设计师和工程师组成的开放式线上协作组织。我们正在寻找对跨学科内容感兴趣、敢于尝试新方法并乐于分享想法的人士。如果你准备好加入一个开放、协作、有思想并能够凸显你独特性格的大家庭,那么请来无界社区吧&#xf…

ChatGPT版Office来了:微软下周四举行发布会,CEO亲自上

机器之心报道编辑:蛋酱 又一次「工业革命」正在加速进行? 从微软、谷歌到百度,大型科技公司正加速将生成式 AI 整合到他们的产品中。 刚刚,微软公司宣布将 ChatGPT 背后的技术与其低代码应用平台 Power Platform 捆绑在一起&#…

ChatGPT是智能硬件的春天

智能音箱,一度被亚马逊带领引爆。 国内京东,阿里,百度,小米,腾讯等厂家参下,蓬勃发展。 然而,在2021到2022年,智能音箱就可开始下滑,叮咚音箱退出历史舞台。 转机出现在2…