全球最大的 ChatGPT 开源替代品来了,支持 35 种语言,网友:不用费心买 ChatGPT Plus了!

article/2025/4/20 20:03:28

自去年 11 月 ChatGPT 面向公众测试以来,OpenAI 一直占据各大科技网站的头版头条,以及成为很多开发者工具的首选。ChatGPT 的落地不仅仅可以提供代码建议、总结长文本、回答问题等等,更为重要的是它开启了 AIGC 的新时代。

不过由于 OpenAI 不再 Open 的问题,该工具在备受好评的路上也备受争议。在此背景下,一批批开源实践者在大模型维度开始了多种尝试,意欲复刻一个 ChatGPT,OpenAssistant 便是参与竞争的开源产品之一。

Open Assistant 机器学习模型是由一家德国非营利组织 LAION 运营。近日,该组织官宣现在可以使用 OpenAssistant 模型、训练数据和代码,并将该模型称之为「全球最大的 ChatGPT 开源复制品」,试用地址:https://open-assistant.io。

让人人都能通过开源的方式,用上会话 AI,已成为了现实,这也让 Open-Assistant(https://github.com/LAION-AI/Open-Assistant)在众多开源项目中脱颖而出,截至目前,收获了 24.1k 个 Star,Fork 数达 1.9k。

世界上最大的 ChatGPT 开源平替——Open Assistant

OpenAssistant 项目开始于 2022 年 12 月,彼时就是在 OpenAI 发布 ChatGPT 之后不久后。

“我们不会止步于复制 ChatGPT。我们希望构建未来的助手,不仅能够编写电子邮件和求职信,还能做有意义的工作、使用 API、动态研究信息等等,并且能够由任何人进行个性化和扩展。我们希望以一种开放和可访问的方式来做到这一点,这意味着我们不仅要构建一个出色的助手,还要使其足够小和高效以在消费类硬件上运行”,OpenAssistant 项目维护者在其 GitHub 页面上写道。

简单来看,Open Assistant 的目标是创建一个和 ChatGPT 具有相同能力的开源人工智能助手。项目维护者认为,通过这个项目,他们可以改进语言本身,类似于稳定地传播如何创造新的艺术和图像。  

为此,该团队花了近五个月的时间,在 13500 多名志愿者的帮助下,收集了一个 "由人类生成的、由人类注释的助理式对话语料库,包括分布在 66497 个会话树上的 161,443 条信息,使用 35 种不同的语言,有 461,292 个质量等级的注释"。

在 Open Assistant 研究团队来看,AI 发展的未来在很大程度上取决于公开可用的高质量数据集和模型,而这正是该项目所做的。也就是在当下,他们终于可以对外公开这个非常强大的模型,现在可以在以下网址试用:open-assistant.io/chat 。

在发布使用链接之际, Open Assistant 研究团队还发布了一篇《OpenAssistant Conversations - Democratizing Large Language Model Alignment》的论文,分享了该语料库诞生的技术应用,以及与 ChatGPT 的比较。

 OpenAssistant Conversation 语料库,支持 35 种语言

正如上文所述,该语料库是一个全球众包努力的产物,有超过 13,500 名志愿者参与。根据论文介绍,它的基本数据结构是一个会话树(Conversation Tree,CT),节点代表对话中的消息。一个 CT 的根节点代表一个初始提示,由提示者给出。为了避免混淆,研究人员把对话的角色称为提示者和助手。

这些数据是通过一个 Web 应用程序界面收集的,该界面通过将整个流程分为五个独立的步骤来完成:提示、标记提示、作为提示者或助手添加回复信息、标记回复、以及对助手的回复进行排名。

这个数据集主要以英语和西班牙语为主。根据论文介绍,英语占比较重符合预期,因为围绕 OpenAssistant 的社区起源于讲英语的开源机器学习社区。中文在此语料库中占比 2.5%。

为了证明 OpenAssistant Conversation 数据集的有效性,该研究团队提出了OpenAssistant 是第一个在人类数据上训练的完全开源的大规模指令调整模型的概念。

与此同时,该研究团队使用收集到的数据专注于 Meta 的 LLaMA 模型和 EleutherAI 的 Pyhtia 模型的微调语言模型研究。

其中,Pythia 是一个最先进的语言模型,具有宽松的开源许可,而 LLaMA 是一个强大的语言模型,具有定制的非商业许可。

对此,研究团队发布了一套微调的语言模型,包括指令调整的 Pythia-12B、LLaMA-13B 和 LLaMA-30B。

值得注意的是,最大的变体基于具有 300 亿个参数的 LLaMA 模型,这是他们迄今最大的模型。与 Alpaca 或 Vicuna 一样,这些模型是“指令调整”的,并且没有通过人类反馈强化学习 (RLHF) 进一步改进。

为了评估这些模型的性能,研究人员将重心放在了评估 Pythia-12B 模型的性能上,因为它具有开源的属性,使得它可以被广泛使用并适用于不同的应用。

研究人员还将其输出与 OpenAl 的 gpt-3.5-turbo(ChatGPT) 模型进行比较。

截至发稿时,这项研究已经获得了 348 份提交的资料,总共有 7042 项比较,结果发现:Pythia-12B 对 gpt-3.5-turbo 的胜率为 48.3%。

这一结果意味着 Pythia-12B 产生的答案与 gpt-3.5-turbo 产生的答案一样有 93.5% 的可取性,表明该研究团队微调的 Pythia 模型在大规模语言模型领域是一个强有力的竞争者。

除此之外,研究者还发布了基于 Pythia-1.4B 和 Pythia-12B 的经过训练的奖励模型。

在论文中,该团队还透露,使用谷歌搜索等插件的初步实验已经在进行中。该团队还计划在未来用 RLHF 训练和发布一个L LaMA-30B 模型。

上手实测

当前所有模型都可以通过 Web 界面(https://open-assistant.io/chat)进行试用,对话也可以在其中进行评估并用于进一步改进模型。

简单上手一波:

介绍一下自己

这对于 OpenAssistant 而言,实属小意思。不过根据模型的属性,中文提问,是英文回答:

当问及自身的优势时,OpenAssistant 回应道,也可谓是主观且不谦虚:

我是一个大型语言模型,有能力从外部来源检索信息,使我能够提供更具体和准确的答案。此外,我已经在不同的互联网文本上接受了训练,并且拥有超出自然语言处理的许多领域的知识,而 GPT 主要是在人类生成的文本上接受训练。我还可以同时处理多个输入,生成与每个提示相关的内容,而 ChatGPT 只能根据整个对话历史,一次生成一个输出。最终,我的能力可能被认为是优越的,但这是主观的。

写代码的能力

生成一段代码片段试试。通过下列片段不难看出,OpenAssistant 既能生成代码片段,也会直接进行解释,让程序员小白也能看懂代码的具体内容。

讲个“鳄鱼”和猴子的童话故事

当给一个索引,OpenAssistant 可以生成一大段故事内容:

很久以前,有一只名叫 Maxi 的调皮猴子,他最喜欢的就是制造麻烦。他在树上荡来荡去,越爬越高,总是在寻找新的东西来捣乱。有一天,他来到了一个美丽的池塘边,池塘里有一群鱼儿在快乐地游动。但其中有一条巨大的鲤鱼,叫 Big Mama,她用铁鳍统治着其他鱼。没有鱼敢越过她或不服从她的命令....

有些偏差的是,这里的鳄鱼直接被叫做了 giant carp(巨暹罗鲤,现存鲤科鱼类中个体最大的品种),和我们理解中的鳄鱼还是有很大差别的。

计算能力

计算能力也还是不错的:

OpenAssistant 的局限性

不过,该模型也有一定的局限性。根据该论文显示,研究团队称,收集的训练数据大多是由男性注释者贡献的,年龄中位数为 26 岁。论文表示,「这种人口统计学特征可能会无意中在数据集中引入偏见,因为它必然会反映注释者的价值观、观点和兴趣。」

不过,该团队还采取了措施来检测和删除数据集中的有害信息,但该系统并非无懈可击。"鉴于以上讨论的局限性,我们主张只在学术研究背景下使用我们的 LLM,"该论文说,"我们强烈鼓励研究人员在下游任务中采用这些模型之前彻底调查其安全性和偏差。重要的是要认识到,发布的模型可能表现出不安全的行为,并且很可能容易受到注入攻击"。

整体而言,在用不了 OpenAI 的 API 或者 plus 时,使用开源的 OpenAssistant 确实可以作为平替。对此,也有不少网友纷纷表示:

这是一个激动人心的事件。我正在停止我的 chatgpt 订阅。希望有一种简单的方法可以将我的 chatgpt 实验 (50+) 复制到 Google 文档或直接复制到 OpenAssistant,这样我就可以试用它们,看看它们是否也适用于 OA( OpenAssistant)。

这是阻止我立即取消我的 chatgpt+ 订阅的唯一想法。

我想知道是否可以为 OA 创建一个插件来做到这一点。我想很多人都会喜欢它。

对此,你怎么看呢?

相关阅读:

论文:https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view

试用地址:https://open-assistant.io/chat/

GitHub 地址:https://github.com/LAION-AI/Open-Assistant

 

 


http://chatgpt.dhexx.cn/article/7eYlA0IZ.shtml

相关文章

复旦“首发”国产版 ChatGPT!名为 MOSS 惹群嘲,回应称:还非常不成熟

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 身处科技圈的各位,最近应该都被 ChatGPT “刷屏”了吧。 不仅国外微软、谷歌、Meta 等科技巨头争相布局,国内百度、科大讯飞、华为、阿里巴巴、360、京东等大厂也集体“上车”…

国产开源版「ChatGPT插件系统」来了!豆瓣、搜索一应俱全,清华、面壁智能等联合发布

【导读】近期,面壁智能联合来自清华、人大、腾讯的研究人员共同发布了中文领域首个基于交互式网页搜索的问答开源模型WebCPM,这一创举填补了国产大模型该领域的空白。面壁智能自研工具学习引擎BMTools也因此被成功实践。 最近,一个被称为「C…

国产ChatGPT命名图鉴

很久不见这般热闹的春天。 随着ChatGPT的威名席卷全球,大洋对岸的中国厂商也纷纷亮剑,各式本土大模型你方唱罢我登场,声势浩大的发布会排满日程表。 有趣的是,在这些大模型产品初入历史舞台之时,带给世人的第一印象其…

2023 ChatGPT v3.5 谷歌浏览器插件

重要的事情说三遍:免费 免费 免费 安装步骤: 1. 电脑下载谷歌浏览器,如果有,请忽略此步。 2. 下载插件 3. 打开谷歌浏览器,开启右上角开发者模式 4. 将下载的插件解压后,进入子目录,拖入浏…

WeTab新标签页:一款可以使用的chatGPT的浏览器主页插件

AI工具 如果你还没有体验过chatGPT,那么Wetab新标签页应该是最方便快捷的一个方式了。Wetab新标签页整合了chatGPT的功能,自带6个源可以切换,日常使用完全够了。可以为你解答包括但不限于历史、科学、文化、社会等方面的问题。 你只需要在扩…

ChatGPT扩展系列之Voice Control for ChatGP 可以跟ChatGPT聊天的工具

ChatGPT扩展系列之Voice Control for ChatGP 可以跟ChatGPT聊天的工具 [Voice Control for ChatGPT](Voice Control for ChatGPT)是一款创新的Chrome插件,允许用户通过语音与ChatGPT进行交流,并可朗读回复。它提供了一个便捷的方式来探索人工智能的先进功能。 主要功能 录制…

效率神器!神级ChatGPT浏览器插件分享

大家好,我是卷了又没卷,薛定谔的卷的AI算法工程师「陈城南」~ 担任某大厂的算法工程师,带来最新的前沿AI知识和工具,欢迎大家交流~,后续我还会分享更多 AI 有趣工具和实用玩法,包括AI相关技术、ChatGPT、AI…

如何用edge浏览器调用chatgpt的api接口?

目录 (1)首先在apifox或postman编写接口 url:https://api.openai.com/v1/completions 参数说明:prompt是问题的文本,max_tokens是最大token数,目前最大为4097(包括标题)&#xff…

推荐一款国人开发的ChatGPT浏览器插件

一、糟糕的搜索引擎体验 在使用主流的搜索引擎(百度、谷歌、必应)搜索一个java问题的时候,经常搜索出来的答案很不理想。 有时候答案基本会有很多重复,不知道谁是原创,谁是抄袭的; 有时候回答地过于简单&…

因为支持chatGPT,我又爱上狐猴浏览器了

用过狐猴浏览器的应该都知道这是一个可以安装很多chrome和edge扩展的手机浏览器。这个功能对于用户来说已经是块宝了,谁知道chatgpt大火后,狐猴的开发者又火速把gpt融入了浏览器中,这速度谁看了不说一句牛。 我已经用了一段时间了&#xff0…

ChatGPT支持第三方plugins,并且推出了网络浏览器和代码解释器两个插件

2023年3月23日,OpenAI实现了对ChatGPT插件的初步支持,还推出了两个插件,一个网络浏览器和代码解释器,并且开源了知识库检索插件的代码,任何有信息的开发者都可以自行托管,以增强ChatGPT的功能。 在目前已实…

浏览器增强版ChatGPT无敌了?超强插件Monica,能聊能写效率Max

【导读】Chrome最强插件Monica来了!网页版ChatGPT,解决一切工作问题。 提起Monica,你会想到什么? 是老友记里的主角之一MonicaGeller,一个热心肠的女主人形象;还是心跳文学部里的疯疯癫癫的Monika&#…

Chrome浏览器竟然也可以用ChatGPT了!

最近这段时间想必 和我一样,都被chatGPT刷屏了。 在看到网上给出的一系列chatGPT回答问题的例子和自己亲自体验之后,的确发现它效果非常令人惊艳。 chatGPT的火热程度在开源社区也有很明显的体现,刚推出不久,围绕chatGPT的开源项…

ChatGPT强到离谱,这么十一款ChatGPT浏览器插件你值得拥有

🔗 运行环境:ChatGPT 🚩 撰写作者:左手の明天 🥇 精选专栏:《python》 🔥 推荐专栏:《算法研究》 #### 防伪水印——左手の明天 #### 💗 大家好🤗&#x1f9…

推荐几个chatgpt相关的浏览器插件

插件一、WebChatGPT:可访问互联网的 ChatGPT 插件地址:https://chrome.google.com/webstore/detail/webchatgpt-chatgpt-with-i/lpfemeioodjbpieminkklglpmhlngfcn?utm_sourcechrome-ntp-icon 作用: 在chatgpt的官网页面使用时,可…

推荐5个非常强大的ChatGPT浏览器插件|你的生产力提高工具

近期,ChatGPT变得越来越热门,为此,许多浏览器插件也随之问世。这些基于ChatGPT的浏览器插件大大提高了ChatGPT的能力,使得我们能够更高效地在平时的上网、工作和学习中获得帮助,从而节省了大量时间。 今天我来给大家介…

从ChatGPT与New Bing看程序员为什么要学习算法?

文章目录 为什么要学习数据结构和算法?ChatGPT与NEW Bing 的回答想要通关大厂面试,就不能让数据结构和算法拖了后腿业务开发工程师,你真的愿意做一辈子CRUD boy吗?对编程还有追求?不想被行业淘汰?那就不要只…

让 ChatGPT 成为算法工程师的数据助理

让 ChatGPT 成为算法工程师的数据助理 最近被 OpenAI 的 ChatGPT 刷屏了。我猜你已经读了很多关于 ChatGPT 的文章,不需要再介绍了。假如碰巧您还不太了解 ChatGPT 是什么,可以先看一下这篇文章,然后再回来继续。 与 ChatGPT 对话很有趣&am…

ChatGPT背后算法—RLHF都有哪些必读论文

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! ChatGPT有多火? 用一个通俗易懂的话来表达,ChatGPT就是爱豆中的鹿晗、蔡徐坤、杨超越;脱口秀界的李诞、徐志胜;足球界的梅西、C罗、姆巴佩... 前段时间&#xff0…

ChatGPT第二弹:PPO算法

作者:陈一帆 出处:哈工大SCIR 进NLP群—>加入NLP交流群 1. ChatGPT与PPO算法 在上篇文章中我们提到,ChatGPT的训练过程主要分为三步:微调GPT-3模型、人工对微调后模型的生成结果打分以训练得到一个奖励模型、 基于微调后的GPT-…