微软开源“傻瓜式”类ChatGPT模型训练工具,成本大大降低,速度提升15倍

article/2024/9/7 19:10:15

当地时间 4 月 12 日,微软宣布开源 DeepSpeed-Chat,帮助用户轻松训练类 ChatGPT 等大语言模型。

据悉,Deep Speed Chat 是基于微软 Deep Speed 深度学习优化库开发而成,具备训练、强化推理等功能,还使用了 RLHF(基于人类反馈的强化学习)技术,可将训练速度提升 15 倍以上,而成本却大大降低。

如下图,一个 130 亿参数的类 ChatGPT 模型,训练时间只需要 1.25 小时。

简单来说,用户只需要通过 Deep Speed Chat 提供的 “傻瓜式” 操作,就能以最短的时间、最高效的成本训练类 ChatGPT 大语言模型。

开源地址:

https://github.com/microsoft/DeepSpeed

使 RLHF 训练真正在 AI 社区普及

近来,ChatGPT 及类似模型引发了 AI 行业的一场风潮。ChatGPT 类模型能够执行归纳、编程、翻译等任务,其结果与人类专家相当甚至更优。为了能够使普通数据科学家和研究者能够更加轻松地训练和部署 ChatGPT 等模型,AI 开源社区进行了各种尝试,如 ChatLLaMa、ChatGLM-6B、Alpaca、Vicuna、Databricks-Dolly 等。

然而,目前业内依然缺乏一个支持端到端的基于人工反馈机制的强化学习(RLHF)的规模化系统,这使得训练强大的类 ChatGPT 模型十分困难。

例如,使用现有的开源系统训练一个具有 67 亿参数的类 ChatGPT 模型,通常需要昂贵的多卡至多节点的 GPU 集群,但这些资源对大多数数据科学家或研究者而言难以获取。同时,即使有了这样的计算资源,现有的开源系统的训练效率通常也达不到这些机器最大效率的 5%。

简而言之,即使有了昂贵的多 GPU 集群,现有解决方案也无法轻松、快速、经济的训练具有数千亿参数的最先进的类 ChatGPT 模型。

与常见的大语言模型的预训练和微调不同,ChatGPT 模型的训练基于 RLHF 技术,这使得现有深度学习系统在训练类 ChatGPT 模型时存在种种局限。

微软在 Deep Speed Chat 介绍文档中表示,“为了让 ChatGPT 类型的模型更容易被普通数据科学家和研究者使用,并使 RLHF 训练真正在 AI 社区普及,我们发布了 DeepSpeed-Chat。”

据介绍,为了实现无缝的训练体验,微软在 DeepSpeed-Chat 中整合了一个端到端的训练流程,包括以下三个主要步骤:

图|DeepSpeed-Chat 的具有可选功能的 RLHF 训练流程图(来源:GitHub)

  • 监督微调(SFT),使用精选的人类回答来微调预训练的语言模型以应对各种查询;

  • 奖励模型微调,使用一个包含人类对同一查询的多个答案打分的数据集来训练一个独立的(通常比 SFT 小的)奖励模型(RW);

  • RLHF 训练,利用 Proximal Policy Optimization(PPO)算法,根据 RW 模型的奖励反馈进一步微调 SFT 模型。

在步骤 3 中,微软提供了指数移动平均(EMA)和混合训练两个额外的功能,以帮助提高模型质量。根据 InstructGPT,EMA 通常比传统的最终训练模型提供更好的响应质量,而混合训练可以帮助模型保持预训练基准解决能力。

总体来说,DeepSpeed-Chat 具有以下三大核心功能:

1.简化 ChatGPT 类型模型的训练和强化推理体验:只需一个脚本即可实现多个训练步骤,包括使用 Huggingface 预训练的模型、使用 DeepSpeed-RLHF 系统运行 InstructGPT 训练的所有三个步骤、甚至生成你自己的类 ChatGPT 模型。此外,微软还提供了一个易于使用的推理API,用于用户在模型训练后测试对话式交互。

2.DeepSpeed-RLHF 模块:DeepSpeed-RLHF 复刻了 InstructGPT 论文中的训练模式,并确保包括 SFT、奖励模型微调和 RLHF 在内的三个步骤与其一一对应。此外,微软还提供了数据抽象和混合功能,以支持用户使用多个不同来源的数据源进行训练。

3.DeepSpeed-RLHF 系统:微软将 DeepSpeed 的训练(training engine)和推理能力(inference engine) 整合到一个统一的混合引擎(DeepSpeed-HE)中用于 RLHF 训练。DeepSpeed-HE 能够在 RLHF 中无缝地在推理和训练模式之间切换,使其能够利用来自 DeepSpeed-Inference 的各种优化,如张量并行计算和高性能 CUDA 算子进行语言生成,同时对训练部分还能从 ZeRO- 和 LoRA-based 内存优化策略中受益。此外,DeepSpeed-HE 还能自动在 RLHF 的不同阶段进行智能的内存管理和数据缓存。

高效、经济、扩展性强

据介绍,DeepSpeed-RLHF 系统在大规模训练中具有出色的效率,使复杂的 RLHF 训练变得快速、经济并且易于大规模推广。

具体而言,DeepSpeed-HE 比现有系统快 15 倍以上,使 RLHF 训练快速且经济实惠。例如,DeepSpeed-HE 在 Azure 云上只需 9 小时即可训练一个 OPT-13B 模型,只需 18 小时即可训练一个 OPT-30B 模型。这两种训练分别花费不到 300 美元和 600 美元。

此外,DeepSpeed-HE 也具有卓越的扩展性,其能够支持训练拥有数千亿参数的模型,并在多节点多 GPU 系统上展现出卓越的扩展性。因此,即使是一个拥有 130 亿参数的模型,也只需 1.25 小时就能完成训练。而对于参数规模为 1750 亿的更大模型,使用 DeepSpeed-HE 进行训练也只需不到一天的时间。

另外,此次开源有望实现 RLHF 训练的普及化。微软表示,仅凭单个 GPU,DeepSpeed-HE 就能支持训练超过 130 亿参数的模型。这使得那些无法使用多 GPU 系统的数据科学家和研究者不仅能够轻松创建轻量级的 RLHF 模型,还能创建大型且功能强大的模型,以应对不同的使用场景。

那么,人手一个专属 ChatGPT 的时代,还有多远?


http://chatgpt.dhexx.cn/article/iHETt1j0.shtml

相关文章

颠覆历史!ChatGPT官方app正式登录美国苹果商店

人工智能研究公司OpenAI在官网宣布,其在美国推出了聊天机器人ChatGPT的iPhone应用,并承诺未来也将为安卓手机提供相同的服务。 官网还附带了该应用在苹果App Store上的链接。页面显示,这款名为“OpenAI ChatGPT”的应用仅适用于苹果手机iPhon…

苹果微软等科技巨头紧急叫停,chatgpt翻车了?(文末附联名信)

一、千名大佬集体叫停GPT研发 3月29日,一封联名信刷爆了各大媒体热榜,上面有一千多位大佬签名,其中包括埃隆马斯克、约书亚本吉奥(Yoshua Bengio,2018年图灵奖获得者)和史蒂夫沃兹尼亚克(Steve…

前苹果工程师吐槽:“Siri” 代码过时且复杂,不可能变得像 ChatGPT 一样强大...

【CSDN 编者按】在将生成式人工智能引入 Siri 上,苹果的前工程师约翰伯基并不看好,他认为 Siri 不可能像 ChatGPT 一样强大。 原文链接:How Siri, Alexa and Google Assistant Lost the AI Race - The New York Times (nytimes.com) 未经授权…

苹果限制员工使用ChatGPT等外部AI工具,只因担心泄密!

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 众所周知,今天 OpenAI 官方推出了 iOS 平台的 ChatGPT 应用程序。 然而,在路透社和华尔街日报的报道中,却提及了另外一则与之相关消息——苹果已经通…

微软支持的ChatGPT激增,但不要低估苹果和谷歌

微软和 OpenAI 可能在 AI 聊天机器人爆炸式增长的市场中具有先发优势,但不要排除其他一些可以访问大量 AI 训练数据的科技巨头,例如 Apple 和 Google。 通过其对 ChatGPT 开发商 OpenAI 的早期和持续支持,微软在AI 军备竞赛中目前处于领先地…

来自 ChatGPT 的威胁?谷歌、百度纷纷入局,苹果被迫“开卷”

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 近年来,AIGC 应用可谓是多处开花,成为了科技巨头的“必争之地”。 随着 ChatGPT 在互联网上“高热不下”,除了拍案叫绝的聊天能力以及惊人的准确率备…

“我把 ChatGPT 和苹果的 Siri 组了个队,发现无敌了!”

【CSDN 编者按】ChatGPT 的问世,带来了前所未有的智能应用新方式。如果“AIAI”,会碰撞出什么样的火花?近日,国外一名 Web 高级工程师 Mate Marschalko 将 ChatGPT 和 Siri 人工智能语言助手进行了结合,万万没想到&…

ChatGPT正式登陆iOS平台

6天前,ChatGPT在美区App Store中上架了官方App,累计下载量已经突破 50 万次,OpenAI 的 ChatGPT 应用在上架之后,其热度远超必应聊天等聊天机器人,以及其它使用 GPT-4 的第三方应用。 3.5是免费的,GPT4是收…

聚观早报 | 苹果2024年放弃高通;腾讯回应进军类 ChatGPT

今日要闻:苹果2024年放弃高通;腾讯回应进军类 ChatGPT;小米发布无线AR眼镜探索版;50%的美国企业已在使用ChatGPT;Snap推出ChatGPT驱动的聊天机器人 苹果2024年放弃高通 高通公司 CEO 兼总裁克里斯蒂亚诺・安蒙&#…

聚观早报 | ChatGPT登顶美区iOS免费榜;库克不满苹果首款MR设备

今日要闻:ChatGPT登顶美区iOS免费榜;库克不满苹果首款MR设备;索尼正开发小尺寸折叠屏手机;万达辟谣大规模裁员;智能仿生手让截肢者重获手心的温度 ChatGPT登顶美区iOS免费榜 ChatGPT 在 iOS 美区免费 App 排行榜上位列…

手把手带你利用苹果手机使用美区礼品卡升级ChatGPT Plus,轻松搞定!

大家好,我是五竹。 昨天用苹果手机尝试了一下,借助App Store(苹果应用商店)升级 Plus,成功了!一共升级了三个号!有两个一气呵成,轻松搞定。最后一个可能触发风控了,但第…

文心一言App在苹果AppStore上架;首款搭载ChatGPT的自行车问世;QQ Windows全新上架|极客头条

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&…

ChatGPT飙升苹果商店榜首,每周订阅需7.99美元,结果是个假的???

衡宇 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT出App版了,苹果商店下载就能使用?? 打开美国Apple Store搜索,下载后软件内每周付费7.99美元,即可享受与它无次数限制畅聊。 不过别忙着付费! 这个ChatGPT C…

【ChatGPT 实践 1】Mac、Iphone、Ipad 集成 ChatGPT

环境准备 1 个 ChatGPT 账号 步骤概述 这里以 Mac 为例: 1、点击下面链接,添加 爱玩 快捷指令 https://www.icloud.com/shortcuts/2f6afbd6660e48e18a587bc90ede3932 (可能出现打不开的情况,比如 部分 Iphone 设备&#xff…

AI在狂飙,ChatGPT-4可直接在iPhone上使用啦

今天凌晨,OpenAI 正式在 App Store 推出了 ChatGPT 的 iOS app,瞬间冲上苹果商店免费榜第二名,效率榜第一名。 于是兴致勃勃的去下载体验了一番。整体不错,以后手机使用官方的 ChatGPT 更方便啦!而且使用 GPT4 不再麻…

“我在 iPhone 上,创建了个 ChatGPT 快捷方式,这也太万能了……”

【CSDN 编者按】由 ChatGPT 提供支持的神奇快捷方式 S-GPT。 原文链接:https://medium.com/macoclock/heres-a-chatgpt-powered-shortcut-for-ios-that-will-blow-your-mind-c6aeebb77e00 未经允许,禁止转载! 作者 | Nikhil Vemu 译者 | 弯月…

chatGPT学英语,真香!!!

文章目录 学习目标学习内容目标方式过程 学习时间学习产出 学习目标 能够在三个月的练习后,和真人外教比较流畅的沟通! 最近chatGPT实在是太火了,各种事情都能干,能改论文、写代码和翻译。 看到B站很多教程教我们直接用chatGPT…

懒人学习法,如何用ChatGPT学英语!!

最近ChatGPT很火,ChatGPT可以干很多事情,同时也可以帮我们做很多事情! 今天就跟大家分享一下最近我用ChatGPT来学习英语的一些方法,目的是用最“懒”以及最高效的方式学点英语。 废话不多说,马上看如何使用ChatGPT学…

用Chat GPT学英语,你觉得是否代替英语老师?

本文将介绍关于如何使用ChatGPT 来学习英语的方法和技巧。 首先,您需要了解ChatGPT 是如何工作的。ChatGPT 是一个经过深度学习训练的人工智能网络,在不断的学习中提高自己的计算能力和语言处理能力。基于对话式的界面,用户可以向 ChatGPT 提…

chatGTP的全称Chat Generative Pre-trained Transformer

chatGPT,有时候我会拼写为:chatGTP,所以知道这个GTP的全称是很有用的。 ChatGPT全名:Chat Generative Pre-trained Transformer ,中文翻译是:聊天生成预训练变压器,所以是GPT,G是生…