FlyAI资讯:GPT-3的威力,助力AI领域

article/2025/9/19 10:48:11

摘要:大概一个月之前,史上最巨无霸NLP模型GPT-3问世。当时它向世界展示的能力是,“不仅会写短文,而且写出来的作文挺逼真的,几乎可以骗过人类,可以说几乎通过了图灵测试。”可能是因为它的前一代模型GPT-2也因“擅长 ...


人工智能学习离不开实践的验证,推荐大家可以多在FlyAI-AI竞赛服务平台多参加训练和竞赛,以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例,支持算法能力变现以及快速的迭代算法模型。

1、GPT-3的惊人威力 

大概一个月之前,史上最巨无霸NLP模型GPT-3问世。

当时它向世界展示的能力是,“不仅会写短文,而且写出来的作文挺逼真的,几乎可以骗过人类,可以说几乎通过了图灵测试。”

可能是因为它的前一代模型GPT-2也因“擅长写作”成名,所以这个和GPT-2几乎完全同构的“哥哥”,并没有让媒体以及领域相关的算法工程师们特别惊讶。

堆叠参数量并增加训练样本,可以让模型在同一个任务上表现的更好,这个结论已经深入人心。

然而一周之前,一些网友用GPT-3模型开发了各种各样的应用,证明了GPT-3不仅能够答题、写文章,做翻译,还能生成代码、做数学推理、数据分析、画图表制作简历,甚至玩游戏都可以,而且效果出奇的好。

从算法效果上看,大力出奇迹,真是越来越香。

2、“饥渴”的模型,“枯竭”的算力 

从参数量上看,GPT-3拥有前所未有的规模,达到1750亿个。而且,其训练数据集规模也超过500GB。训练如此一个巨型怪物,必然是相当吃算力。

算力消耗到什么程度?按照量子位给出的数据,训练一个GPT-3模型需要“355个GPU年”(一块GPU运行355年的运算量),光是训练费用就高达460万美元。

显然,一块GPU是不够的。只有使用分布式多机多卡,才能在有效的时间内完成GPT-3的训练。显然,这种训练模式花费只会更高。此前,微软花钱攒了一个包含10000个Nvidia V100 GPU的分布式集群,专门供openai做模型训练。

虽然无法得知训练GPT-3到底使用了多少资源,采用了何种分布式模式,但可以肯定的是,它是个吞金兽。

回到模型结构上,自从2017年Google开源了Transformer之后,基于Attention的Transformer block几乎一统NLP江湖,甚至在图像,Graph等领域上都有所侵入。

因为Transformer block在并行计算方面存在较大的潜力,使得NLP领域的模型创新基本完成了收敛,开始走上了简单粗暴的“堆层”道路。

无论Attention head多大,Transformer block多深,只要你能把模型堆起来,就一定有十分优雅的办法做并行化。在这里,并行化不仅仅是简单的数据并行,也包含各种各样的模型并行策略。

虽然每次冠以新名字的Transformer模型出现时,总是伴随着一些建模的trick(比如预训练Bert时,对数据的随机mask策略),或者模型层面的微调(比如Bert使用Encoder结构堆叠层数,而GPT-2更偏爱Decoder),但这些都不十分重要,因为它还是Transformer,只是层数变多了,参数量多了。

所以,让我们做一个Transformer家族中具有代表性的模型粗略梳理,并把关注度放到模型的参数量增长上。

从2018年BERT-Large的3.4亿模型参数量,到2020年中GPT-3的1750亿参数量,短短两年多的时间里,实现了模型参数近515倍的增长,这是从2012年Deep Learning在业界爆发火热之后,从来没有出现过的。

创造巨大的模型,以更多的算力换取收敛效果,似乎正在成为不可逆转的趋势。

3、算法平台的阴谋 

大模型的参数量,是否存在冗余?显然是的。

还记得ALBERT吗?它是在BERT-Large之后出现的模型。在模型参数量上,它比BERT-Large小18倍,但却能达到和BERT-Large相当的效果。

因为BERT-Large对于当时的广大工业界的硬件基础设施来说过于奢侈,才催生了小版本模型ALBERT。在经济成本上,无论是离线训练,还是线上部署,ALBERT确实更加接地气。

小版本模型的出现,也从侧面说明BERT-Large这样的模型,从参数量上确实存在大量的冗余。或者从另一方面解读,如果模型压缩算法足够好,一个巨无霸模型完全可以“无损瘦身”。

而BERT-Large的好处,就是在模型设计上足够“简单粗暴”,能够减轻算法工程师调参压力。以强大的算力换取模型效果,确实是一条路。

可是自从微软release GPT-2之后,巨无霸模型的瘦身版本似乎没有再出现过。

以此为界,Transformer家族模型的创新,则完完全全变成了Google和微软两家公司的对台戏。

微软提出GPT-2之后,Google马上做了T5-11B模型。现在微软的openai又propose了GPT-3。期间,NVIDIA也凑了热闹,提出了参数量达到8B的Megatron。

回过头看,ALBert是Google和丰田联合研发的结果,可是为什么后来不继续做了?GPT-2以及之后的模型难道没有压缩的可能?显然不是。其实对AI巨头来说,对关键模型做瘦身,属于“政治”不正确。

吹捧超大模型,背后是算法平台的阴谋。只有牛逼的算法平台,才有足够强大的算力,才有资格训练大模型。

“当大家都去挖金子时,贩卖铁锹的人总能获得较大的利润”。AI领域也是如此。

目前,虽然AI领域的落地还处于不断探索的阶段,但此方向优质的潜力毋庸置疑。为了很好地支持公司内部的模型训练,也为了能够有朝一日赋能其他应用级企业,AI巨头们纷纷从软件和硬件层面打造了AI算法军火库——算法平台。

到目前为止,经过了几年的沉淀,软件框架层面之争基本收敛。TensorFlow和PyTorch已经在工业界和学术界站稳了脚跟。

接下来,就到了算法平台的后半场,这涉及到深度学习技术栈中更加底层的部分,也是AI巨头们至关重要的护城河——硬件设施及软件优化。

众所周知,NVIDIA的独特地位导致GPU售卖十分昂贵。烧钱买GPU搭建算法平台,只会让NVIDIA吃掉大部分红利。为此,巨头们开始自研AI芯片。

Google为了模型训练发明了TPU,微软也在生产Graph core硬件。如果巨头们纷纷打磨好了各自的芯片产品,那么对于他们自己来说,将会彻底摆脱被NVIDIA掐脖子的束缚。

对内,他们将有机会以较低的成本搭建大规模集群,构建强算力平台,支持所有线上业务。

对外,他们还能将基础设施以SAAS或者PAAS的形式打造成产品,赋能其他企业。

但对于大部分企业,因为没有自己的军火库,如果软件优化层面也没有沉淀,那么最终只有两种选择。

烧钱购置大量NVIDIA计算卡作为重资产,然后不断尝试软件层面的优化。最后发现,总是被GPU体系结构,以及带宽所拖累,逃不出被NVIDIA卡脖子的命运。

买AI巨头们PAAS或SAAS,将自己的身家性命放到巨头的平台上,走上被别人家平台绑架的道路。

但是,如果所有的模型,都能做到仅靠几块GPU并行训练就能满足的程度,那么强算力的平台又有什么吸引力?换句话说,如何体现强算力平台的独特优势?似乎,那些背靠强大算法平台的大模型,确实是最完美的诱饵。

为此,他们的算法工程师们只要做好一件事——证明大模型的碾压式效果。

4、模型创新的阻碍

时至今日,模型创新不仅难倒了普通研究者,也成为了非AI巨头们的无法逾越的技术门槛。

没有强大的算力,就无法进行大模型创新;也正是因为大模型无法被支持,看不到其效果,才导致算力的潜力被低估。这就是非AI巨头企业们如今陷入的恶性循环。

其实能想到,巨无霸模型的参数更多,训练更难,实验需要更多的trick。大力出奇迹,未必是想象那般简单。

其实也能看到,为了证明GPT-3的优势,也为了彰显自己平台的算力,官方在宣传方面确实做了些夸张(比如自动生成代码时的注释)。

但我们已经不能否认,强大的算力,强大的算法平台——是AI领域真正的技术高墙。


更多关于人工智能的文章,敬请访问:FlyAI-AI竞赛服务平台学习圈学习;同时FlyAI欢迎广大算法工程师在平台发文,获得更多原创奖励。此外,FlyAI竞赛平台提供大量数据型赛题供学习党和竞赛党参与,免费GPU试用,更多大赛经验分享;如有任何疑问可添加下方微信服务号(FlyAI小助手)进行咨询。


更多福利可添加“FlyAI小助手”获取~
 


http://chatgpt.dhexx.cn/article/yGmBsDfE.shtml

相关文章

FlyAI赛题预告:时间序列初学者指南

近期,FlyAI服务竞赛平台将上线时间序列相关赛题,看到此文的童鞋们可以多多关注下;推荐大家可以多在FlyAI竞赛服务平台多参加训练和竞赛,以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。…

FlyAI资讯:人工智能的前世今生

摘要: 现代电子产品和设备在诸如通信 、娱乐 、安全和医疗保健等许多方面改善了我们的生活质量 ,这主要是因为现代微电子技术的发展极大地改变了人们的日常工作和互动方式。在过去几十年中,摩尔定律一直是通过不断缩小芯 … 人工智能学习离不开实践的验…

FlyAI小课堂:Tensorflow基操

人工智能学习离不开实践的验证,推荐大家可以多在FlyAI-AI竞赛服务平台多参加训练和竞赛,以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例,支持算法能力变现以及快速的…

FlyAI资讯:台积电布局新存储技术

摘要:近年来,在人工智能(AI)、5G等推动下,以MRAM(磁阻式随机存取存储器)、铁电随机存取存储器 (FRAM)、相变随机存取存储器(PRAM),以及可变电阻式随机存取存储…

强烈推荐!FlyAI机器学习数据竞赛启动,丰厚奖金等你来拿

FlyAI 数据竞赛平台 FlyAI 是隶属于北京智能工场科技有限公司旗下,为AI开发者 (深度学习)提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例,样例所使用开发框架涉及TensorFlow、Keras、PyTorch. 支持…

FlyAI竞赛服务平台赛题上新——手写英文字体识别(名企内推)

人工智能学习离不开实践的验证,推荐大家可以多在FlyAI-AI竞赛服务平台多参加训练和竞赛,以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例,支持算法能力变现以及快速的…

万元大奖,FlyAI算法新赛事,心理卡牌目标检测

本文转自竞赛社区FlyAI最新上线算法赛。 “心理卡牌目标检测算法赛”由测测星座与趣鸭心理联合发起的线上竞赛项目。2020年新冠肺炎疫情打破了我们平静的生活,影响了我们的身体健康和精神健康。在国家发布的《“健康中国2030”规划纲要》中也提到,要加大…

百万现金奖励,FlyAI实时竞赛等你来战

点击我爱计算机视觉标星,更快获取CVML新技术 这是一种新的算法竞赛方式! FlyAI是一个为算法工程师提供(深度学习)项目竞赛并支持GPU离线训练的网站。目前每周更新两个以上现金奖励的竞赛项目。项目涉及领域包括图像识别/分类/检测…

使用FlyAI进行科学数据竞赛

转自百度经验 https://jingyan.baidu.com/article/acf728fd9c3e6af8e510a392.html 工具/原料 python3 Windows命令行(mac/Linux都可运行,此经验以Windows为例) 百度经验:jingyan.baidu.com 注册账号 1 使用浏览器打开 www.flyai.com,并点击注…

FlyAI资讯:收藏!深度学习必读10篇经典算法论文总结!

前言 目录 前言 1998年:LeNet 2012年:AlexNet 2014年:VGG 2014年:GoogLeNet 2015年:Batch Normalization 2015年:ResNet 2016年:Xception 2017年:MobileNet 2017年&#…

FlyAi实战之MNIST手写数字识别练习赛(准确率99.55%)

欢迎关注WX公众号:【程序员管小亮】 文章目录 欢迎关注WX公众号:【程序员管小亮】一、介绍二、代码实现1_数据加载2_归一化3_定义网络结构4_设置优化器和退火函数5_数据增强6_拟合数据7_训练轮数和批大小8_准确率和损失 三、总结 一、介绍 最近发现了一…

FlyAI图像识别类竞赛:什么蘑菇?

人工智能学习离不开实践的验证,推荐大家可以多在FlyAI-AI竞赛服务平台多参加训练和竞赛,以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例,支持算法能力变现以及快速的…

flyai下载预训练的keras模型

进入FlyAI预训练模型地址找到需要的keras模型,相应链接后确定 3.得到复制后的内容 # 必须使用该方法下载模型,然后加载 from flyai.utils import remote_helper path remote_helper.get_remote_date("https://www.flyai.com/m/v0.8|NASNet-mobile…

FlyAI实验室使用教程【完整版】

FlyAI使用教程 文章目录 FlyAI使用教程1、FlyAI是什么?2、账号注册3、文件上传4、代码提交5、怎么训练 1、FlyAI是什么? 想知道FlyAI如何使用,首先你要知道FlyAI是个什么平台,真的蛮良心的一个平台,地址是&#xff1a…

FlyAI资讯:强大如GPT-3,1750亿参数也搞不定中国话

摘要:2019 年,GPT-2 凭借将近 30 亿条参数的规模拿下来“最强 NLP 模型”的称号;2020 年,1750 亿条参数的 GPT-3 震撼发布,并同时在工业界与学术界掀起了各种争论。随着时间的推移,争论的焦点也发生了变化&…

FlyAI-遥感影像场景分类预测经验总结

文章目录 数据介绍经验1. 准确率92.55%:SENet、PyTorch(1)数据预处理:加权采样(2)数据增强:采用随机裁剪,随机旋转,随机翻转,随机擦除(3&#xff…

FlyAI平台竞赛入门记录

FlyAI算法竞赛平台官方介绍如下: FlyAI 是隶属于北京智能工场科技有限公司旗下,为AI开发者 (深度学习)提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例,样例所使用开发框架涉及TensorFl…

电子邮箱免费注册,比较好用的电子邮箱怎么注册?如何申请?

电子邮箱免费的很多,我们常用的163、TOM、QQ等,如果公司用,就要用企业电子邮箱了。申请企业电子邮箱,注册3年用6年,注册5年用10年,这是在网上看到TOM企业邮箱的优惠,以下是企业邮箱总结。 TOM企…

免费企业邮箱: Google企业邮箱的申请

作者:车东 发表于:2008-02-04 13:02 最后更新于:2008-02-05 14:02版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本版权声明。http://www.chedong.com/blog/archives/001420.html 很多创…

IT行业常见职位职业路线图

我曾经面试过一些计算机相关毕业的应届生,问他希望做什么工作时,他回答只要是软件开发就好了,再细问一下你了解到的软件开发是怎样的?除了软件开发,还有其它什么工作?就答不出来了。 这里我先给出一张IT知识…