比A100性能高4.5倍!英伟达H100横扫AI推理基准测试

article/2025/10/6 14:35:18

e1a16b91c7130093cfc3d209d874b224.jpeg


  视学算法报道  

编辑:武穆

【导读】NVIDIA H100 Tensor Core GPU在MLPerf行业标准AI基准测试中首次亮相,创下了所有工作负载推理的世界纪录,提供的性能比上一代GPU高4.5 倍。

不久前,英伟达公布了旗下的芯片,在MLPerf行业标准AI基准测试的结果。

根据英伟达的说法,H100(又名 Hopper),提高了所有六个神经网络在每个加速器上的表现标准,比上一代的A100,性能高了4.5倍,创造了所有工作负载推断的世界纪录。

cae41b2038f70a9b35054d1047ddebed.png

所谓的推理,不同于机器学习 (ML)。

机器学习是创建训练模型并让系统「学习」的,而推理是用于在一系列数据点上运行学习模型,并获得结果。

英伟达认为,这个测试结果确立了H100在单独服务器和离线场景下的吞吐量和速度方面的领先地位,如果用户想要最高性能的高级AI模型,H100是首选。

英伟达为何看重MLPerf测试的结果


MLPerf是一个行业标准基准系列,由图灵奖得主大卫·帕特森(David Patterson)联合谷歌、英伟达 、英特尔、Meta、浪潮等全球AI领军企业,以及来自哈佛大学、斯坦福大学等学术机构的研究人员创立。

MLPerf可为各种工作负载建模,包括自然语言处理、语音识别、图像分类、医学成像和物体检测等项目。

该基准测试很有用,因为它可以跨越从高端数据中心和云的机器到小规模的边缘计算系统,并且可以为各个供应商的产品提供一致的基准测试,哪怕并非所有子测试中的基准测试都由所有测试人员运行。

它还可以创建用于运行离线、单流或多流测试的场景,这些测试创建一系列 AI 功能来模拟完整工作流管道的真实示例(例如,语音识别、自然语言处理、搜索和推荐、文本转语音等)。

虽然许多厂商认为只运行部分测试(ResNet是最常见的)的结果,是芯片性能的有效指标,比完整的MLPerf更适用。

比如,在上面的图表中也能看到,许多被比较的芯片在MLPerf的其他组件中没有测试结果,因为厂商根本不打算测。

但MLPerf测试依然被业界广泛接受,如果能在MLPerf测试中取得不错的成绩,很少有人会质疑结果的准确性和权威性。

英伟达在市场上还处于领先地位吗?


此次,对于在MLPerf测试中取得的结果,英伟达还是比较满意的。

这意味着,很可能在今年年底之前,英伟达就会首次公开演示H100 GPU。

而且,H100 GPU将参与未来的MLPerf轮次进行训练。

H100能取得如此不俗的表现,部分要归功于英伟达的Transformer Engine。

Transformer Engine使用软件和定制的NVIDIA Hopper Tensor Core技术,旨在加速对由流行的AI模型构建块变压器构建的模型的训练。

这些张量核心可以应用混合的FP8和FP16格式,以显著加速变压器的AI计算,这种加速有时是数量级的提升,从而最适合手头的任务。

Transformer Engine这样的工具,带来的优势是显而易见的:开发人员能够专注于解决方案,而不是试图为没有相应平台的系统进行低级硬件和相关代码优化。

更重要的是,Transformer Engine这样的工具,体现了英伟达的真正优势——平台方法。

英伟达的许多竞争对手,虽然能为市场提供芯片或系统,但英伟达已经建立了一个强大的生态系统,包括芯片,相关硬件以及针对其芯片和系统优化的完全稳定的软件和开发系统。

用英伟达方面的话说,本轮MLPerf测试上,有70多份参赛作品在NVIDIA平台上运行,例如,Microsoft Azure提交了在其云服务上运行NVIDIA AI的结果。

这表明,NVIDIA AI得到了业界最广泛的机器学习生态系统的支持。

事实上,英伟达的竞争对手英特尔以及高通都强调了平台方法。

而初创公司通常只支持开源选项,这些选项可能与主要供应商提供的功能水平不同。

此外,英伟达还针对特定细分市场优化了框架,为解决方案提供商提供了一个有价值的起点,使解决方案提供商能够以更少的工作量实现更快的上市时间。

而初创AI芯片供应商无法提供这种级别的资源。

当然,英伟达并非没有弱点。

比如,虽然英伟达展示了其芯片与标准英特尔x86处理器的比较,但它没有与英特尔新的Habana Gaudi 2芯片进行比较。

而Habana Gaudi 2芯片可能会显示出高水平的人工智能计算能力,可以接近或超过一些英伟达产品。

另外,英伟达可能不是所有细分市场的NO.1,特别是在低功耗细分市场,像高通这样的公司可能具有优势。

不过,尽管如此,由于英伟达仍然提供最广泛的产品系列,其对完整平台生态系统的重视,使其在人工智能竞赛中处于领先地位,并且竞争对手很难轻易取代。

参考资料:

https://venturebeat.com/ai/what-nvidias-new-mlperf-ai-benchmark-results-really-mean/ 

https://blogs.nvidia.com/blog/2022/09/08/hopper-mlperf-inference/

14a80053f6a63cb37eb094860f41b046.png

outside_default.png

点个在看 paper不断!


http://chatgpt.dhexx.cn/article/iG4OLntl.shtml

相关文章

君正 X1000 音频驱动架构

X1000 音频驱动架构笔记 使用开发板X1000_HALLEY2_V2.0,源码为北京君正官方源码V7.0版本,与V6.0无太多差异 项目中遇到的问题 这是内核源码中设置所导致的,可能官方认为X1000这样设置会最好,可是我们需要小于30MS 的周期设置&…

华为metro1000描述,optix metro1000参数-华讯佳科技

OptiX Metro1000传输设备(简称Metro1000)是华为技术有限公司研发的STM-1/STM-4/STM-16级别的盒式设备。华为Metro1000光端机主要应用于城域网、本地传输网接入层,具备结构简洁、集成度高等许多特点。 Metro1000光端机是华为技术有限公司开发的STM-1/STM-…

扔掉老破V100、A100,英伟达新一代计算卡H100来了

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

君正X1000开发板/方案开发介绍

君正X1000芯片开发板/方案开发,或者需要相关开发资料,如规格书,硬件设计,原理图等,可到一牛网论坛 X1000主要技术指标及特点 处理器 Ingenic X1000, 1.0GHz, 集成32Mbytes LPDDR 存储 16MBytes,4线SPI …

君正X1000平台内核SPI接口使用

一. 平台环境 开发板 X1000_HALLEY2_BASEBOARD_V4.1源码版本 ingenic-linux-kernel3.10.14-x1000-v8.2-20181116 二. 源码编译: 参照《v1000_v8.2版本编译_20181116》,可整体进行编译(即同时编译生成x.bin,kernel镜像文件,文件…

算法工程师的职业发展前景思考和总结

本篇文章结合职友集数据对数据工程师【dba】通过个人理解和对职业行情现状进行个人主观总结。 声明:仅供参考,不是绝对,因人而异。 日期:2022年6月1日 作者:任聪聪 了解什么是算法工程师 首先算法工程师就是&#xff…

Python实现xls、xlsx文件内容替换的自定义函数

本篇文章主要讲解通过python批量替换xls、xlsx文件中的字符串的函数代码实例教程 日期:2023年5月9日 作者:任聪聪 版本:python3.9 前提准备 安装:xlrd,xlwt,openpyxl pip install 包名引入: import xlrd,xlwt,openpyxl实际效果: 可批量替换xls、xlsx两种文件类型,效…

Python实现doc、docx批量文本内容替换的代码实例

本篇文章主要讲解通过python及三方库实现doc、docx的批量文本内容替换的方法教程 日期:2023年5月10日 作者:任聪聪 python3.9版本 前提准备 安装: docx、win32 pip install 包名引入: import win32com.client as win32 import docx实际效果 可以修改doc、docx中包含图片…

程序员该怎么创业才比较靠谱?

本篇文章:主要讲解粉丝后台提问,创业相关问题。 作者:任聪聪 日期:2021年10月19日 宇宙的尽头绝对不是打工,打工是不可能的,程序员打一生的工时赚不到做企业能赚到的钱的。如果你月薪15k,到手11…

thinkphp5 线上部署后view-source:可以看到源码,但是http显示空白页面的原因及解决方法汇总

本篇文章主要讲解:thinkphp5 项目线上部署后view-source:可以看到源码,但是http显示空白页面的原因及解决方法教程 作者:任聪聪 日期:2023年4月17日 thinkphp版本5.1 现象说明: 线下测试环境,显示可以看到界面 部署到线上配置完毕后发现页面空白 在php中写入echo 1232…

AI数据标注工程师这个职业怎么样?

本篇文章主要讲解ai数据标注工程师这个职业的具体情况和相关的职业前景 作者:任聪聪 日期:2023年4月18日 数据是ai的灵魂,自然界中相对应的数据都活多少存在不准确、杂乱、无效等属性,需要人为进行收集、整理、分类和处理。其中ai…

js利用正则提取文本中所有符合的自定义文本内容方法教程

本篇文章主要讲解,使用js提取文本中所有出现的特定字符,保存在数组中并返回的实现方法。 日期:2022年12月9日 作者:任聪聪 一、使用的场景说明 一个超长文本中出现了n个固定规则的字符,但是需要将其进行提取并存在数组…

如何主动增加自己的开源项目star数的方法汇总

本篇文章主要讲解,通过自媒体、短视频、网络平台等渠道形式增加自己的开源项目的曝光度以增加star数的方法。 作者:任聪聪 日期:2023年4月20日 开源项目的star数在某些找工作的情况下是有一定的加分的,故此价值是一定的。但是自己…

【Cocos新手入门】 cocos creator 制作 select下拉框且可以选择获取选中参数数值的方法

本篇文章主要讲解使用cocos creator 制作 select下拉框且可以选择获取选中参数数值的方法。 作者:任聪聪 日期:2023年2月7日 cocos 引擎版本:2.4.3 在我们实现select框的时候,我们可以通过按钮显示隐藏某个元素来达成这个目标&…

Python给一个exe执行文件注册持续性的快捷键(热键)的代码实例

本篇文章主要讲解通过python给一个exe文件绑定一个快捷键、并取消快捷键(热键)的实操方法。 日期:2023年6月11日 作者:任聪聪 实现按下快捷键即可启动软件的效果说明 启动软件注册热键呼出其他软件或本体的效果说明: 演示材料说明:在download文件目录下存放一个可执行的…

AI模型训练、实施工程师的职业前景怎么样?

本篇文章主要讲解ai模型训练、模型实施工程师的职业前景和趋势分析 作者:任聪聪 日期:2023年4月18日 ai训练师、模型实施工程师,一般是指opencv、pytorh、python、java、机械学习、深度学习、图像识别、视频检测等领域的模型数据训练工作。 …

批量提交网站url到百度进行提升索引量的方法

本篇文章主要讲解通过百度的推送接口,向百度批量提交网站url并让百度加快收录网站页面的方法 作者:任聪聪 日期:2023年4月7日 前置条件 1.需要去百度站长平台,绑定自己的域名。前往用户中心,添加网站。 注&#xff1…

抖音开发者工具配置抖音小游戏为横屏显示的方法

本篇文章主要讲解,使用抖音开发者工具配置抖音小游戏为横屏显示的方法 作者:任聪聪 日期:2023年2月3日 问题现象 横屏的游戏发布到抖音开发者工具中发现是竖屏显示 实际原因 game.json的配置为竖屏导致。改为横屏即可横屏显示游戏。 {&q…

python动态加载tkinter图形化元素的方法

本篇文章主要讲解,python动态加载tkinter元素的方法 日期:2022年6月2日 作者:任聪聪 利用tkinter做动态的表单界面实际上是很简单的,只需要对界面进行update即可实现,每一个元素实际上都可动态加载。 动态加载表单元素…

微信小程序流量主提升ecpm的一些方法

本篇文章主要讲解:微信小程序流量主提升ecpm的一些方法 日期:2023年1月19日 作者:任聪聪 一、对ecpm的疑问和科普 什么是ecpm ecpm就是千次广告曝光收入,是一个预估的价格,而不是额定的,他是随着曝光度,用户点击度,页面访问数来决定的。 ecpm为什么会低? 微信官方…