吴恩达:告别,大数据

article/2025/3/1 2:59:19

编译丨维克多、王晔

来源丨AI科技评论

8abfcd8cd5c32619b7546ffbc41ad6af.png

吴恩达是人工智能(AI)和机器学习领域国际最权威的学者之一,最近一年里,他一直在提“以数据为中心的AI”,希望将大家的目光从以模型为中心转向以数据为中心。

最近,在接受IEEE Spectrum的采访中,他谈到了对基础模型、大数据、小数据以及数据工程的一些感悟,并给出了发起“以数据为中心的AI”运动的原因。

“过去十年,代码—神经网络的架构已经非常成熟。保持神经网络架构固定,寻找改进数据的方法,才会更有效率。”

吴恩达表示,他这种以数据为中心的思想受到了很多的批评,就和当年他发起Google brain项目,支持构建大型神经网络行动,时候受到的批评时一样:想法不新鲜,方向错误。据吴教授介绍,批评者中不乏行业资深人士。

ce11d0c2f49783747e443c36a1fda5ef.png

关于小数据,吴教授认为,它同样能够有威力:“只要拥有50个好数据(examples),就足以向神经网络解释你想让它学习什么。”

以下是采访原文,AI科技评论做了不改变原意的编译。

f3d86d6e388014efa9d8a89bf6408c15.png

IEEE:过去十年,深度学习的成功来源于大数据和大模型,但有人认为这是一条不可持续的路径,您同意这个观点么?

吴恩达: 好问题。

我们已经在自然语言处理(NLP)领域看到了基础模型(foundation models)的威力。说实话,我对更大的NLP模型,以及在计算机视觉(CV)中构建基础模型感到兴奋。视频数据中有很多信息可以利用,但由于计算性能以及视频数据处理成本的限制,还无法建立相关的基础模型。

大数据与大模型作为深度学习引擎已经成功运行了15年,它仍然具有活力。话虽如此,但在某些场景下,我们也看到,大数据并不适用,“小数据”才是更好的解决方案。

IEEE:您提到的CV基础模型是什么意思?

吴恩达: 是指规模非常大,并在大数据上训练的模型,使用的时候可以为特定的应用进行微调。是我和斯坦福的朋友创建的术语,例如GPT-3就是NLP领域的基础模型。基础模型为开发机器学习应用提供了新的范式,有很大的前景,但同时也面临挑战:如何确保合理、公平、无偏?这些挑战随着越来越多的人在基础模型上构建应用,会越来越明显。

IEEE:为CV创建基础模型的契机在哪?

吴恩达:目前还是存在可扩展性难题。相比NLP,CV需要的计算能力更强大。如果能生产出比现在高10倍性能的处理器,就能够非常轻松建立包含10倍视频数据的基础视觉模型。目前,已经出现了在CV中开发基础模型的迹象。

说到这,我提一嘴:过去十年,深度学习的成功更多的发生在面向消费的公司,这些公司特点是拥有庞大的用户数据。因此,在其他行业,深度学习的“规模范式”并不适用。

IEEE:您这么一说我想起来了,您早期是在一家面向消费者的公司,拥有数百万用户。

吴恩达:十年前,当我发起 Google Brain 项目,并使用 Google的计算基础设施构建“大”神经网络的时候,引起了很多争议。当时有位行业资深人士,“悄悄”告诉我:启动Google Brain 项目不利于我的职业生涯,我不应该只关注大规模,而应该专注于架构创新。

到现在我还记着,我和我的学生发表的第一篇NeurIPS  workshop论文,提倡使用CUDA。但另一位行业资深人劝我:CUDA 编程太复杂了,将它作为一种编程范式,工作量太大了。我想办法说服他,但我失败了。

IEEE:我想现在他们都被说服了。

吴恩达:我想是的。

在过去一年,我一直在讨论以数据为中心的AI,我遇到了和10年前一样的评价:“没有新意”,“这是个错误的方向”。

IEEE:您如何定义“以数据为中心的AI”,为什么会称它为一场运动?

吴恩达:“以数据为中心的AI”是一个系统的学科,旨在将关注点放在构建AI系统所需的数据上。对于AI系统,用代码实现算法,然后在数据集上训练是非常必要的。过去十年,人们一直在遵循“下载数据集,改进代码”这一范式,多亏了这种范式,深度学习获得了巨大的成功。

但对许多应用程序来说,代码—神经网络架构,已经基本解决,不会成为大的难点。因此保持神经网络架构固定,寻找改进数据的方法,才会更有效率。

当我最开始提这件事的时候,也有许多人举手赞成:我们已经按照“套路”做了20年,一直在凭直觉做事情,是时候把它变成一门系统的工程学科了。

“以数据为中心的AI”远比一家公司或一群研究人员要大得多。当我和朋友在NeurIPS上组织了一个“以数据为中心的AI”研讨会时候,我对出席的作者和演讲者的数量感到非常高兴。

IEEE:大多数公司只要少量数据,那么“以数据为中心的AI”如何帮助他们?

吴恩达:我曾用3.5亿张图像构建了一个人脸识别系统,你或许也经常听到用数百万张图像构建视觉系统的故事。但这些规模产物下的架构,是无法只用50张图片构建系统的。事实证明。如果你只有50张高质量的图片,仍然可以产生非常有价值的东西,例如缺陷系统检测。在许多行业,大数据集并不存在,因此,我认为目前必须将重点“从大数据转移到高质量数据”。其实,只要拥有50个好数据(examples),就足以向神经网络解释你想让它学习什么。

吴恩达:使用50张图片训练什么样的模型?是微调大模型,还是全新的模型?

吴恩达:让我讲一下Landing AI的工作。在为制造商做视觉检查时,我们经常使用训练模型,RetinaNet,而预训练只是其中的一小部分。其中更难的问题是提供工具,使制造商能够挑选并以相同的方式标记出正确的用于微调的图像集。这是一个非常实际的问题,无论是在视觉、NLP,还是语音领域,甚至连标记人员也不愿意手动标记。在使用大数据时,如果数据参差不齐,常见的处理方式是获取大量的数据,然后用算法进行平均处理。但是,如果能够开发出一些工具标记数据的不同之处,并提供非常具有针对性的方法改善数据的一致性,这将是一个获得高性能系统的更有效的方法。

例如,如果你有10,000张图片,其中每30张图片一组,这30张图片的标记是不一致的。我们所要做的事情之一就是建立工具,能够让你关注到这些不一致的地方。然后,你就可以非常迅速地重新标记这些图像,使其更加一致,这样就可以使性能得到提高。

IEEE:您认为如果能够在训练前更好地设计数据,那这种对高质量数据的关注是否能帮助解决数据集的偏差问题?

吴恩达:很有可能。有很多研究人员已经指出,有偏差的数据是导致系统出现偏差的众多因素之一。其实,在设计数据方面也已经有了很多努力。NeurIPS研讨会上,Olga Russakovsky就这个问题做了一个很棒的演讲。我也非常喜欢Mary Gray在会上的演讲,其中提到了“以数据为中心的AI”是解决方案的一部分,但并不是解决方案的全部。像Datasheets for Datasets这样的新工具似乎也是其中的重要部分。

“以数据为中心的AI”赋予我们的强大工具之一是:对数据的单个子集进行工程化的能力。想象一下,一个经过训练的机器学习系统在大部分数据集上的表现还不错,却只在数据的一个子集上产生了偏差。这时候,如果要为了提高该子集的性能,而改变整个神经网络架构,这是相当困难的。但是,如果能仅对数据的一个子集进行设计,那么就可以更有针对性的解决这个问题。

IEEE:您说的数据工程具体来讲是什么意思?

吴恩达:在人工智能领域,数据清洗很重要,但数据清洗的方式往往需要人工手动解决。在计算机视觉中,有人可能会通过Jupyter notebook将图像可视化,来发现并修复问题。

但我对那些可以处理很大数据集的工具感兴趣。即使在标记很嘈杂的情况下,这些工具也能快速有效地将你的注意力吸引到数据的单个子集上,或者快速将你的注意力引向100个分组中的一个组中,在那里收集更多数据会更有帮助。收集更多的数据往往是有帮助的,但如果所有工作都要收集大量数据,可能会非常昂贵。

例如,我有次发现,当背景中有汽车噪音时,有一个语音识别系统的表现会很差。了解了这一点,我就可以在汽车噪音的背景下收集更多的数据。而不是所有的工作都要收集更多的数据,那样处理起来会非常昂贵且费时。

IEEE:那使用合成数据会是一个好的解决方案吗?

吴恩达:我认为合成数据是“以数据为中心的AI”工具箱中的一个重要工具。在NeurIPS研讨会上,Anima Anandkumar做了一个关于合成数据的精彩演讲。我认为合成数据的重要用途,不仅仅表现在预处理中增加学习算法数据集。我希望看到更多的工具,让开发者使用合成数据生成成为机器学习迭代开发闭环中的一部分。

IEEE:您的意思是合成数据可以让你在更多的数据集上尝试模型吗?

吴恩达:并非如此。比方说,智能手机上有许多不同类型的缺陷,如果要检测智能手机外壳的缺陷,那可能会是划痕、凹痕、坑痕、材料变色或者其它类型的瑕疵。若你训练了模型,然后通过误差分析发现总体上它的表现很好,但在坑痕上表现得很差,那么合成数据的生成就可以让你以更有针对性地解决这个问题。你可以只为坑痕类别生成更多的数据。

IEEE:您可以举例具体说明吗?若一家公司找到Landing AI,并说他们在视觉检查方面有问题时,您将如何说服他们?您又将给出怎样的解决方案呢?

吴恩达:合成数据生成是一个非常强大的工具,但我通常会先尝试许多更简单的工具。比如说用数据增强来改善标签的一致性,或者只是要求厂家收集更多的数据。

当客户找到我们时,我们通常会先就他们的检测问题进行交谈,并查看一些图像,以验证该问题在计算机视觉方面是否可行。假若可行,我们会要求他们将数据上传到LandingLens平台。我们通常根据“以数据为中心的AI”方法向他们提供建议,并帮助他们对数据进行标记。

Landing AI关注的重点之一是让制造企业自己做机器学习的工作。我们的很多工作都是为了软件的便捷使用。通过对机器学习的开发迭代,我们为客户提供了如何在平台上训练模型,以及如何改进数据标记问题来提高模型的性能等很多建议。我们的训练和软件在此过程中会一直发挥作用,直到将训练好的模型部署到工厂的边缘设备上。

IEEE:那您如何应对不断变化的需求?如果产品发生变化或是工厂的照明条件发生变化,在这样的情况下,模型能适应吗?

吴恩达:这要因制造商而异。在很多情况下都有数据偏移,但也有一些制造商已经在同一生产线上运行了20年,几乎没有什么变化,所以在未来5年内他们也不期望发生变化,环境稳定事情就变得更容易了。对于其他制造商,在出现很大的数据偏移问题时我们也会提供工具进行标记。我发现使制造业的客户能够自主纠正数据、重新训练和更新模型真的很重要。比如现在是美国的凌晨3点,一旦出现变化,我希望他们能够自行立即调整学习算法,以维持运营。

在消费类软件互联网中,我们可以训练少数机器学习模型来为10亿用户服务。而在制造业,你可能有10,000 制造商定制10,000 个人工智能模型。所面临的挑战是,Landing AI 在不雇用10,000名机器学习专家的情况下,如何做到这一点?

IEEE:所以为了提高质量,必须授权用户自己进行模型训练?

吴恩达:是的,完全正确!这是一个全行业的AI问题,不仅仅是在制造业。例如在医疗领域,每家医院电子病历的格式略有不同,如何训练定制自己的AI模型?期望每家医院的IT人员重新发明神经网络架构是不现实的。因此,必须构建工具,通过为用户提供工具来设计数据和表达他们的领域知识,从而使他们能够构建自己的模型。

IEEE:您还有什么需要读者了解的么?

吴恩达:过去十年,人工智能最大的转变是深度学习,而接下来的十年,我认为会转向以数据为中心。随着神经网络架构的成熟,对于许多实际应用来说,瓶颈将会存在于“如何获取、开发所需要的数据”。以数据为中心的AI在社区拥有巨大的能量和潜力,我希望能有更多的研究人员加入!

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

4198a1ee1c38ac92148b691232ad34e2.png

▲长按加微信群或投稿

918d2e01a71592f3f7d8180f1b730e5b.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

76a5911bbeec379cabeb1a169322ff1e.png

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  


http://chatgpt.dhexx.cn/article/fZjpRXc3.shtml

相关文章

2017年Python从入门到实战教程-徐培成-专题视频课程

2017年Python从入门到实战教程—5702人已学习 课程介绍 通过《2017年Python从入门到实战教程》这系列课程,大家可以掌握python开发。适合任何初级或者转行的人学习。 课程收益 徐培成老师通过通俗易懂的方式,让你彻底掌握Python,本教程适…

入门深度学习——基础知识总结(python代码实现)

入门深度学习——基础知识总结(python代码实现) 目前,AI基本上可以说是烂大街了。几乎什么都可以说使用了AI技术,听起来很拉风,很nb的样子。而其中目前最为火热的非深度学习(Deep Learning)莫属…

程序员现状思考及Python教程

经常听到一些同行说: 某个公司薪资上调30-50%,我可以跳槽入吗? 最近收到几个比较好的offer!该去哪家?纠结! 目前岗位和环境对自己成长非常慢!更看不到公司的前景特别迷茫! 想成为…

大数据因果推理与学习入门综合概述

在《原因与结果经济学》的开篇,给读者回答以下几个问题。 定期接受代谢综合征体检就能长寿吗?看电视会导致孩子学习能力下降吗?上录取分数高的大学收入就会更高吗?想必很多人的回答都是肯定的。 不过,经济学的权威研…

2018 大数据学习入门必备规划

大数据方向的工作目前分为三个主要方向: 01.大数据工程师 02.数据分析师 03.大数据科学家 04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧) 一、大数据工程师的技能要求 二、大数据学习路径 三、学习资源推荐(书籍、博客、网站)…

Python 数据分析师必备的入门学习路线和技能

最近几年,做的这些项目,大多与数据分析与算法应用相关。岗位虽然是算法工程师,但是与数据分析打得交道也很多,双管齐下,最后才能确保算法的落地。在几年前,我还想当然地认为做算法的就应该偏重算法研究与应…

Python入门经典(2K超清)

我在多次python培训时,对学员讲解编程对人生具有重大影响。曾经大学毕业时也迷茫过,不知道以后要干嘛。面对招聘会上密密麻麻的人群,经不知所措。自从接触python编程后,我对这门快速,高效程序语言表示惊讶,…

python入门学习笔记

python入门学习笔记目录 1.编程概论1.1 注释1.2 打印与标记符1.2.1 打印 print1.2.2标记符 1.3 代码行1.3.1 单行语句1.3.2 多行语句1.3.3 缩进1.3.4 复合语句 1.4 关键字1.5 基本对象数据类型1.5.1type() 函数1.5.2 isinstance() 判断函数1.5.3 type 与 isinstance 1.6 常量与…

Python机器学习:适合入门的8个项目

再多的理论也不能代替动手实践。 教科书和课程会让你误以为精通,因为材料就在你面前。但当你尝试去应用它时,可能会发现它比看起来更难。而「项目」可帮助你快速提高应用的 ML 技能,同时让你有机会探索有趣的主题。 此外,你可以将…

python基础入门级别的宝库。

刚刚开始学python的跟狗头军师一起来学习吧。 更加方便的使用pythonpython的安装编译器的选择 python安装完了,接下来就是常用基础语法知识点了,没学过的可以学一学,学过的捧个人场。python的直接输出python注释功能python数据类型语法if判断…

大数据入门必须知道八大实战项目

大数据如果应用不当可能很容易失控,并可能消耗企业资源和预算。在这里将介绍避免混乱的一些大数据的最佳实践。   大数据可以为用户提供卓越的洞察力,也有可能让企业不堪重负。而企业根据其收集数据做出自己的选择。企业面临的主要问题是大数据是由技术专业人员收集的技术解…

html js比较字符串,js字符串和数字的比较

在进行比较时js会先将两边的类型自动转成一致再对比。 1. 纯数字之间的比较 2 < 5 //true; 直接进行比较。 2. 纯数字与数字型字符串之间比较 js会优先选择将字符串转成数字 2 < 5 // true 3. 数字和其它字符串比较 数字和其它字符串进行比较时&#xff0c;js会将其它字符…

JS中字符串比较大小判断的问题(转数字比较)

因为最近你在写JS页面&#xff0c;有时候需要写到验证&#xff0c;就遇到比较的问题&#xff1a; JS验证代码如下&#xff1a; 页面效果&#xff1a; &#xff08;前面开始的时间段3-9&#xff0c;21-23会出现验证&#xff0c;10-20不会&#xff09; 问题原因&#xff1a;得到…

js坑之数字型字符串比对只比较第一位数字

这是我今天接手项目里面求最大值的一段代码&#xff1a; var dataY this.getDataY(); // 判断点击类型if (this.datatype 0) {var max 0;dataY.forEach(x > {if (x > max) {max x;}});} 其中dataY是一个数组&#xff0c;最大值为max&#xff0c;咋一看好像没啥问题。…

JS比较字符串大小

JavaScript中可以直接使用大于(>)、小于(<)运算符进行字符串大小比较。此方法会根据第一个不同的字符的ascii码进行比较。 例: (function(){console.log(123>5); // 输出&#xff1a;false 第一个字符ascii相比较 1 < 5console.log(5>6); // 输出&#xff…

JavaScript 中的字符串比较

今天收到一个测试的BUG&#xff0c;自己重测了下&#xff0c;没问题&#xff0c;测试当我面测试了下&#xff0c;发现的确是问题的&#xff0c;问题根源是俩个input框value的值做比较&#xff0c;我console.log(val1); console.log(val2);console.log(val1>val2);值分别是 3…

JS字符串数值比较大小问题

对于JS字符串的比较大小问题&#xff1a;如果比较的字符串位数一致&#xff0c;没有问题。但是如果比较的位数不一致&#xff0c;就会以位数的第一位开始比较&#xff01; let a 62; let b 41; console.log(a>b) // true;let aa 6; let bb 41; console.log(aa>bb) /…

js字符串的比较

字符串的比较规则&#xff1a; 逐字符比较&#xff0c;先拿各自的第一个字符比较&#xff0c;第一个字符相等了&#xff0c;再拿各自的第二个字符比较 <script>var a11var b9console.log(a>b)// 字符串是逐字符进行比较的,输出为flase&#xff0c;因为1和9比完大小就…

JS中比较

一、类型介绍 1、原始值 包含&#xff1a;undefined、null、布尔值、数字和字符串 2、对象 包含&#xff1a;数组和函数 3、包装对象 String、Number、Boolean // 一个字符串、数字和布尔值 let s "test", n 1, b true; let S new String(s); // …

【3D游戏建模全流程教学】使用3dmax制作教堂场景

本文分享了使用3dmax制作教堂场景的流程&#xff0c;并解释V-Ray的渲染过程。 01场景制作 在网站中收集许多的参考图像&#xff0c;然后使用平面、立方体和圆柱体等基本形状来制作场景。再制作基础照明以了解场景的构图和总体外观&#xff0c;从视口制作预览动画。 下一步是创…