马腾宇:AI 学界一颗冉冉升起的新星

article/2025/5/7 8:26:25
2020-02-23 17:11

导语:追求long-term impact!

本科毕业于清华姚班,博士毕业于普林斯顿大学,如今年仅31岁的马腾宇,作为 AI 学界的一颗新星正冉冉升起。

马腾宇目前担任斯坦福大学助理教授,其主要研究兴趣为机器学习和算法方面的研究,课题包括非凸优化、深度学习及其理论、强化学习、表示学习、分布式优化、凸松弛、高维统计等。

2017 年,清华 “姚班” 创立者、中国科学院院士、中国首位图灵奖得主姚期智先生在谈及姚班教育的时候,曾提到:

“在学界的,我们有好几个做人工智能的学生,已经在大学任教的有两个,一个是在美国的杜克大学,一个是在美国的斯坦福大学做教授,他们都从事人工智能理论基础方面的工作。他们在过去的四五年,在人工智能理论方面已经非常非常出色,不然他们也不会被雇到这么有名的大学去,尤其是马腾宇,他刚刚毕业,能够被雇到斯坦福去,不管是中国学生还是外国学生都是非常少的。……他们确实可以说在人工智能领域是先驱,将来一定会在该领域留下非常深刻的痕迹。”

 

1.

马腾宇对算法理论的兴趣始于姚班。据马腾宇介绍,让他印象最深的是当时姚期智先生为当时姚班大一新生所开设的一门课程《mathematics for computer science》,姚期智在这门课程中,每个章节都会用一两个最为经典的案例让学生非常快速地意识到,为什么在计算机领域数学非常有用。姚期智在这门课程中并没有按部就班系统地介绍计算机理论领域的细节问题,最重要的则是激发起学生对计算机理论问题的兴趣。这就相当于在计算机理论研究这场寻宝游戏中,激发起学生们对“宝藏”的渴望,至于如何寻找这些宝藏,学生们则自会摸索。这对姚班学生的兴趣培养非常重要,马腾宇也深受影响。

马腾宇:AI 学界一颗冉冉升起的新星

马腾宇是清华姚班 2008 级毕业生

像之前以及之后的学长和学弟以及身边的同学一样,从姚班毕业的马腾宇在本科期间醉心于计算机算法的研究。2012年本科毕业后,他选择了在普林斯顿读博, 师从的Sanjeev Arora教授。

 

2.

马腾宇开始读博的时间恰逢其时。2012年,Hinton和他的学生在ImageNet比赛中凭借AlexNet远超第二名10个百分点,由此人类进入了人工智能的新时代 —— 以神经网络为代表的深度学习时代。Sanjeev作为算法领域的领军人物,具有极为敏锐的嗅觉,意识到机器学习(特别是深度学习)将成为一个具有潜力的领域,因此从2012起便开始布局机器学习算法的研究。马腾宇进入普林斯顿后,选择了机器学习算法,与鬲融等人一起进行非凸优化的研究。

在2012年的时候,大多数人还在用传统方法来做优化问题,这些基本上都是凸优化问题。而在深度学习的时代,算法通常需要通过解决一些非凸优化问题来找到最优的神经网络参数。理论上非凸优化是一个NP-hard问题,但实际中即使非常简单的算法也能表现很好。其中原因却少有人了解。马腾宇与鬲融等人是最早一批专注于解决这一问题的研究者。随后正是凭借对非凸优化问题的系统研究,马腾宇在 2018 年获得了ACM博士论文奖荣誉奖(Honorable Mentions),而鬲融也在2019年获得了斯隆研究奖。

马腾宇:AI 学界一颗冉冉升起的新星

马腾宇的博士论文,获2018 ACM 博士论文荣誉奖

 

3.

一个好的导师,对一个学者的研究生涯至关重要,因为导师的学术价值观和方法论会深刻影响其弟子在以后研究生涯中的态度。Sanjeev无疑是一位好的导师,他所带的学生毕业后大多都去到了美国顶尖大学任教,例如鬲融毕业后去到了杜克大学。

马腾宇:AI 学界一颗冉冉升起的新星

马腾宇(2015),Source: princeton news

在普林斯顿期间,导师Sanjeev对马腾宇的影响也是极大的。马腾宇对他的评价是“Sanjeev是一个‘true scientist’”:

“Sanjeev是真的为了科学在做科研。对他关心的问题,他会细扣所有的细节,从证明,到实验,到写文章不容许一丁点的错误存在。另外,Sanjeev也非常的积极,非常的有耐心,在一个新问题上,他常常会锲而不舍,从各种可能的角度去尝试,即使最初所有的尝试都失败了,他也仍然会一遍又一遍地去尝试新的想法,直到最终成功。这是我从他那里学到的非常重要的一件事情。”

4.

当然,导师的影响只是成功的一个方面,马腾宇自身的天分和勤奋让他在普林斯顿的五年时间里收获良多。

2014年,马腾宇获得了西蒙斯研究生奖(理论计算机科学方向),随后2015年获得了IBM博士奖学金,2016年获得了NIPS 最佳学生论文奖,2018年获得了COLT 最佳论文奖,其博士毕业论文也获得了ACM 博士论文荣誉奖,并在当年夏季收到了来自全球计算机Top 5中的四所高校(MIT、CMU、斯坦福、华盛顿大学)的 Offer 并最终选择去了斯坦福。

一次的成功或许只是巧合,系列的成功则是实力和潜力的证明。

马腾宇:AI 学界一颗冉冉升起的新星

NIPS'16最佳学生论文,2018年修订版

以2016年NIPS最佳论文奖为例,这项工作主要是在讲为什么可以用 non-convex optimization 做Matrix Completion。Matrix Completion常常被应用在推荐系统当中。理论可以分析的算法都比较慢,而实际中使用的算法都基于non-convex optimization, 却没有理论保证和理解。因此就存在一个大的开放性问题:为什么non-convex optimization可以解决这个问题?

马腾宇等人首先在这篇工作中回答了这一问题。而事实上,马腾宇与鬲融、Jason D. Lee三人从开始做这项工作到提交论文,前后只用两个月不到的时间。虽然如此,这却是长久的积累,马腾宇差不多在一年前便意识到这个理解non-convex optimizatio的重要性,并偶尔尝试从不同的角度去解决它,但一直没有大的收获,直到2月份他看到一篇文章中的一个小技巧,突然灵感而至,很快便将这个问题解决了。对于这份经历,马腾宇总结到

“我觉得做科研的困难主要有三个:1)找到一个重要的方向;2)找到一个可以解决的问题;3)同时有足够的技术储备和技术创新。”

马腾宇:AI 学界一颗冉冉升起的新星

COLT'18 最佳论文

2018年,马腾宇与Yuanzhi Li 、Hongyang Zhang三人合作的论文《Algorithmic Regularization in Over-parameterized Matrix Sensing and Neural Networks with Quadratic Activations》发表在COLT上,并获得了最佳论文奖。而这篇论文与NIPS‘16的最佳学生论文类似,从开始做到投稿,前后仍然只用两个月的时间。在这篇主题为“正则化”的工作中,马腾宇他们直接follow了之前的一篇工作,但那先前的工作只能解决一个特殊问题,而马腾宇意识到如果沿着他们的思路做,可能会变得越来越复杂。意识到这一点本身非常重要。他说:

“做科研,很重要的一点是去理解其他技术为什么本质上不可行。很多时候,科研之所以思路比较慢,原因在于你有许多选择,你不知道哪个选择是好的,也不知道哪个选择是坏的。这很糟糕。一旦你知道哪个选择是坏的,剩下可选的好的就不多了。所以做科研,很重要的一步是排除是坏的选择;其次是,要知道它为什么是坏的,这也比较重要,因为你如果不知道它为什么是坏的话,就很难把它变成好的。
一个想法,如果你能知道它行不通的根本原因,一般情况下就不会很难通过针对性地修改这个想法得到一个更好的方案。所以我们这项工作模式上就是:我们发现一个想法没有效果,然后理解了这个想法失败的的原因,修正并提出一个新的想法;如果新的想法还解决不了问题,就找到问题,修正,循环往复,就是这样。”

马腾宇:AI 学界一颗冉冉升起的新星

2018 ACM 博士论文荣誉奖颁奖, Source: princeton news

5.

2018年对29岁的马腾宇来讲是一个丰收年,COLT最佳论文、ACM博士论文荣誉奖、多所顶尖高校发出的橄榄枝……然而,受Sanjeev的影响,马腾宇对于这些荣誉表现的极为淡然。他表示

“其实没有太大的感觉。首先这是大家对我的工作的一个肯定,可能的原因是我的博士论文是比较早的一系列试图理解为什么non-convex optimization 可以解决机器学习的问题的工作;在此之前几乎没有这方面的研究。……但做科研,你的reward(受益或回报) 往往是非常滞后的。博士论文是五年工作的总结, 包括COLT’18 的最佳论文,其实是我们在2017年做出来的。做科研要考虑长期的reward,而不要考虑短期的reward。”

然而,毋论马腾宇是否淡然,科研早期的荣誉对于一个科学家的成长却是必不可少的,这可以让年轻学者在攀岩科研高峰中充满信心。

6.

而另一方面,“long-term”,正是马腾宇做科学研究的关键词。当谈到他的方法论时,马腾宇说,

“从科研的style来讲,我比较在乎的是long term impact,我的课题选择也会受到这方面的影响。”

在科研的实践当中,关注长期影响力是一个研究者能否成为真正科学家的关键一步。以如何看待失败的尝试为例,关注长期影响力的人会更积极地看待失败,因为从短期来看是失败了,但从长期来看这是有益的,失败了没有关系,如果你能够知道它为什么失败,在很多情况下你会改变它,让它变成一个成功的情况。

马腾宇:AI 学界一颗冉冉升起的新星

马腾宇关于Non-Convex Optimization 的报告(2017), Source: Allen School Colloquia

马腾宇表示:“在很多情况下,如果我能够真正地知道我为什么失败,很多情况下我都能够把它变成一个成功的情况。不过更多的情况是,我只能理解一点点为什么我会失败,然后从中汲取一点点的经验,但长期积累,我会理解为什么整个过程都不work。这样的话,我就能够摸索出另外一套思路。”

当前人工智能面临诸多困境,马腾宇以十年为期,他认为人工智能的理论基础仍然是一个非常大的困难,我们目前还很难理解算法到底做了什么,因此如何理解算法,如何更好地设计算法成了马腾宇最为关注的问题。正如他的导师Sanjeev,面对这样一个宏大的问题,他试图从各种角度(包括最优化、泛化、正则化等)进行逼近。如何通过理论思考来帮助机器学习,正是马腾宇的“long-term”问题。

他表示,尽管当前的机器学习研究过程中,实验指导往往重于理论思考的指导。但长远来看,在随后的几年中,理论思考的指导价值将越来越凸显。正如在博士初期选择布局无人问津的非凸优化研究一样,马腾宇作为斯坦福的助理教授,现在也在布局机器学习理论的研究,一个更大的布局。

当然,long-term并不意味着“空中楼阁”,十年写一篇文章。为了长期的计划,马腾宇在实验指导vs理论思考中取得一个平衡, 把这个long-term 分为了一系列非常小的问题,表现在成果方面便是一个个的topics,一篇篇的论文。目前马腾宇在斯坦福带着 5 名博士生以及数名硕士生,正每年发表十几篇论文的速度一步步迈向这个目标。


http://chatgpt.dhexx.cn/article/LKxcRbYj.shtml

相关文章

c++_opencv的人脸识别起步三训练自己的模型

目录 1、Creating the CSV File2、读取CSV文件函数3、开始训练模型4、程序 1、Creating the CSV File 照片需要在程序中读取它,我决定使用CSV文件读取它。一个CSV文件包含文件名,紧跟一个标签。 /path/to/image.ext;0假设/path/to/image.ext是图像&…

201819101001 张佳兴

@[TOC]九九乘法表 累乘 欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。 新的改变 我们对Markdown编辑器进行了一些功能拓展与语法支持,…

OpenCV(五)——运动目标识别

课程一览: 目录 1.摄像头调用 2.视频的读取与保存 3.帧差法 4.光流法 5.背景减除法

Python-中北大学人工智能OpenCV人脸识别(根据图片训练数据,根据训练好的数据识别人脸)

文章目录 1. 根据训练照片训练数据模型2. 根据训练的数据文件,进行人脸识别 1. 根据训练照片训练数据模型 训练流程: 读取文件夹下的所有文件,使用PIL 库中的Image方法打开图片,并将其转化为灰度图片。加载人脸数据分类器&#x…

李腾飞 java_黑马师资团队之【李腾飞老师】

本帖最后由 火影七代目 于 2017-8-4 16:48 编辑 李腾飞老师在北京传智JavaEE就业254期又一次的创新了数据, 这也体现出来飞哥对学员真心的对待和耐心的授课, 看到下面的话语,也是学员对飞哥的恋恋不舍李腾飞老师在254期评分很高,得…

基于openCV的车牌识别(模板匹配)python版

利用提供的模板进行车牌识别: 模板: 测试数据: 整体思路分为3个步骤:①将图像中车牌位置截取出来;②将车牌安照字符进行分割;③对分割好的字符图像进行模板匹配。实验基于jupyter进行,具体代码…

OpenCV-顶帽运算(TOPHAT)

作者:翟天保Steven 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 原理 形态学是图像处理中常见的名词,图像处理的形态学基本属于数学形态学的范畴,是一门建立在格论和拓扑…

小白都能学会的python+opencv,带你从人脸识别做到车牌识别,成为别人口中赞叹的高手!

一.第一步,对于小白来说,用什么编辑很难选择,怎么下载免费的编辑器也不会,会用电脑下载的又总是被下载许多附带的垃圾软件,这个问题让我来解决,这里我们首先需要安装两个软件以及配置一个pip豆瓣源&#xf…

基于VS与OpenCV的模板匹配学习(2):边缘匹配+图像金字塔

基于VS与OpenCV的模板匹配学习(2) 边缘模板匹配图像金字塔 基于C与OpenCV的模板匹配学习(1)OpenCV matchTemplate()示例 文章目录 基于VS与OpenCV的模板匹配学习(2)边缘模板匹配图像金字塔前言一、边缘检…

Struts2的基本流程的详细介绍

Struts2的基本流程 10级学员 张帅鹏课堂笔记 概述: Struts2框架由三部分构成:核心控制器、业务控制器和用户实现的业务逻辑组件。在这三部分中,struts2框架提供了核心控制器StrutsPrepareAndExecuteFilter,而用户需要实现业务控…

jQuery插件autoComplete介绍(10级学员 张帅鹏总结)

jQuery插件autoComplete介绍 概述:AutoComplete为自动填充,展示之意。用户在使用文本框搜索信息时,使用插件的autoplete方法绑定文本框。当在文本框中输入某个字符时,通过该方法中的指定的数据URL,返回相匹配的数据&a…

C语言 编写Vector方法

Vector是一个单口进出的数组结构有一点像栈的结构。 首先建立这样一个结构体,里面包含一个数组以及一个位置标记,数组来存放进入的元素,标记指向尾部最后一个没有存放东西的数组位置。当然数组元素可以自定义为任何格式,甚至也可…

多组数据的输入方法(c语言实现)

先说方法之前先来浅聊一下scanf 开始进入正题 1.EOF法 EOF(end of file)就是文件的结束&#xff0c;通常来判断文件的操作是否结束的标志。 EOF不是特殊字符&#xff0c;而是定义在头文件<stdio.h>的常量&#xff0c;等于-1&#xff1b; 就如牛客网上的一道题为例&…

c语言:数组插入处理

规定输入9个元素&#xff0c;排序后&#xff0c;再输入一个数要求按原来排序的规律将它插入数组中。 初始化数组函数&#xff1a; void assign_value_to_array(int val[])//数组赋值 {int star;//数组开始位printf("请输入%d个数&#xff1a;",num);for(star0;star&…

电子测量——用C语言设计测量数据误差处理的通用程序

题目要求 参考例2-2-6的解题过程&#xff0c;用C语言或MATLAB设计测量数据误差处理的通用程序&#xff0c;要求如下&#xff1a; &#xff08;1&#xff09;提供测试数据输入、粗大误差判别准则选择等的人机界面&#xff1b; &#xff08;2&#xff09;编写程序使用说明&#…

c语言区简单数据类型,c语言简单数据类型有哪些

c语言中简单的数据类型分别为&#xff1a;1、整型【int、short、long、long long】&#xff1b;2、浮点型【float&#xff0c;double】&#xff1b;3、字符型【char】。 c语言中简单的数据类型分别为&#xff1a; 1、整(数)型int&#xff1a;基本整数型&#xff0c;用于存储整数…

C语言-基本数据类型

C语言中有3种基本数据类型&#xff0c;分别是整型、字符型和实型&#xff08;浮点型&#xff09;&#xff0c;下表列出的是32位平台数据类型的长度及其取值范围 类别名称类型名数据长度取值范围整型[有符号]整型[signed] int32位-2147483648~2147483647(-2^31 ~ 2^31-1)[有符号…

C语言处理excel

思路来源&#xff1a;https://blog.csdn.net/hongzhen91/article/details/57422897 目录 1 写2 读先看 代码&#xff01;结果分析可知 1 写 .csv 是 excel 后缀&#xff0c;跳跃间隔符是 ‘,’ FILE *fp ;fp fopen("./test.csv","w") ; // 写 for (i0 ;…

C语言基础——数据运算

一 运算基础 运算的本质是根据已有数据&#xff0c;进行各种运算处理&#xff0c;得到新的数据。所以&#xff0c;运算的基础就是数据。在数据的表示方法中&#xff0c;声明的变量只是一个空的指代&#xff0c;并没有和具体的数据进行关联。如果要使用变量&#xff0c;就要把数…

C语言数据溢出

文章目录 int 类型char int 类型 unsigned int num -1;printf("%u", num);解析&#xff1a; 首先在寄存器产生一个负数-1&#xff0c;它在计算机中存储的补码是 32个1&#xff0c;共32个二进制位&#xff0c;当按照赋值号赋给无符号num变量时&#xff0c;符号位变成…