周志华揭开机器学习本质的57张PPT

article/2025/8/9 14:50:01

什么是机器学习?

文献筛选”的故事:循证医学

我们都知道,现在优质医学资源非常稀缺,为了缓解这个问题,国外产生了一种叫做“循证医学”的做法。以后患病了不是先去找专家,而是先去看一看文选资料,因为很可能已经有人患过,甚至已经有医生诊治过这个病,发表过论文。那么如果我们暴露里面和这个病相关的最新技术,把它汇集起来,很可能就能得到很好的解决方案。

如何实现这个想法呢?

第一步,我们要从这个浩如烟海的医学文献里面,把可能有关的文章汇集出来。现在有很多基础工作建设,例如在医学上有 Pub Med 的系统,我们还可以用谷歌学术等搜索关键词,就能搜到很多文章。但这些检索出来的文章和我们真正需要的可能还有很大的距离,因为他可能只是仅仅包含搜索的关键词而已。

所以第二步就需要请人类专家来过滤它们,找出到底哪些东西需要深入研究。这部分的工作量有多大呢?我们举个例子,在一个关于婴儿和儿童残疾的疾病研究里面,这个美国 Tufts 医学中心在第一步的筛选之后就拿到了 33000 篇摘要。中心的专家效率非常高,他们每三十秒钟就可以过滤 1 篇。但就算这样,这个工作还是要做 250 个小时。可想而知,就算一个医生三十秒钟看一篇文章,一天八小时不吃饭、不喝水、不休息,也需要一个多月才能完成。而且糟糕的是每一项新的研究我们都要重复这个麻烦的过程。还有更可怕的是,随着医学的发展,我们发表的论文数量也越来越多。

机器学习的方法

我们挑出大量的文章,只邀请熟练的专家判断是有关还是无关的,然后基于这个信息建立一个分类模型,用这个分类模型对剩下没有看过的文章做一次预测。其中相关的文章再请专家来审读,这样的话,专家需要读的东西就会大幅度减少。

这样做之后,得到的性能指标已经非常接近、甚至一定程度上超过了原来专家过滤的效果。因为我们知道一个专家三十秒钟读一篇文章,需要连续工作一个月,而且中间出错的可能性太多。现在用机器学习来做只需要一天时间,所以被当成是机器学习对现在机器医学发展的一个很重要贡献而报道出来。

这里面非常关键的一步就是我们怎么样把这个分配模型做出来,其实就是用的机器学习。

把数据变成模型要用到学习算法。有一种说法是计算机科学就是关于算法的学问。那如果从这个道理上来讲的话,机器学习其实就是关于学习算法的设计分析和每个学科领域的应用。

(机器学习过程)

机器学习历史

第一阶段:大家都认为要把逻辑推理能力赋予计算机系统,这个是最重要的。因为我们都认为数学家特别的聪明,而数学家最重要的能力就是逻辑推理,所以在那个时期的很多重要工作中,最有代表性的就是西蒙和纽厄尔做的自动定理证明系统,

第二阶段:后来发现光有逻辑推理能力是不够的,因为就算是数学家,他也需要有很多知识,否则的话也证明不出定理来。

大家开始思考怎么样把我们人类的知识总结出来,交给计算机系统,这里面的代表就是知识工程专家系统。像知识工程之父爱德华·费根鲍姆就因为这个贡献获得了 1994 年的图灵奖。

第三个阶段:这时候机器学习作为这个阶段的主流研究内容,可以看到机器学习本身其实就是作为突破知识工程的一个武器而出现的。但是,事实上并没有达到目的,今天大多数的机器学习的结果都是以黑箱的形式存在的。另外一方面,为什么机器学习这么热门呢?其实恰恰是因为在二十世纪九十年代中后期,我们人类搜集、存储、管理、处理数据的能力大幅度提升,这时候迫切需要数据分析的技术,而机器学习恰恰是迎合了这个大时代的需求,所以才变得特别的重要。

未来见解

2006 年 Hinton 在 Nature 发表了关于深度学习的文章。2012 年他又组队参加 ImageNet,获得冠军。超过第二名 10 个百分点的成绩引起了大家的注意,深度学习就此兴起,现在深度学习的应用越来越广泛了。

从 2010 年至今,深度学习的热潮已经 6 年了。

从技术层面来看,深度学习其实就是很多层的神经网络。这里画了一个三层的神经网络,就是所谓的一个神经元,通过很多连接连接在一起。那么每个神经元就是一个所谓的 M-P 模型。

所谓的一个神经元其实就是这么一个函数,我们所谓的神经网络其实就是很多这样的多层函数嵌套形式的数学模型,它在一定程度上受到了这个生物神经技术的启发,但是更重要的是数学和工程上的东西在支撑。

最著名的深度学习模型叫做卷积神经网络(CNN),其实早在 1995 年就提出了,但为什么现在才火呢?要先提两个问题:

深度学习会不会“一统江湖、千秋万载”?

我们可以非常清楚的看到交替模式:热十年冷十五年。

在技术层面对于未来的一个判断是:未必是深度学习,但应该是能有效利用 GPU 等计算设备的方法。

未来任务

AlphaGo,被认为是机器学习的伟大胜利。但是学界普遍认为这并不能代表机器学习就是人工智能的未来,尤其是通用人工智能。

一个关键问题:鲁棒性

人类犯错:水平从九段降到八段。

机器犯错:水平从九段降到业余。

传统的机器学习任务大都是在给定参数的封闭静态环境中,而现在正在慢慢转向开放动态环境。随着人工智能技术取得巨大发展,越来越多地面临“高风险应用”,因此必须有“鲁棒的AI”。

要分析未来,首先得知道现状。那么机器学习现在的形态是什么?有人会说算法,有人会说数据。“其实机器学习的形态就是算法 + 数据。”

但是这样的形态下,它有哪些局限性呢?主要分为 3 个大的方面和其他一些小方面:局限 1:需要大量训练样本;局限 2:难以适应环境变化;局限 3:黑箱模型。

我们可以看到机器学习的技术局限性仍然很多,我们是否可以跳出这个框架,从整体上来解决这些问题呢?

那么我们都知道有硬件(Hardware),有软件(Software),这里提出一个类似于这两者的新概念“学件”(Learnware):

很多人可能在自己的应用中已经建立了这样的模型,他们也很愿意找到一个地方把这些模型分享出去。那以后一个新用户想要应用,也许不用自己去建立一个,而是先到“学件”的市场上找一找有没有合适的,可以拿来使用修改。

比如说,要找一把切肉的刀,可以先看看市场上有没有这样的刀,不会说自己从采矿开始重新打一把刀。如果没有合适的刀,也许会选择一把西瓜刀,然后用自己的数据重新“打磨”一下,让它满足自己应用的需要。

除了解决了原有的问题,“学件”很有可能会催生出一个新产业,类似于软件产业。因为大家可以把自己的模型放到市场上,提供给别人使用,如果被使用得很多,又很好用,用户很广泛,那么可以对这个“学件”定价使用,创造出经济价值。

最后,对今天的报告内容进行一个总结,主要有下面几点:


http://chatgpt.dhexx.cn/article/GMEUeYH0.shtml

相关文章

软件工程毕设(六)·论文

上一篇文章说的是“软件工程毕设(五)外文翻译”,今天我们到了要写第六篇文档的时候了,也就是今天的论文。这一步仅次于我们项目制作最重要的部分之一啦!论文撰写,大家一定一定要提前两个月把论文写完&#…

软件学院本科毕业设计论文格式详解

软件学院本科毕业设计论文格式详解(NEU版) 小伙伴们大家好,毕业设计的论文是在取得本科毕业学位证书不可缺少的东西,但是论文中错综复杂的格式问题常常搞得人头痛,博主今天就带大家看一下毕设论文的主要格式&#xff0…

软件工程硕士论文撰写指导

软件工程方向硕士论文撰写指南 (2012-09-09 10:07:20) 转载▼ 标签: 硕士 论文 答辩 分类: 学有所成 年复一年指导硕士研究生撰写论文,特将软件工程方向的专业硕士(即工程硕士)以及学术硕士(即工…

软件推荐:论文翻译阅读 + 文献管理 + markdown笔记 + 多设备同步 + 一键导出bib参考文献

起初是重大的一个学长推荐的,但是我只用来存文献,后来研究了一下发现居然有这么多功能。 最主要的免费!可以白嫖就是香! 以下是我用到的一些功能,如果我以后发现什么新功能会继续补充。 文章目录 1 下载安装zotero2…

计算机软件测试方法文献,软件测试毕业论文参考文献

软件测试毕业论文参考文献 软件测试论文参考文献一: [1]软件测试[1],2版北京:机械工业出版社,2006,114-122. [2]冯若富.一种智能化人机交互模型的研究与实现[J],计算机工程与应用,2006, 42 (24): 57. [3]段力军.软件产品易用性测试及回归测试方法探究[J],山西电子技术,20…

常用的科研论文作图软件

文章目录 导读介绍Microsoft VisioMicrosoft Office PowerPointOriginPythonMatlabAdobe FireworksLatexAdobe IllustratorAdobe Photoshop 导读 记得有次听学术报告时,老师讲读一篇论文,他会先看题目、摘要、图表,然后就是正文了。可见论文…

论文绘图软件介绍

引言 众所周知,高水平的配图可以令论文、报告等显得耳目一新,瞬间提高一个档次。写文章、做报告,搞好配图已经成为了又一项标配技能。从大量的数据资料中获得所需的效果图,已经有很多前辈们为咱们趟好了路,留下了大量…

论文、软件工程常用图表

临近毕业,大家都在忙着写论文,分享一下我论文里用到的几张图,希望能帮助到学弟学妹们。 1、用例图 2、功能模块图 3、数据流图 4、实体-属性图 E-R图 5、流程图 6、盒图

ubuntu上的翻译软件,看论文神器

看英文论文的时候需要查单词含义,虽然有谷歌、CtrlC 和CtrlV还是不太方便,最快捷的还是屏幕取词翻译,Windows和Mac上都有很多软件,在Ubuntu上推荐stardict 1.安装方法:非常简单,sudo apt-get install star…

强大且超实用的论文阅读工具——ReadPaper

最近突然发现了一款超好用的论文阅读工具 ReadPaper,简直是科研人的福音,在这里推荐给大家。 目录 0 官网与下载1 看论文1.1 找论文1.2 读论文1.2.1 翻译1.2.2 看论文过程中忘记该论文发表的年份和期刊/会议1.2.3 段落和图表不在一页,要来回上…

高效科研神器——文献阅读篇

分享我在用的科研神器,有了它们,文献阅读更高效! 操作系统:Windows 10 工具特点:免费,简洁,无广告 软件分类: 阅读:Mendeley,Adobe Acrobat Reader DC 翻…

有哪些科研人员看文献必用的软件?

你可曾因为在电脑上找不到某篇已读文献而急躁? 你可曾因为向手机、平板一篇篇传输文献而厌倦? 你可曾因为检索各网站找不到想要的论文而烦恼? 如果答案是: 有、是、甚至想砸电脑 !那今天推荐软件一定合您口味&#xff…

发现一个免费的IP查询接口

为什么80%的码农都做不了架构师?>>> 接口地址:https://ip.huomao.com/ip?ipIP地址 例如: https://ip.huomao.com/ip?ip8.8.8.8 返回结果: {"country":"GOOGLE.COM","province":"…

IP信息查询API接口,免费好用

1、前言 IP信息查询接口,能实现获取访问者当前ip信息和指定信息ip信息。这个接口的主要特点是,能获取ip地址所在省市信息和运营商信息。 2、接口明细 注意:app_id和app_secret是临时秘钥,如果真正使用,需要去https://w…

如何利用python调ip查询接口?

首先在http://www.ip138.com/上注册一个帐号(过程省略) 点击IP查询 token就是key了,还有其它的调用方法,这里只讲token这种调用 注册后好像免费只能查1000次(有需要可以自己买,貌似不贵) 有了这个key就可以调用接口了,代码如下…

python3--数据可视化-破解IP查询接口 将6万个IP地址可视化展示(附源码)

文章目录 一.准备工作二.思路1.整体思路2.爬虫思路3.爬虫实现 三.效果展示1.数据库2.IP地址分类分析-饼图3.IP地址分布可视化-地图4.IP地址分布分析-饼图5.IP地址分布可视化-条形图6.IP地址运营商占比分析-饼图7.IP地址运营商占比可视化-条形…

前端获取用户IP (IP查询API接口)

找了好久好像大多数免费的能前端获取用户IP的API都用不了. let xhr new XMLHttpRequest();xhr.open(GET, https://ip.useragentinfo.com/json);xhr.responseType json;xhr.send();xhr.onreadystatechange function() {if (xhr.readyState 4) {let ipinfo xhr.response;con…

查询IP归属地的接口

查询IP归属地的接口 1.淘宝: http://ip.taobao.com/service/getIpInfo.php?ip 请求接口(GET): http://ip.taobao.com/service/getIpInfo.php?ip[ip地址字串] 响应信息: (json格式的)国家…

几个免费好用的IP查询接口

在开发 IPinfo 之前xiaoz曾不断寻找免费好用的IP查询接口,目前IPinfo也基本完成,将收集到的IP查询接口整理分享出来,希望对开发人员有所帮助。 纯真IP 纯真官网 http://www.cz88.net/ 有提供IP数据库下载,可作为离线版本使用&…

ip查询接口 简介

目录 1、淘宝IP地址库 2、纯真IP 3、IP.SB 4、IPIP ,现在就为大家罗列下国内的4个好用免费的IP查询接口: 1、淘宝IP地址库 该查询接口由淘宝提供,已经上线很长时间,稳定靠谱。 接口地址:/service/getIpInfo.php?…