《机器学习基石》笔记:第一讲

article/2025/11/6 23:59:40

林轩田老师的《机器学习基石》和《机器学习技法》两门课程非常经典,从哲学原理讲到算法核心,深入浅出,非常详细。但存在两个问题:
1.林老师是台湾(省)人,很多舶来品词语的翻译和大陆不同,加上林老师讲的比较快,一次听明白还是不容易的。
2.由于课程是视频形式,回头复习比较麻烦。 因此,想把每节课的重要内容以笔记的形式记录下来,以供未来反复回头翻看。希望能坚持下来:)
下面开始正式内容。


1.课程介绍
本课程目的是“基石”导向的,力求学习者通晓原理又熟悉技巧,既不是枯燥的将理论,也不是速成式的讲算法(算法那么多,怎么学也学不完)。
2.什么是机器学习?
人类的学习过程是从大量经验中,通过观察学到技能。机器学习则是计算机(模型)从大量数据(data)中学到技能(skill)。
那么,什么是skill?skill就是在一个业务场景中提升某个指标,比如在股票投资中,模型通过大量data学习,使得投资者的股票回报率提高了,那么这就是学到了skill。
那么,为什么我们要使用机器学习(用其他的技术不行吗)?比如说要你在1000张图片中分辨哪些图片中包含树。此时,通过编写规则难以做到,我们无法(很难)将树的定义用数学抽象表达。因此,此类场景需要机器学习。
那么,使用机器学习的关键是什么?(1)存在潜在的模式(pattern)可供学习(2)人工编写规则难以做到(3)存在足量的该pattern生成的data。
机器学习的应用涵盖了我们的衣食住行教育娱乐等日常生活,典型应用有NLP、IR、RS等。
那么,一个机器学习应用包含哪些基本成分?(1)input:X(2)output:Y(3)f:X–>Y(f代表pattern,也就是我们未知但是想求出的一种对应法则)(4)training set:D(5)hypothesis set(假设空间),也就是g的全集。(5)g:X–Y(我们想求得f但是求之不得,所以通过data求一个近似于f的g来代替f)
这里写图片描述
3.机器学习的流程:
这里写图片描述
那么,机器学习和数据挖掘、人工智能、统计学等这些学科领域的关系是怎样的?
首先,机器学习是希望通过data来近似求得一个和f相似的g。
而数据挖掘则是通过data发掘有趣(interesting)的事情,数据挖掘包含的范围更大。
其次,机器学习是(目前看来)实现人工智能的一个最佳途径。
最后,机器学习里面使用的很多方法都是统计学家在很早以前发现的。统计学领域更注重用数学方法预测假设,不太重视大量的数据计算。


http://chatgpt.dhexx.cn/article/lbb3c3rt.shtml

相关文章

机器学习基石 5.4 Break Point

文章目录 1. The Four Growth Functions2. Break Point of $\mathcal{H}$3. The Four Break Points4. Fun Time5. Summary 1. The Four Growth Functions 目前已知的4种成长函数: 如果成长函数是一个多项式(polynomial),那么右侧…

机器学习基石:PLA算法代码实现

一、前言 本篇是面向机器学习基石第一次作业而言。 15-20题都是需要编程实现才能正确做出选择。 前面14个选择题,我觉得题目出得并不好。这里就不再多说。主要面向最后的LPA和pocket算法的实现。 代码对应的gitee地址 二、PLA算法实现 数据集中每个样本都是的…

机器学习基石——作业2解答

机器学习基石——作业2解答 这里的 μ 指的是某个h(x)≈f(x),对应的 Eout(h) 。其中目标函数 f(x) 是确定性的,没有噪声干扰。如果加上噪声,目标函数变为课中讲的概率分布 P(y│x) ,表示为 P(y│x){λ1−λyf(x)otherwize \begi…

台湾大学林轩田机器学习基石课程学习笔记3 -- Types of Learning

红色石头的个人网站:redstonewill.com 上节课我们主要介绍了解决线性分类问题的一个简单的方法:PLA。PLA能够在平面中选择一条直线将样本数据完全正确分类。而对于线性不可分的情况,可以使用Pocket Algorithm来处理。本节课将主要介绍一下机器…

林軒田《机器学习基石》课程总结

最近发布了一系列台湾大学资讯工程系林軒田(Hsuan-Tien Lin)教授开设的《机器学习基石》的课程总结,分为4个部分,点击标题可查看: 机器什么时候能够学习?(When Can Machines Learn?…

台大林轩田《机器学习基石》:作业三python实现

台大林轩田《机器学习基石》:作业一python实现 台大林轩田《机器学习基石》:作业二python实现 台大林轩田《机器学习基石》:作业三python实现 台大林轩田《机器学习基石》:作业四python实现 完整代码: https://github…

机器学习基石系列三

课程关联与可学习 核心问题 上界限制 增长上限 上界证明(不太懂) - step three

林轩田 《机器学习基石》学习笔记

参考资料: 除了redstone的笔记较好之外,还有豆瓣的https://www.douban.com/doulist/3381853/的笔记也比较好 -------------------------------------- 1. 什么时候机器可以学习? 2. 为什么要要使用机器学习? 3. 机器怎么可以学习到…

【机器学习】机器学习基石-林轩田-1-机器学习介绍

机器学习基石-1-机器学习介绍 本节内容What is Machine Learning?What is skill?Why use machine learning?When use machine learning?Key Essence of Machine LearningFun TimeApplications of Machine LearningComponents of Machine Learning相关术语Leanin…

机器学习基石 作业0

机器学习基石 作业0 1 Probability and Statistics2 Linear Algebra3 Caculus网上没找到作业0的答案,这是自己做的版本,有一些可能会有错误,欢迎讨论。 1 Probability and Statistics 用数学归纳法。N=1时满足,假定N=n满足,当N=n+1同样满足。得证。 10个挑4个正面 C 10 4…

机器学习基石 作业三

机器学习基石 作业三 代入计算 线性回归得到的映射函数 H H H的性质问题。显然映射多次与映射一次效果一样。其它的可以根据 H H H的性质,秩为d+1,显然不可逆。特征值的部分不是非常清楚,大概是根据 I − H I-H I−H的迹等于 N − ( d + 1 ) N-(d+1) N−(d+1)得到的。3. PLA…

机器学习基石笔记

文章目录 一. 机器学习什么时候用二. 机器学习的基本流程三. 什么是机器学习四. 机器学习的可行性NFL定理从统计学中找到可行的方法统计学与机器学习产生联系 一. 机器学习什么时候用 事物本身存在某种潜在规律某些问题难以使用普通编程解决有大量的数据样本可供使用 二. 机器…

机器学习基石 作业二

机器学习基石 作业二 1 计算一下本来预测对与预测错时加上噪音导致的错误率然后相加即可。 2 选择一个 λ \lambda λ的值让 μ \mu μ的系数为0。 3 根据VC bound 公式带入计算即可,N=46000的时候error最接近0.05。下面的代码可以计算不同的N与目标error之间的差距。 def …

机器学习基石2-Learning to Answer Yes-No

注: 文章中所有的图片均来自台湾大学林轩田《机器学习基石》课程。 笔记原作者:红色石头 微信公众号:AI有道 上节课,简述了机器学习的定义及其重要性,并用流程图的形式介绍了机器学习的整个过程:根据模型\(…

机器学习基石-林轩田-第一周笔记

Lecture 01 - The Learning Problem When Can Machine Learn ?Why Can Machine Learn ?How Can Machine Learn ?How Can Machine Learn Better ? What is Machine Learning 什么是“学习”?学习就是人类通过观察、积累经验,掌握某项技能或能力。就…

机器学习基石16:三个重要原则(Three Learning Principles)

本节介绍了机器学习中三个重要原则,包括奥卡姆剃刀原理,样本偏差,数据窥探;并对16课程所学知识进行了总结。 系列文章 机器学习基石01:机器学习简介 机器学习基石02:感知器算法(Perceptron Alg…

机器学习基石1(ML基本概念和VC dimension)

文章目录 一、什么是机器学习?二、什么时候可以使用机器学习?三、感知机perceptron四、机器学习的输入形式五、机器真的可以学习吗?六、vc dimension 一、什么是机器学习? 其实第一个问题和第二个问题是穿插到一块儿回答的,首先机器学习要解决的是常规…

Wireshark抓包数据

首先官网下载Wireshark,下载好后,用浏览器打开桂林生活网,无需注册,输入账号密码。 打开Wireshark,用命令提示符查看本机ip 在Wireshark的过滤搜索中输入ip10.34.152.44,找到http类型的数据查看&#xff0…

Wireshark抓包数据分析

文章目录 准备数据链路层实作一 熟悉 Ethernet 帧结构实作二 了解子网内/外通信时的 MAC 地址实作三 掌握 ARP 解析过程 网络层实作一 熟悉 IP 包结构实作二 IP 包的分段与重组实作三 考察 TTL 事件 传输层实作一 熟悉 TCP 和 UDP 段结构实作二 分析 TCP 建立和释放连接 应用层…

网络数据包分析与抓取

多年的网络数据包分析与抓取经验,闲话少说,上干货。先列举数据包的种类:1、Http数据包;2、UDP数据包;3、TCP数据包;4、ARP数据包;其实数据包的概念是很泛的,在软件可逆领域&#xff…