机器学习基石第十三讲笔记

article/2025/11/6 23:59:43

Lecture 13: Hazard of Overfitting 过拟合的危险

13-1 什么是过拟合

失败的一般化:low Ein,high Eout。

VC维很大的时候,会造成过拟合。

VC维太小的时候,会造成欠拟合。

造成过拟合的原因:过大的VC维,噪声,少的data size N。

 

13-2 噪声和data size的作用

Overfit:Ein很小但Eout特别大。


当没有noise时,g2也会做得好:(右图为target函数)


这是因为:目标函数的复杂度acts like noise。

 

13-3 Deterministic Noise

Datasize太少,stochasticnoise太大,deterministic noise太大和excessivepower太大时,都会造成overfit。如下图:

 


13-4 如何解决过拟合

从简单一点的模型开始;数据清洗;data hinting;规则化;validation;

Datacleaning:correct the label

Datapruning:removethe label

DataHinting:addexamples by shift/rotate the label(在数字识别问题中)

 

 

 



http://chatgpt.dhexx.cn/article/AxjNNKUE.shtml

相关文章

《机器学习基石》笔记:第一讲

林轩田老师的《机器学习基石》和《机器学习技法》两门课程非常经典,从哲学原理讲到算法核心,深入浅出,非常详细。但存在两个问题: 1.林老师是台湾(省)人,很多舶来品词语的翻译和大陆不同&#…

机器学习基石 5.4 Break Point

文章目录 1. The Four Growth Functions2. Break Point of $\mathcal{H}$3. The Four Break Points4. Fun Time5. Summary 1. The Four Growth Functions 目前已知的4种成长函数: 如果成长函数是一个多项式(polynomial),那么右侧…

机器学习基石:PLA算法代码实现

一、前言 本篇是面向机器学习基石第一次作业而言。 15-20题都是需要编程实现才能正确做出选择。 前面14个选择题,我觉得题目出得并不好。这里就不再多说。主要面向最后的LPA和pocket算法的实现。 代码对应的gitee地址 二、PLA算法实现 数据集中每个样本都是的…

机器学习基石——作业2解答

机器学习基石——作业2解答 这里的 μ 指的是某个h(x)≈f(x),对应的 Eout(h) 。其中目标函数 f(x) 是确定性的,没有噪声干扰。如果加上噪声,目标函数变为课中讲的概率分布 P(y│x) ,表示为 P(y│x){λ1−λyf(x)otherwize \begi…

台湾大学林轩田机器学习基石课程学习笔记3 -- Types of Learning

红色石头的个人网站:redstonewill.com 上节课我们主要介绍了解决线性分类问题的一个简单的方法:PLA。PLA能够在平面中选择一条直线将样本数据完全正确分类。而对于线性不可分的情况,可以使用Pocket Algorithm来处理。本节课将主要介绍一下机器…

林軒田《机器学习基石》课程总结

最近发布了一系列台湾大学资讯工程系林軒田(Hsuan-Tien Lin)教授开设的《机器学习基石》的课程总结,分为4个部分,点击标题可查看: 机器什么时候能够学习?(When Can Machines Learn?…

台大林轩田《机器学习基石》:作业三python实现

台大林轩田《机器学习基石》:作业一python实现 台大林轩田《机器学习基石》:作业二python实现 台大林轩田《机器学习基石》:作业三python实现 台大林轩田《机器学习基石》:作业四python实现 完整代码: https://github…

机器学习基石系列三

课程关联与可学习 核心问题 上界限制 增长上限 上界证明(不太懂) - step three

林轩田 《机器学习基石》学习笔记

参考资料: 除了redstone的笔记较好之外,还有豆瓣的https://www.douban.com/doulist/3381853/的笔记也比较好 -------------------------------------- 1. 什么时候机器可以学习? 2. 为什么要要使用机器学习? 3. 机器怎么可以学习到…

【机器学习】机器学习基石-林轩田-1-机器学习介绍

机器学习基石-1-机器学习介绍 本节内容What is Machine Learning?What is skill?Why use machine learning?When use machine learning?Key Essence of Machine LearningFun TimeApplications of Machine LearningComponents of Machine Learning相关术语Leanin…

机器学习基石 作业0

机器学习基石 作业0 1 Probability and Statistics2 Linear Algebra3 Caculus网上没找到作业0的答案,这是自己做的版本,有一些可能会有错误,欢迎讨论。 1 Probability and Statistics 用数学归纳法。N=1时满足,假定N=n满足,当N=n+1同样满足。得证。 10个挑4个正面 C 10 4…

机器学习基石 作业三

机器学习基石 作业三 代入计算 线性回归得到的映射函数 H H H的性质问题。显然映射多次与映射一次效果一样。其它的可以根据 H H H的性质,秩为d+1,显然不可逆。特征值的部分不是非常清楚,大概是根据 I − H I-H I−H的迹等于 N − ( d + 1 ) N-(d+1) N−(d+1)得到的。3. PLA…

机器学习基石笔记

文章目录 一. 机器学习什么时候用二. 机器学习的基本流程三. 什么是机器学习四. 机器学习的可行性NFL定理从统计学中找到可行的方法统计学与机器学习产生联系 一. 机器学习什么时候用 事物本身存在某种潜在规律某些问题难以使用普通编程解决有大量的数据样本可供使用 二. 机器…

机器学习基石 作业二

机器学习基石 作业二 1 计算一下本来预测对与预测错时加上噪音导致的错误率然后相加即可。 2 选择一个 λ \lambda λ的值让 μ \mu μ的系数为0。 3 根据VC bound 公式带入计算即可,N=46000的时候error最接近0.05。下面的代码可以计算不同的N与目标error之间的差距。 def …

机器学习基石2-Learning to Answer Yes-No

注: 文章中所有的图片均来自台湾大学林轩田《机器学习基石》课程。 笔记原作者:红色石头 微信公众号:AI有道 上节课,简述了机器学习的定义及其重要性,并用流程图的形式介绍了机器学习的整个过程:根据模型\(…

机器学习基石-林轩田-第一周笔记

Lecture 01 - The Learning Problem When Can Machine Learn ?Why Can Machine Learn ?How Can Machine Learn ?How Can Machine Learn Better ? What is Machine Learning 什么是“学习”?学习就是人类通过观察、积累经验,掌握某项技能或能力。就…

机器学习基石16:三个重要原则(Three Learning Principles)

本节介绍了机器学习中三个重要原则,包括奥卡姆剃刀原理,样本偏差,数据窥探;并对16课程所学知识进行了总结。 系列文章 机器学习基石01:机器学习简介 机器学习基石02:感知器算法(Perceptron Alg…

机器学习基石1(ML基本概念和VC dimension)

文章目录 一、什么是机器学习?二、什么时候可以使用机器学习?三、感知机perceptron四、机器学习的输入形式五、机器真的可以学习吗?六、vc dimension 一、什么是机器学习? 其实第一个问题和第二个问题是穿插到一块儿回答的,首先机器学习要解决的是常规…

Wireshark抓包数据

首先官网下载Wireshark,下载好后,用浏览器打开桂林生活网,无需注册,输入账号密码。 打开Wireshark,用命令提示符查看本机ip 在Wireshark的过滤搜索中输入ip10.34.152.44,找到http类型的数据查看&#xff0…

Wireshark抓包数据分析

文章目录 准备数据链路层实作一 熟悉 Ethernet 帧结构实作二 了解子网内/外通信时的 MAC 地址实作三 掌握 ARP 解析过程 网络层实作一 熟悉 IP 包结构实作二 IP 包的分段与重组实作三 考察 TTL 事件 传输层实作一 熟悉 TCP 和 UDP 段结构实作二 分析 TCP 建立和释放连接 应用层…