林轩田机器学习基石笔记14:Validation

article/2025/11/6 23:51:43

0. 前言

之前的课程讲解了为了避免overfitting,可以使用regularization方法来解决。在之前的 Ein E i n 上加上一个regularizer,生成 Eaug E a u g ,选择合适的 λ λ 将其最小化,通过减小模型复杂度来增加泛化能力。今天将会介绍另一种增加泛化能力的方法:Validation。

1. Model Selection Problem

  • 在机器学习中,模型选择一直是一个比较麻烦的问题。首先是我们选择算法,有PLA、Pocket、逻辑回归、线性回归一堆算法可以挑选,选完算法之后是迭代次数T的选择,之后是学习速率η的选择,接着是模型特征转换Φ的选择然后是正则化regularizer的选择,有L2,L1等等;最后是正则化系数λ的选择。不同的搭配,有不同的机器学习效果。我们的目标就是找到最合适的搭配,构建最好的机器学习模型。
    这里写图片描述
  • 我们可以做出一个独立于训练样本的测试集,分别对每个模型进行测试,选择 Etest E t e s t 最小的模型。测试集需要从训练集中分离出来,前提是两者是独立同分布的。

2. Validation

  • Validation过程:讲已有的数据集D分成两部分:测试集 Dval D v a l 和训练集 Dtrain D t r a i n 。对M个分类器分别对测试集和训练集进行分类,最后得到每个分类器的 Eval E v a l Etrain E t r a i n ,其中在测试集中表现最好的分类器( Eval E v a l 最小)为最好的分类器。
    这里写图片描述

3. Leave-One-Out Cross Validation

  • 留一交叉验证:使用训练集对分类器进行训练过之后,使用每一个数据作为测试集进行测试,得到一个误差 en e n ,对所有数据便利一遍并取平均值,得到平均误差 Elopval E l o p v a l 此为留一交叉验证。
  • error 与特征数量的关系如下图所示:
    这里写图片描述
    Ein E i n :已有数据误差
    Eout E o u t :泛化的数据误差
    Ecv E c v :留一交叉验证误差
    可以看到我们只要保证 Ecv E c v 尽可能小,就能近似的达到 Eout E o u t 尽可能小。

4. V-Fold Cross Validation

  • 留一交叉验证的缺点:

    1. 计算量:有N个数据,就要计算N次。
    2. 稳定性:如果是个二分问题,预测本身存在不稳定的因素,结果会存在很大的跳动,稳定性不好。
  • 改进方法:V折交叉验证:讲数据先分成几分,比如N=1000,取V=10,那么数据分成十份、每份数据100个样本。每一份的误差为其中样本的平均误差,最终结果为每一份的平均误差。这么处理之后,有更强的稳定性且计算量减少了10倍。

5. 总结

这一节课主要讲解了Validation方法,即讲样本分为训练样本和测试样本。比较了留一交叉验证和V-折交叉验证方法,其中V-折交叉验证是最常用的验证方法。


http://chatgpt.dhexx.cn/article/Muyb1ERS.shtml

相关文章

[林轩田]机器学习基石(三)

Lecture 3 Types Of Learning 学习的类型 ppt 3.1 Learning with Different Output Space Y Y 根据不同的输出空间学习分类分析:二元分类、多元分类 回归分析:输出是实数 结构化学习 3.2 Learning with Different Data Label yn" role="presentation" styl…

机器学习基石第十三讲笔记

Lecture 13: Hazard of Overfitting 过拟合的危险 13-1 什么是过拟合 失败的一般化:low Ein,high Eout。 VC维很大的时候,会造成过拟合。 VC维太小的时候,会造成欠拟合。 造成过拟合的原因:过大的VC维&#xff0c…

《机器学习基石》笔记:第一讲

林轩田老师的《机器学习基石》和《机器学习技法》两门课程非常经典,从哲学原理讲到算法核心,深入浅出,非常详细。但存在两个问题: 1.林老师是台湾(省)人,很多舶来品词语的翻译和大陆不同&#…

机器学习基石 5.4 Break Point

文章目录 1. The Four Growth Functions2. Break Point of $\mathcal{H}$3. The Four Break Points4. Fun Time5. Summary 1. The Four Growth Functions 目前已知的4种成长函数: 如果成长函数是一个多项式(polynomial),那么右侧…

机器学习基石:PLA算法代码实现

一、前言 本篇是面向机器学习基石第一次作业而言。 15-20题都是需要编程实现才能正确做出选择。 前面14个选择题,我觉得题目出得并不好。这里就不再多说。主要面向最后的LPA和pocket算法的实现。 代码对应的gitee地址 二、PLA算法实现 数据集中每个样本都是的…

机器学习基石——作业2解答

机器学习基石——作业2解答 这里的 μ 指的是某个h(x)≈f(x),对应的 Eout(h) 。其中目标函数 f(x) 是确定性的,没有噪声干扰。如果加上噪声,目标函数变为课中讲的概率分布 P(y│x) ,表示为 P(y│x){λ1−λyf(x)otherwize \begi…

台湾大学林轩田机器学习基石课程学习笔记3 -- Types of Learning

红色石头的个人网站:redstonewill.com 上节课我们主要介绍了解决线性分类问题的一个简单的方法:PLA。PLA能够在平面中选择一条直线将样本数据完全正确分类。而对于线性不可分的情况,可以使用Pocket Algorithm来处理。本节课将主要介绍一下机器…

林軒田《机器学习基石》课程总结

最近发布了一系列台湾大学资讯工程系林軒田(Hsuan-Tien Lin)教授开设的《机器学习基石》的课程总结,分为4个部分,点击标题可查看: 机器什么时候能够学习?(When Can Machines Learn?…

台大林轩田《机器学习基石》:作业三python实现

台大林轩田《机器学习基石》:作业一python实现 台大林轩田《机器学习基石》:作业二python实现 台大林轩田《机器学习基石》:作业三python实现 台大林轩田《机器学习基石》:作业四python实现 完整代码: https://github…

机器学习基石系列三

课程关联与可学习 核心问题 上界限制 增长上限 上界证明(不太懂) - step three

林轩田 《机器学习基石》学习笔记

参考资料: 除了redstone的笔记较好之外,还有豆瓣的https://www.douban.com/doulist/3381853/的笔记也比较好 -------------------------------------- 1. 什么时候机器可以学习? 2. 为什么要要使用机器学习? 3. 机器怎么可以学习到…

【机器学习】机器学习基石-林轩田-1-机器学习介绍

机器学习基石-1-机器学习介绍 本节内容What is Machine Learning?What is skill?Why use machine learning?When use machine learning?Key Essence of Machine LearningFun TimeApplications of Machine LearningComponents of Machine Learning相关术语Leanin…

机器学习基石 作业0

机器学习基石 作业0 1 Probability and Statistics2 Linear Algebra3 Caculus网上没找到作业0的答案,这是自己做的版本,有一些可能会有错误,欢迎讨论。 1 Probability and Statistics 用数学归纳法。N=1时满足,假定N=n满足,当N=n+1同样满足。得证。 10个挑4个正面 C 10 4…

机器学习基石 作业三

机器学习基石 作业三 代入计算 线性回归得到的映射函数 H H H的性质问题。显然映射多次与映射一次效果一样。其它的可以根据 H H H的性质,秩为d+1,显然不可逆。特征值的部分不是非常清楚,大概是根据 I − H I-H I−H的迹等于 N − ( d + 1 ) N-(d+1) N−(d+1)得到的。3. PLA…

机器学习基石笔记

文章目录 一. 机器学习什么时候用二. 机器学习的基本流程三. 什么是机器学习四. 机器学习的可行性NFL定理从统计学中找到可行的方法统计学与机器学习产生联系 一. 机器学习什么时候用 事物本身存在某种潜在规律某些问题难以使用普通编程解决有大量的数据样本可供使用 二. 机器…

机器学习基石 作业二

机器学习基石 作业二 1 计算一下本来预测对与预测错时加上噪音导致的错误率然后相加即可。 2 选择一个 λ \lambda λ的值让 μ \mu μ的系数为0。 3 根据VC bound 公式带入计算即可,N=46000的时候error最接近0.05。下面的代码可以计算不同的N与目标error之间的差距。 def …

机器学习基石2-Learning to Answer Yes-No

注: 文章中所有的图片均来自台湾大学林轩田《机器学习基石》课程。 笔记原作者:红色石头 微信公众号:AI有道 上节课,简述了机器学习的定义及其重要性,并用流程图的形式介绍了机器学习的整个过程:根据模型\(…

机器学习基石-林轩田-第一周笔记

Lecture 01 - The Learning Problem When Can Machine Learn ?Why Can Machine Learn ?How Can Machine Learn ?How Can Machine Learn Better ? What is Machine Learning 什么是“学习”?学习就是人类通过观察、积累经验,掌握某项技能或能力。就…

机器学习基石16:三个重要原则(Three Learning Principles)

本节介绍了机器学习中三个重要原则,包括奥卡姆剃刀原理,样本偏差,数据窥探;并对16课程所学知识进行了总结。 系列文章 机器学习基石01:机器学习简介 机器学习基石02:感知器算法(Perceptron Alg…

机器学习基石1(ML基本概念和VC dimension)

文章目录 一、什么是机器学习?二、什么时候可以使用机器学习?三、感知机perceptron四、机器学习的输入形式五、机器真的可以学习吗?六、vc dimension 一、什么是机器学习? 其实第一个问题和第二个问题是穿插到一块儿回答的,首先机器学习要解决的是常规…