[林轩田]机器学习基石(三)

article/2025/11/6 23:53:43

Lecture 3 Types Of Learning 学习的类型

ppt

3.1 Learning with Different Output Space Y Y 根据不同的输出空间学习

  • 分类分析:二元分类、多元分类
  • 回归分析:输出是实数
  • 结构化学习
    31

3.2 Learning with Different Data Label yn 根据不同的y标签学习

  • 监督式学习
  • 无监督式学习
  • 半监督式学习
  • 强化学习

    32

3.3 Learning with Different Protocol f=>(xn,yn) f => ( x n , y n )

Batch Learning 成批学习

  • 成批学习是业界最普遍的机器学习方式。它是将一批 xn,yn x n , y n 统统喂给学习系统,期望系统能通过学习给出一个良好的 g g

Online Learning 在线学习

  • 与成批学习不同,在线学习是“循序”的学习。
  • 以“垃圾邮件过滤”为例,成批学习会根据所有的训练数据email,.spam?对,输出一个合适的 g g
  • 而在线学习会“循序的”
    • 拿到一个x,学习系统根据当前的 g g 预测出相应的y
    • 学习系统从用户上获得 y y 是否正确的反馈,用于更新自己的g
    • PLA和在线学习很搭
    • 强化学习一般是通过在线学习完成的
    • 在线学习中的假设 g g ,通过“循序地”接收数据实例来“改进”

    Active Learning 主动学习

    • 如果说成批学习像填鸭式教育,在线学习像老师讲课那种教育,那么主动学习就是学生主动向老师问问题来获取知识的学习。
    • 也就是说,学习系统如果对某个数据实例对应的输出结果拿不准,它会主动地询问用户,这个令人疑惑的xn对应的 yn y n 是什么。
    • 主动学习的好处在于,它可以通过有针对性地地提问来提升 g g ,同时它可以节省标签的成本。比如说给医药类数据打标签是一件十分昂贵的事情,通过主动学习可以减少给药物打标签的成本(只需要给令系统疑惑的数据打标签即可)。

    Mini Summary 简单的总结

    33

    3.4 Learning with different input space X 根据不同的输入特征学习

    Concrete Features 具体特征

    • 具体的特征指, X X 的每个维度都具有复杂的物理含义。比如说年龄,性别,年收入等等,这些特征一般包含了学习任务中“人类的智慧”,即“领域知识”。
    • 使用具体的特征来进行学习,是机器学习中比较简单的学习方式。

    Raw Features 原始特征

    • 考虑一个“手写数字识别”任务,如果使用具体特征,我们可以考虑对称性、密度之类的。
      34
      如上图所示,仅仅分类1,5两类,可以注意到1的对称性更强,密度更低。所以1的实例大部分分布在左上角,5在右下角。
      这就是根据具体特征来学习。
    • 考虑更原始的特征,即图片的像素。每张图片的分辨率都是1616,所以可以将输入图转化为一个256维的向量。每个维度的物理含义很简单,代表一个像素点。
    • 原始特征的物理含义更简单,因此机器根据原始特征进行学习过程更难。
    • 原始特征经常需要人工或机械地转化为具体特征,转化的过程叫做特征工程,深度学习也是特征工程的一种。

    Abstract Features 抽象特征

    • 抽象特征如用户id,广告id这种,几乎没有物理含义,更需要进行特征工程。

    Mini Summary 简单总结

    35


http://chatgpt.dhexx.cn/article/jYTAwdik.shtml

相关文章

机器学习基石第十三讲笔记

Lecture 13: Hazard of Overfitting 过拟合的危险 13-1 什么是过拟合 失败的一般化:low Ein,high Eout。 VC维很大的时候,会造成过拟合。 VC维太小的时候,会造成欠拟合。 造成过拟合的原因:过大的VC维&#xff0c…

《机器学习基石》笔记:第一讲

林轩田老师的《机器学习基石》和《机器学习技法》两门课程非常经典,从哲学原理讲到算法核心,深入浅出,非常详细。但存在两个问题: 1.林老师是台湾(省)人,很多舶来品词语的翻译和大陆不同&#…

机器学习基石 5.4 Break Point

文章目录 1. The Four Growth Functions2. Break Point of $\mathcal{H}$3. The Four Break Points4. Fun Time5. Summary 1. The Four Growth Functions 目前已知的4种成长函数: 如果成长函数是一个多项式(polynomial),那么右侧…

机器学习基石:PLA算法代码实现

一、前言 本篇是面向机器学习基石第一次作业而言。 15-20题都是需要编程实现才能正确做出选择。 前面14个选择题,我觉得题目出得并不好。这里就不再多说。主要面向最后的LPA和pocket算法的实现。 代码对应的gitee地址 二、PLA算法实现 数据集中每个样本都是的…

机器学习基石——作业2解答

机器学习基石——作业2解答 这里的 μ 指的是某个h(x)≈f(x),对应的 Eout(h) 。其中目标函数 f(x) 是确定性的,没有噪声干扰。如果加上噪声,目标函数变为课中讲的概率分布 P(y│x) ,表示为 P(y│x){λ1−λyf(x)otherwize \begi…

台湾大学林轩田机器学习基石课程学习笔记3 -- Types of Learning

红色石头的个人网站:redstonewill.com 上节课我们主要介绍了解决线性分类问题的一个简单的方法:PLA。PLA能够在平面中选择一条直线将样本数据完全正确分类。而对于线性不可分的情况,可以使用Pocket Algorithm来处理。本节课将主要介绍一下机器…

林軒田《机器学习基石》课程总结

最近发布了一系列台湾大学资讯工程系林軒田(Hsuan-Tien Lin)教授开设的《机器学习基石》的课程总结,分为4个部分,点击标题可查看: 机器什么时候能够学习?(When Can Machines Learn?…

台大林轩田《机器学习基石》:作业三python实现

台大林轩田《机器学习基石》:作业一python实现 台大林轩田《机器学习基石》:作业二python实现 台大林轩田《机器学习基石》:作业三python实现 台大林轩田《机器学习基石》:作业四python实现 完整代码: https://github…

机器学习基石系列三

课程关联与可学习 核心问题 上界限制 增长上限 上界证明(不太懂) - step three

林轩田 《机器学习基石》学习笔记

参考资料: 除了redstone的笔记较好之外,还有豆瓣的https://www.douban.com/doulist/3381853/的笔记也比较好 -------------------------------------- 1. 什么时候机器可以学习? 2. 为什么要要使用机器学习? 3. 机器怎么可以学习到…

【机器学习】机器学习基石-林轩田-1-机器学习介绍

机器学习基石-1-机器学习介绍 本节内容What is Machine Learning?What is skill?Why use machine learning?When use machine learning?Key Essence of Machine LearningFun TimeApplications of Machine LearningComponents of Machine Learning相关术语Leanin…

机器学习基石 作业0

机器学习基石 作业0 1 Probability and Statistics2 Linear Algebra3 Caculus网上没找到作业0的答案,这是自己做的版本,有一些可能会有错误,欢迎讨论。 1 Probability and Statistics 用数学归纳法。N=1时满足,假定N=n满足,当N=n+1同样满足。得证。 10个挑4个正面 C 10 4…

机器学习基石 作业三

机器学习基石 作业三 代入计算 线性回归得到的映射函数 H H H的性质问题。显然映射多次与映射一次效果一样。其它的可以根据 H H H的性质,秩为d+1,显然不可逆。特征值的部分不是非常清楚,大概是根据 I − H I-H I−H的迹等于 N − ( d + 1 ) N-(d+1) N−(d+1)得到的。3. PLA…

机器学习基石笔记

文章目录 一. 机器学习什么时候用二. 机器学习的基本流程三. 什么是机器学习四. 机器学习的可行性NFL定理从统计学中找到可行的方法统计学与机器学习产生联系 一. 机器学习什么时候用 事物本身存在某种潜在规律某些问题难以使用普通编程解决有大量的数据样本可供使用 二. 机器…

机器学习基石 作业二

机器学习基石 作业二 1 计算一下本来预测对与预测错时加上噪音导致的错误率然后相加即可。 2 选择一个 λ \lambda λ的值让 μ \mu μ的系数为0。 3 根据VC bound 公式带入计算即可,N=46000的时候error最接近0.05。下面的代码可以计算不同的N与目标error之间的差距。 def …

机器学习基石2-Learning to Answer Yes-No

注: 文章中所有的图片均来自台湾大学林轩田《机器学习基石》课程。 笔记原作者:红色石头 微信公众号:AI有道 上节课,简述了机器学习的定义及其重要性,并用流程图的形式介绍了机器学习的整个过程:根据模型\(…

机器学习基石-林轩田-第一周笔记

Lecture 01 - The Learning Problem When Can Machine Learn ?Why Can Machine Learn ?How Can Machine Learn ?How Can Machine Learn Better ? What is Machine Learning 什么是“学习”?学习就是人类通过观察、积累经验,掌握某项技能或能力。就…

机器学习基石16:三个重要原则(Three Learning Principles)

本节介绍了机器学习中三个重要原则,包括奥卡姆剃刀原理,样本偏差,数据窥探;并对16课程所学知识进行了总结。 系列文章 机器学习基石01:机器学习简介 机器学习基石02:感知器算法(Perceptron Alg…

机器学习基石1(ML基本概念和VC dimension)

文章目录 一、什么是机器学习?二、什么时候可以使用机器学习?三、感知机perceptron四、机器学习的输入形式五、机器真的可以学习吗?六、vc dimension 一、什么是机器学习? 其实第一个问题和第二个问题是穿插到一块儿回答的,首先机器学习要解决的是常规…

Wireshark抓包数据

首先官网下载Wireshark,下载好后,用浏览器打开桂林生活网,无需注册,输入账号密码。 打开Wireshark,用命令提示符查看本机ip 在Wireshark的过滤搜索中输入ip10.34.152.44,找到http类型的数据查看&#xff0…