应用机器学习 Applied Machine Learning (AML) ppt2

article/2025/8/9 14:42:11

分类 classification

在目前的机器学习工作中,最常见的三种任务就是:

  1. 回归分析

  2. 分类分析

  3. 聚类分析

什么是「分类」

虽然我们人类都不喜欢被分类,被贴标签,但数据研究的基础正是给数据“贴标签”进行分类。类别分得越精准,我们得到的结果就越有价值。

分类是一个有监督的学习过程,目标数据库中有哪些类别是已知的,分类过程需要做的就是把每一条记录归到对应的类别之中。由于必须事先知道各个类别的信息,并且所有待分类的数据条目都默认有对应的类别。

分类分为两种:

  1. 二元分类:当我们必须将给定数据分类为 2 个不同的类时。示例——根据一个人的特定健康状况,我们必须确定该人是否患有某种疾病。

  2. 多类分类:类的数量超过2。例如——根据不同种类的花的数据,我们必须确定我们的观察属于哪个种类。

区分「聚类」与「分类」

分类的目的是为了确定一个点的类别,具体有哪些类别是已知的,常用的算法是 KNN (k-nearest neighbors algorithm),是一种有监督学习。聚类的目的是将一系列点分成若干类,事先是没有类别的,常用的算法是 K-Means 算法,是一种无监督学习。

两者也有共同点,那就是它们都包含这样一个过程:对于想要分析的目标点,都会在数据集中寻找离它最近的点,即二者都用到了 NN (Nears Neighbor) 算法。

一维分类问题 1D Classifcation Problem

 

本例子中一共有8条数据,每条数据格式(花瓣长度,类别)。不难看出第一类花花瓣都小于4cm,第二类花花瓣都大于4cm。机器学习模型也会学到这个特征,进行预测。

对于连续的特征,一个明显的选择是高斯分布

首先了解机器学习中的特征类别:连续型特征和离散型特征

例子:连续特征 [4654.1313, 11, 0, 4564654, …]

离散特征[‘Ask’, ‘Jokes’, ‘politics’, ‘five’, ‘gaming’]

一元正态分布(一元高斯分布)

高斯函数的概率密度函数定义为

 

在数学中,连续型随机变量的概率密度函数是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。

数学期望为μ、方差为σ^2

 

正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布,记为N(0,1)

正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。正态曲线呈钟型,两头低,中间高,左右对称,曲线与横轴间的面积总等于1。

σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。

 

回到花卉分类问题,先把两类花卉近似看成高斯分布,并画出图像

 

对于一个新的测试数据点x,分别代入两个对应函数中去,哪个计算的输出最大,就分到其对应的类。

还可以测试数据点来自给定类的“可能性”有多大。可以相当于正确率去理解

 

Adding ‘Prior’ Knowledge

这里想表达的就是我们可以在分类的时候加入一些先前的经验。例如,在邮件分类的问题中,大部分的邮件是正常的只有少量邮件是垃圾邮件;包括这个问题中,大部分的花卉属于是Class0,少部分的花卉属于Class1,我们想把我们观察到的经验告诉机器,提高准确率,因此我们可以加一些权重来控制这个事情。

 

• We can encode this information as a weighting factor for each class, 𝜙0 and 𝜙1, where

𝜙1, 𝜙0 ∈ [0, 1] ,𝜙0 + 𝜙1 = 1 。如果两类别的数量差不多可以都取0.5。如果有一类更常见的话就把那类的参数设置更高就好。

这里其实加的这俩参数,就是所谓的先验知识,这个表达式就和贝叶斯分类任务类似,因此引出贝叶斯分类

贝叶斯

基本概念

1、先验概率 prior

先验概率仅仅依赖于主观上的经验估计,也就是事先根据已有的知识的推断,先验概率就是没有经过实验验证的概率,根据已知进行的主观臆测。

如抛一枚硬币,在抛之前,主观推断P(正面朝上) = 0.5。

2、后验概率

指某件事已经发生,想要计算这件事发生的原因是由某个因素引起的概率。比如一个人得了肺癌,想知道得肺癌由吸烟引起的概率(说白了后验概率实际上就是条件概率)后验概率和条件概率意思是一样的来自百度百科,事实上也确实一样

P (y|x)是y的后验分布,以x为条件

 

这个就是贝叶斯公式,反映了先验概率和后验概率的关系,后验概率P(h|d)是在数据d上得到的学习结果,反映了数据d的影响,这个学习结果是与训练数据相关的。 与此相反,先验概率是与训练数据d无关的,是独立于d的

最大似然估计 Maximum Likelihood Estimation

拟合模型与数据的一种常用方法称为最大似然估计(Maximum Likelihood Estimation, MLE)。

极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高,但是可以通过采样,获取部分人的身高,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。

最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的。

学生考试的成绩,根据既往的经验,我们可以假设学生的成绩是正态分布的,那么剩下的问题就是确定分布的期望和方差。所以,之所以要估计参数,是因为我们希望用较少的参数去描述数据的总体分布。而可以这样做的前提是我们对总体分布的形式是知晓的,只需要估计其中参数的值

之后就是推导了,取许多项的乘积会引起数值问题。为了克服这个问题,我们取不影响函数最大值的对数,然后最大化整体等价于最小化那个整体的负数,再用贝叶斯公式进行替换。

 

最开始由高斯分布近似出贝叶斯,右边那一项其实就是条件概率公式,所以应该也是服从高斯分布,视频里老师就是这个意思应该。如下所示:

 

二项分布(伯努利分布)

说起二项分布(binomial distribution),不得不提的前提是伯努利试验(Bernoulli experiment),也即n次独立重复试验。伯努利试验是在同样的条件下重复、相互独立进行的一种随机试验。

伯努利试验的特点是:

(1)每次试验中事件只有两种结果:事件发生或者不发生,如硬币正面或反面,患病或没患病;

(2)每次试验中事件发生的概率是相同的,注意不一定是0.5;

(3)n次试验的事件相互之间独立。 举个实例,最简单的抛硬币试验就是伯努利试验,在一次试验中硬币要么正面朝上,要么反面朝上,每次正面朝上的概率都一样p=0.5,且每次抛硬币的事件相互独立,即每次正面朝上的概率不受其他试验的影响。如果独立重复抛n=10次硬币,正面朝上的次数k可能为0,1,2,3,4,5,6,7,8,9,10中的任何一个,那么k显然是一个随机变量,这里就称随机变量k服从二项分布

 

左边的那一部分化简,先把伯努利分布公式代入,在用对数公式展开log(ab)=loga+logb

其中N1,N0对应的是训练数据中,正负标签的总和。最后的结果对θ求偏导数就是结果,我求了半天没算出来。。。带log的忘了。

未完,待续。。。。。。。。


http://chatgpt.dhexx.cn/article/JW6AsUaS.shtml

相关文章

周志华揭开机器学习本质的57张PPT

什么是机器学习? 文献筛选”的故事:循证医学 我们都知道,现在优质医学资源非常稀缺,为了缓解这个问题,国外产生了一种叫做“循证医学”的做法。以后患病了不是先去找专家,而是先去看一看文选资料&#xff0…

软件工程毕设(六)·论文

上一篇文章说的是“软件工程毕设(五)外文翻译”,今天我们到了要写第六篇文档的时候了,也就是今天的论文。这一步仅次于我们项目制作最重要的部分之一啦!论文撰写,大家一定一定要提前两个月把论文写完&#…

软件学院本科毕业设计论文格式详解

软件学院本科毕业设计论文格式详解(NEU版) 小伙伴们大家好,毕业设计的论文是在取得本科毕业学位证书不可缺少的东西,但是论文中错综复杂的格式问题常常搞得人头痛,博主今天就带大家看一下毕设论文的主要格式&#xff0…

软件工程硕士论文撰写指导

软件工程方向硕士论文撰写指南 (2012-09-09 10:07:20) 转载▼ 标签: 硕士 论文 答辩 分类: 学有所成 年复一年指导硕士研究生撰写论文,特将软件工程方向的专业硕士(即工程硕士)以及学术硕士(即工…

软件推荐:论文翻译阅读 + 文献管理 + markdown笔记 + 多设备同步 + 一键导出bib参考文献

起初是重大的一个学长推荐的,但是我只用来存文献,后来研究了一下发现居然有这么多功能。 最主要的免费!可以白嫖就是香! 以下是我用到的一些功能,如果我以后发现什么新功能会继续补充。 文章目录 1 下载安装zotero2…

计算机软件测试方法文献,软件测试毕业论文参考文献

软件测试毕业论文参考文献 软件测试论文参考文献一: [1]软件测试[1],2版北京:机械工业出版社,2006,114-122. [2]冯若富.一种智能化人机交互模型的研究与实现[J],计算机工程与应用,2006, 42 (24): 57. [3]段力军.软件产品易用性测试及回归测试方法探究[J],山西电子技术,20…

常用的科研论文作图软件

文章目录 导读介绍Microsoft VisioMicrosoft Office PowerPointOriginPythonMatlabAdobe FireworksLatexAdobe IllustratorAdobe Photoshop 导读 记得有次听学术报告时,老师讲读一篇论文,他会先看题目、摘要、图表,然后就是正文了。可见论文…

论文绘图软件介绍

引言 众所周知,高水平的配图可以令论文、报告等显得耳目一新,瞬间提高一个档次。写文章、做报告,搞好配图已经成为了又一项标配技能。从大量的数据资料中获得所需的效果图,已经有很多前辈们为咱们趟好了路,留下了大量…

论文、软件工程常用图表

临近毕业,大家都在忙着写论文,分享一下我论文里用到的几张图,希望能帮助到学弟学妹们。 1、用例图 2、功能模块图 3、数据流图 4、实体-属性图 E-R图 5、流程图 6、盒图

ubuntu上的翻译软件,看论文神器

看英文论文的时候需要查单词含义,虽然有谷歌、CtrlC 和CtrlV还是不太方便,最快捷的还是屏幕取词翻译,Windows和Mac上都有很多软件,在Ubuntu上推荐stardict 1.安装方法:非常简单,sudo apt-get install star…

强大且超实用的论文阅读工具——ReadPaper

最近突然发现了一款超好用的论文阅读工具 ReadPaper,简直是科研人的福音,在这里推荐给大家。 目录 0 官网与下载1 看论文1.1 找论文1.2 读论文1.2.1 翻译1.2.2 看论文过程中忘记该论文发表的年份和期刊/会议1.2.3 段落和图表不在一页,要来回上…

高效科研神器——文献阅读篇

分享我在用的科研神器,有了它们,文献阅读更高效! 操作系统:Windows 10 工具特点:免费,简洁,无广告 软件分类: 阅读:Mendeley,Adobe Acrobat Reader DC 翻…

有哪些科研人员看文献必用的软件?

你可曾因为在电脑上找不到某篇已读文献而急躁? 你可曾因为向手机、平板一篇篇传输文献而厌倦? 你可曾因为检索各网站找不到想要的论文而烦恼? 如果答案是: 有、是、甚至想砸电脑 !那今天推荐软件一定合您口味&#xff…

发现一个免费的IP查询接口

为什么80%的码农都做不了架构师?>>> 接口地址:https://ip.huomao.com/ip?ipIP地址 例如: https://ip.huomao.com/ip?ip8.8.8.8 返回结果: {"country":"GOOGLE.COM","province":"…

IP信息查询API接口,免费好用

1、前言 IP信息查询接口,能实现获取访问者当前ip信息和指定信息ip信息。这个接口的主要特点是,能获取ip地址所在省市信息和运营商信息。 2、接口明细 注意:app_id和app_secret是临时秘钥,如果真正使用,需要去https://w…

如何利用python调ip查询接口?

首先在http://www.ip138.com/上注册一个帐号(过程省略) 点击IP查询 token就是key了,还有其它的调用方法,这里只讲token这种调用 注册后好像免费只能查1000次(有需要可以自己买,貌似不贵) 有了这个key就可以调用接口了,代码如下…

python3--数据可视化-破解IP查询接口 将6万个IP地址可视化展示(附源码)

文章目录 一.准备工作二.思路1.整体思路2.爬虫思路3.爬虫实现 三.效果展示1.数据库2.IP地址分类分析-饼图3.IP地址分布可视化-地图4.IP地址分布分析-饼图5.IP地址分布可视化-条形图6.IP地址运营商占比分析-饼图7.IP地址运营商占比可视化-条形…

前端获取用户IP (IP查询API接口)

找了好久好像大多数免费的能前端获取用户IP的API都用不了. let xhr new XMLHttpRequest();xhr.open(GET, https://ip.useragentinfo.com/json);xhr.responseType json;xhr.send();xhr.onreadystatechange function() {if (xhr.readyState 4) {let ipinfo xhr.response;con…

查询IP归属地的接口

查询IP归属地的接口 1.淘宝: http://ip.taobao.com/service/getIpInfo.php?ip 请求接口(GET): http://ip.taobao.com/service/getIpInfo.php?ip[ip地址字串] 响应信息: (json格式的)国家…

几个免费好用的IP查询接口

在开发 IPinfo 之前xiaoz曾不断寻找免费好用的IP查询接口,目前IPinfo也基本完成,将收集到的IP查询接口整理分享出来,希望对开发人员有所帮助。 纯真IP 纯真官网 http://www.cz88.net/ 有提供IP数据库下载,可作为离线版本使用&…