分类器的相关概念

article/2025/9/28 6:18:26
昨天,@人民网 发了一条八卦微博,盘点“雨神”(@萧敬腾)是如何炼成的。微博称,网友统计发现,在@萧敬腾 近年12次主要行程中,有10次他的“现身”让当地下起了雨,下雨的概率为83.3%。


图1

这里,网友相当于是做了一个人工数据挖掘,用术语表示,就是构造了如下一个分类器:

IF 萧敬腾有活动THEN当地下雨 ELSE 当地不下雨 END

该分类器预测老萧举办个唱或发售新专辑的城市会下雨的概率为83.3%。

借助老萧的神威,我们来总结下分类器的相关概念。
分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。分类器的构造和实施大体会经过以下几个步骤:
  • 选定样本(包含正样本和负样本),将所有样本分成训练样本和测试样本两部分。
  • 在训练样本上执行分类器算法,生成分类模型。
  • 在测试样本上执行分类模型,生成预测结果。
  • 根据预测结果,计算必要的评估指标,评估分类模型的性能。
以上的描述中已经提到了分类器所涉及的一些概念:训练样本、测试样本、正样本、负样本。此外,还有未涉及到的概念,如样本的特征变量和类标识变量,以及常见的评估工具、指标,包括混淆矩阵、准确率、覆盖率、命中率、ROC、AUC、Lift、Gain、K-S等。本文介绍评估指标中的准确率、覆盖率和命中率。

本文不涉及样本训练的过程,假定分类器已经存在,并且有下面的数据集作为测试样本:

图2

该测试样本集的前12条记录,就是雨神所到之处的降雨记录;后15条记录是随机选取的同一时期相关城市在老萧没有活动情况下的降雨记录。“萧敬腾是否有活动”是特征变量,1表示有活动,0表示无;“当地是否下雨”是类标识变量,1表示下雨,0表示无雨。由于我们的研究目标倾向于预测下雨的可能性,因此我们选定“当地是否下雨=1”的样本为正样本(图2中灰底的记录);相应的,“当地是否下雨=0”的样本为负样本。当我们考察的类标识变量是个二值变量时,通常我们会把感兴趣的那个取值对应的样本称作正样本,而另一个值对应的样本则称作负样本。比如在识别欺诈客户时,我们感兴趣的是这类客户是否被我们识别出来,这样我们会把欺诈客户作为正样本看待,而把正常客户当作负样本。

现在,我们把网友构造的分类器描述的规范一些:

IF萧敬腾是否有活动=1THEN 当地是否下雨=1 ELSE 当地是否下雨=0END

这个分类器在图2样本上的分类结果是:

图3

根据分类结果,我们可以计算出该分类器的混淆矩阵:

图4

所谓混淆矩阵(Confusion Matrix),是一种比较分类器分类结果和类标识变量实际值的矩阵,其中的每一行代表了分类器的分类结果,每一列则表示类标识变量的实际值。为方便说明,我们把图4的混淆矩阵扩充一下,计算每一行和每一列的和,见图5:

图5

在图5中,每一行的和为17、10,分别代表17个正样本和10个负样本;每一列的和为12、15,表示分类器判定出“当地是否下雨=1”的数量为12,“当地是否下雨=0”的数量为15。矩阵中包含4个元素,以第一行的两个元素10和7为例,它们表示在所有实际“当地是否下雨=1”的17条记录中,被分类器正确判定为“当地是否下雨=1”的数量为10,错误判定为“当地是否下雨=0”的记录数为7;也就是针对17条下雨记录,分类器准确判断了其中10条,误判了7条。再来看列元素的含义,第一列的两个元素10和2表示,在分类器判定出的12条“当地是否下雨=1”的记录中,10条为正确判断,2条为误判(实际没有下雨)。

根据混淆矩阵,我们可以计算一系列指标来评估分类器的性能。
(1)准确率
准确率是针对整个分类结果而言的,计算公式为:

准确率 = 正确预测的样本数 / 样本总数 * 100%

从图5我们可以算出:准确率 = (10+8) / 27 * 100% = 66.7%

与准确率相对应的是不常用的错误率,计算公式为:
错误率 = 错误预测的样本数 / 样本总数 * 100%
根据图5计算得:错误率 = (2+7) / 27 * 100% = 33.3%

可见,错误率 = 1 - 准确率。
分类器的第一目标往往是保证准确率,特别在你需要对识别出来的记录做一些敏感操作时。

(2)覆盖率
覆盖率是分别针对正负样本而言的,计算公式为:

正(负)样本覆盖率 = 正确预测的正(负)样本数 / 实际正(负)样本总数 * 100%

以图5为例,我们有:
正样本覆盖率 = 10 / 17 * 100% = 58.8%
负样本覆盖率 = 8 / 10 * 100% = 80%

在雨神这个case中,正样本覆盖率描述了,在17条下雨记录中,被分类器正确识别出来的比率。在商业实践中,有时候我们的目标是使分类结果具有较高的正样本覆盖率。比如在一次电子邮件营销中,我们欲针对具有某类特征的客户发送营销邮件,这个时候我们会要求模型尽可能把所有具有该特征的客户都识别出来。其副作用是,某些不具有我们所需特征的用户,也有较大的可能进入我们的Email发送列表,从而降低结果的准确率。但这影响似乎不大,非目标客户收到你的邮件他一笑置之便是,而你多发送几封邮件的边际成本也很低。

(3)命中率
命中率同样是针对正负样本而言的,刚好与针对行操作的覆盖率相对,命中率是在列上操作。计算公式为:

正(负)样本命中率 = 正确预测的正(负)样本数 / 预测出的正(负)样本总数 * 100%

在图5中,
正样本命中率 = 10 / 12 * 100% = 83.3%
负样本命中率 = 8 / 15 * 100% = 53.3%

命中率描述了,当你使用该分类器来做预测时,其预测正确的概率。在雨神case中,现在假设你根据萧敬腾到某个城市活动,来预测当地会下雨,那么你的预测“命中”的概率将会是83.3%。这样就是网友所说的“萧敬腾的现身让当地下雨的概率为83.3%”的含义。

分类器评估指标中的ROC、AUC、Lift、Gain和K-S等指标的介绍,已经超出了雨神case所能演示的范围。雨神也是有其局限性的,但不管怎样,求求老萧来趟杭州吧,都热了一个月了!

http://chatgpt.dhexx.cn/article/wtkTTmoS.shtml

相关文章

二类分类器构造多类分类器

from: http://tech.ddvip.com/2009-03/1238054080112304.html 从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外&#xf…

KNN分类器

1.1 KNN的主要研究内容 (1)分类器的基本原理及算法内容 (2)利用现有的公开数据集(鸢尾花)实现分类器分类 (3)利用某种评价标准对分类结果进行分析评判 1.2分类的定义…

机器学习学习笔记(三)之分类器

分类器: 输入数据,识别是什么类,可以拓展为更广泛的用途。 将特征数据化,作为判断的依据。 和regression有相似的地方,但也有很大区别,把最好不把classification当作regression做 对于有多个分组的如cla…

分类器

分类器的作用:常规任务是利用给定的类别、已知的训练数据来学习分类规则和分类器,然后对未知数据进行分类(或预测)。逻辑回归(logistics)、SVM等常用于解决二分类问题,对于多分类问题&#xff0…

机器学习-分类-线性分类器

在一个机器学习任务中,如果每一条数据的目标值是离散的,则该任务是一个分类任务。 解决分类问题基本的方法有:线性分类器、决策树、朴素贝叶斯、人工神经网络、K近邻(KNN)、支持向量机(SVM)&am…

加密芯片大对比

市面上加密芯片,让人看的眼花缭乱,本文对各家加密芯片作了分析及对比 https://files.cnblogs.com/files/walta99/%E5%8A%A0%E5%AF%86%E8%8A%AF%E7%89%87%E5%A4%A7%E5%AF%B9%E6%AF%94.pdf 转载于:https://www.cnblogs.com/walta99/p/8484469.html

硬件加密芯片

TF32A09 芯片简介 产品描述 TF32A09系列芯片是同方股份有 限公司计算机系统本部自主研发的一 款高速度、高性能32位信息安全SoC 芯片。该芯片集成了高速的安全算法 和通讯接口,摒弃了传统的数据加解 密处理方式,使数据流加解密速度大 幅提升&#x…

芯片程序保护-常规芯片加密方式

芯片程序为什么要保护 针对于市场上越来越多的芯片解密方案的成熟和扩大,目前很对客户存在一个对于自己的产品会被同行或者其他竞争者抄袭的情况,对于硬件这块通常情况下是无法防止被抄的。但对于电路板的核心芯片和程序部分,是存在一些方式…

ATSHA204A加密芯片攻略——使用篇

ATSHA204A加密芯片是ATMEL公司研发的一款高安全性的,功能丰富的加密IC,使用SHA-256算法进行加密操作,内置16*32字节的slot(EEPROM)可以存储用户数据和秘钥,唯一的9字节序列号用于区分其他芯片,还有512bits的OTP区用于保…

硬件加密芯片介绍

同方股份有限公司计算机系统本部自主研发的一款高速度、高性能32位信息安全S高速加密芯片TF32A09系列。该系列芯片集成了高速的安全算法和通讯接口,摒弃了传统的数据加解密处理方式,使数据流加解密速度大幅提升,适用于高速数据流加密。 TF32A…

STM32芯片加密的方法

stm32加密方法: flash加密 96位ID号加密 96位id号 id校验 反汇编 Id存到数组,程序执行之前与数组之中的ID比较,如果相同继续执行,不同则终止执行 加密步骤: ①设计一套加密算法,利用MCU内部的unique ID作…

加密芯片十大品牌对比

加密芯片十大品牌对比 各大品牌加密芯片厂商都为各自的加密芯片定了型号,用户在进行加密芯片的选型时,如果没有明确的参考依据,很难效率而准确的选取到合适的加密芯片。作者结合自身经验,为大家提供一些简单实用的加密芯片选型建…

芯片加密与解密技术方法

目录: 一、简介 二、硅芯片安全措施的演变 三、总结 ------------------------------------------------------------------------------------------------------------- 一、简介 IC集成电路在早期,除法律和经济外,几乎没有保护措施…

His系统简介、医院信息系统(Hospital Information System

医院信息系统(Hospital Information System)是利用计算机技术、网络及通讯技术、多媒体技术,快速、准确、有效地整合医院业务信息和管理信息,实现医院信息最大限度的采集、传输、存储,从而使医院内部资源最有效的利用和…

开源项目-his医院信息系统

哈喽,大家好,今天给大家带来的开源系统是-his医院信息系统 系统主要有收费管理,药房管理,医生工作站,基础信息,统计等模块 登录 角色管理 部门管理 药品类别 药品编码 药品库存 需求计划表

医院信息系统(HIS)的“一个都不能少”!

本文由Markdown语法编辑器编辑完成。 1. 《一个都不能少》 《一个都不能少》是1999年上映的一部剧情片,由张艺谋导演拍摄。该片使用一班非专业演员制作一出像纪录片的电影,故事主题是关于农村、贫穷及文盲的问题。本片获得十项国际电影奖项,…

分享 | 医院常见的HIS、CIS、LIS、EMR、PACS、RIS都是指哪些系统?

随着医疗卫生体制改革,卫生系统的信息化建设步伐也进一步加快,医院信息系统已成医院必不可少的基础设施与技术环境。60年代初美国、日本、欧洲各国开始建立医院信息系统。到70年代已建成许多规模较大的医院信息系统。例如,瑞典首都斯德哥尔摩…

大型医院信息系统HIS源码 HIS系统全套源码

源码开发环境:VS2013sql2012 C/S架构 HIS主要模块介绍: 门急诊挂号:提供门诊号表处理,科室排班、退换号处理,门诊病人统计功能,门急诊挂号收费核算功能,支持医保、公费、自费等多种身份的病人…

医院HIS系统哪家好?

HIS系统哪家好?经常会有医院领导这样问,在回答这个问题前,我们需要先明确一个问题:好的标准是什么? 好的标准:好与不好实际上是一种心理感受,这种心理感受会包括很多方面,比如品牌好…

云医院HIS系统—医院挂号模块

基于JavaWEB技术的云医院HIS系统_挂号模块 基于JavaWEB技术的云医院HIS系统 1.首先要进行门诊挂号,在挂号处登记患者的基本信息、挂号级别、挂号科室及医生,患者缴费之后,打印挂号发票。挂号完成患者就可以到医生站接受看诊服务…