二类分类器构造多类分类器

article/2025/9/28 6:28:55

from: http://tech.ddvip.com/2009-03/1238054080112304.html

            从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。如何由两类分类器得到多类分类器,就是一个值得研究的问题。

  还以文本分类为例,现成的方法有很多,其中一种一劳永逸的方法,就是真的一次性考虑所有样本,并求解一个多目标函数的优化问题,一次性得到多个分类面,就像下图这样:

  多个超平面把空间划分为多个区域,每个区域对应一个类别,给一篇文章,看它落在哪个区域就知道了它的分类。

  看起来很美对不对?只可惜这种算法还基本停留在纸面上,因为一次性求解的方法计算量实在太大,大到无法实用的地步。

  稍稍退一步,我们就会想到所谓微笑“一类对其余”的方法,就是每次仍然解一个两类分类的问题。比如我们有5个类别,第一次就把类别1的样本定为正样本,其余2,3,4,5的样本合起来定为负样本,这样得到一个两类分类器,它能够指出一篇文章是还是不是第1类的;第二次我们把类别2 的样本定为正样本,把1,3,4,5的样本合起来定为负样本,得到一个分类器,如此下去,我们可以得到5个这样的两类分类器(总是和类别的数目一致)。到了有文章需要分类的时候,我们就拿着这篇文章挨个分类器的问:是属于你的么?是属于你的么?哪个分类器点头说是了,文章的类别就确定了。这种方法的好处是每个优化问题的规模比较小,而且分类的时候速度很快(只需要调用5个分类器就知道了结果)。但有时也会出现两种很尴尬的情况,例如拿一篇文章问了一圈,每一个分类器都说它是属于它那一类的,或者每一个分类器都说它不是它那一类的,前者叫分类重叠现象,后者叫不可分类现象。分类重叠倒还好办,随便选一个结果都不至于太离谱,或者看看这篇文章到各个超平面的距离,哪个远就判给哪个。不可分类现象就着实难办了,只能把它分给第6个类别了……更要命的是,本来各个类别的样本数目是差不多的,但“其余”的那一类样本数总是要数倍于正类(因为它是除正类以外其他类别的样本之和嘛),这就人为的造成了上一节所说的“数据集偏斜”问题。

  因此我们还得再退一步,还是解两类分类问题,还是每次选一个类的样本作正类样本,而负类样本则变成只选一个类(称为“一对一单挑”的方法,哦,不对,没有单挑,就是微笑“一对一”的方法,呵呵),这就避免了偏斜。因此过程就是算出这样一些分类器,第一个只回答“是第1类还是第2类”,第二个只回答“是第1类还是第3类”,第三个只回答“是第1类还是第4类”,如此下去,你也可以马上得出,这样的分类器应该有5 X 4/2=10个(通式是,如果有k个类别,则总的两类分类器数目为k(k-1)/2)。虽然分类器的数目多了,但是在训练阶段(也就是算出这些分类器的分类平面时)所用的总时间却比“一类对其余”方法少很多,在真正用来分类的时候,把一篇文章扔给所有分类器,第一个分类器会投票说它是“1”或者“2”,第二个会说它是“1”或者“3”,让每一个都投上自己的一票,最后统计票数,如果类别“1”得票最多,就判这篇文章属于第1类。这种方法显然也会有分类重叠的现象,但不会有不可分类现象,因为总不可能所有类别的票数都是0。看起来够好么?其实不然,想想分类一篇文章,我们调用了多少个分类器?10个,这还是类别数为5的时候,类别数如果是1000,要调用的分类器数目会上升至约500,000个(类别数的平方量级)。这如何是好?

  看来我们必须再退一步,在分类的时候下功夫,我们还是像一对一方法那样来训练,只是在对一篇文章进行分类之前,我们先按照下面图的样子来组织分类器(如你所见,这是一个有向无环图,因此这种方法也叫做DAG SVM)

 


http://chatgpt.dhexx.cn/article/Ll4NdNsF.shtml

相关文章

KNN分类器

1.1 KNN的主要研究内容 (1)分类器的基本原理及算法内容 (2)利用现有的公开数据集(鸢尾花)实现分类器分类 (3)利用某种评价标准对分类结果进行分析评判 1.2分类的定义…

机器学习学习笔记(三)之分类器

分类器: 输入数据,识别是什么类,可以拓展为更广泛的用途。 将特征数据化,作为判断的依据。 和regression有相似的地方,但也有很大区别,把最好不把classification当作regression做 对于有多个分组的如cla…

分类器

分类器的作用:常规任务是利用给定的类别、已知的训练数据来学习分类规则和分类器,然后对未知数据进行分类(或预测)。逻辑回归(logistics)、SVM等常用于解决二分类问题,对于多分类问题&#xff0…

机器学习-分类-线性分类器

在一个机器学习任务中,如果每一条数据的目标值是离散的,则该任务是一个分类任务。 解决分类问题基本的方法有:线性分类器、决策树、朴素贝叶斯、人工神经网络、K近邻(KNN)、支持向量机(SVM)&am…

加密芯片大对比

市面上加密芯片,让人看的眼花缭乱,本文对各家加密芯片作了分析及对比 https://files.cnblogs.com/files/walta99/%E5%8A%A0%E5%AF%86%E8%8A%AF%E7%89%87%E5%A4%A7%E5%AF%B9%E6%AF%94.pdf 转载于:https://www.cnblogs.com/walta99/p/8484469.html

硬件加密芯片

TF32A09 芯片简介 产品描述 TF32A09系列芯片是同方股份有 限公司计算机系统本部自主研发的一 款高速度、高性能32位信息安全SoC 芯片。该芯片集成了高速的安全算法 和通讯接口,摒弃了传统的数据加解 密处理方式,使数据流加解密速度大 幅提升&#x…

芯片程序保护-常规芯片加密方式

芯片程序为什么要保护 针对于市场上越来越多的芯片解密方案的成熟和扩大,目前很对客户存在一个对于自己的产品会被同行或者其他竞争者抄袭的情况,对于硬件这块通常情况下是无法防止被抄的。但对于电路板的核心芯片和程序部分,是存在一些方式…

ATSHA204A加密芯片攻略——使用篇

ATSHA204A加密芯片是ATMEL公司研发的一款高安全性的,功能丰富的加密IC,使用SHA-256算法进行加密操作,内置16*32字节的slot(EEPROM)可以存储用户数据和秘钥,唯一的9字节序列号用于区分其他芯片,还有512bits的OTP区用于保…

硬件加密芯片介绍

同方股份有限公司计算机系统本部自主研发的一款高速度、高性能32位信息安全S高速加密芯片TF32A09系列。该系列芯片集成了高速的安全算法和通讯接口,摒弃了传统的数据加解密处理方式,使数据流加解密速度大幅提升,适用于高速数据流加密。 TF32A…

STM32芯片加密的方法

stm32加密方法: flash加密 96位ID号加密 96位id号 id校验 反汇编 Id存到数组,程序执行之前与数组之中的ID比较,如果相同继续执行,不同则终止执行 加密步骤: ①设计一套加密算法,利用MCU内部的unique ID作…

加密芯片十大品牌对比

加密芯片十大品牌对比 各大品牌加密芯片厂商都为各自的加密芯片定了型号,用户在进行加密芯片的选型时,如果没有明确的参考依据,很难效率而准确的选取到合适的加密芯片。作者结合自身经验,为大家提供一些简单实用的加密芯片选型建…

芯片加密与解密技术方法

目录: 一、简介 二、硅芯片安全措施的演变 三、总结 ------------------------------------------------------------------------------------------------------------- 一、简介 IC集成电路在早期,除法律和经济外,几乎没有保护措施…

His系统简介、医院信息系统(Hospital Information System

医院信息系统(Hospital Information System)是利用计算机技术、网络及通讯技术、多媒体技术,快速、准确、有效地整合医院业务信息和管理信息,实现医院信息最大限度的采集、传输、存储,从而使医院内部资源最有效的利用和…

开源项目-his医院信息系统

哈喽,大家好,今天给大家带来的开源系统是-his医院信息系统 系统主要有收费管理,药房管理,医生工作站,基础信息,统计等模块 登录 角色管理 部门管理 药品类别 药品编码 药品库存 需求计划表

医院信息系统(HIS)的“一个都不能少”!

本文由Markdown语法编辑器编辑完成。 1. 《一个都不能少》 《一个都不能少》是1999年上映的一部剧情片,由张艺谋导演拍摄。该片使用一班非专业演员制作一出像纪录片的电影,故事主题是关于农村、贫穷及文盲的问题。本片获得十项国际电影奖项,…

分享 | 医院常见的HIS、CIS、LIS、EMR、PACS、RIS都是指哪些系统?

随着医疗卫生体制改革,卫生系统的信息化建设步伐也进一步加快,医院信息系统已成医院必不可少的基础设施与技术环境。60年代初美国、日本、欧洲各国开始建立医院信息系统。到70年代已建成许多规模较大的医院信息系统。例如,瑞典首都斯德哥尔摩…

大型医院信息系统HIS源码 HIS系统全套源码

源码开发环境:VS2013sql2012 C/S架构 HIS主要模块介绍: 门急诊挂号:提供门诊号表处理,科室排班、退换号处理,门诊病人统计功能,门急诊挂号收费核算功能,支持医保、公费、自费等多种身份的病人…

医院HIS系统哪家好?

HIS系统哪家好?经常会有医院领导这样问,在回答这个问题前,我们需要先明确一个问题:好的标准是什么? 好的标准:好与不好实际上是一种心理感受,这种心理感受会包括很多方面,比如品牌好…

云医院HIS系统—医院挂号模块

基于JavaWEB技术的云医院HIS系统_挂号模块 基于JavaWEB技术的云医院HIS系统 1.首先要进行门诊挂号,在挂号处登记患者的基本信息、挂号级别、挂号科室及医生,患者缴费之后,打印挂号发票。挂号完成患者就可以到医生站接受看诊服务…

云HIS(二级医院,乡镇医院,民营医院,标准化HIS医院信息管理系统源码)

传统 HIS(基于医院信息系统) 和云 HIS(基于云计算的医院信息系统)各有优缺点,选择哪种系统需要根据具体情况进行权衡。 传统 HIS 系统通常由医院自行开发和维护,适用于医院内部信息化程度较高、数据安全性…