16种常用的数据分析方法-判别分析

article/2025/9/17 19:29:01

 

判别分析又称为线性判别分析(Linear Discriminant Analysis)。产生于20世纪30年代,是利用已知类别的样本建立判别模型,为未知类别的样本判别的一种统计方法。

判别分析方法目的与特点

目的

判别分析的目的是对已知分类的数据建立由数值指标构成的分类规则,然后把这样的 规则应用到未知分类的样本去分类。

例如,我们有了患胃炎的病人和健康人的一些化验指标 ,就可以从这些化验指标发现两类人的区别,把这种区别表示为一个判别公式,然后对怀疑 患胃炎的人就可以根据其化验指标用判别公式诊断。

特点

因此,判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。

当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。

判别分析按照判别的组数来区分,可以分为两组判别分析和多组判别分析。

原理说明

判别分析时,通常需要将数据分为两部分。一部分是训练模型数据,一部分是验证模型数据。

首先通过训练集数据训练拟合出一个模型。接着再利用另一部分验证模型效果。如果在测试集数据上,也表现良好,那么说明拟合模型非常好。

后面可以利用此模型用于预测其它“没有确定类别”的数据,来预测新数据的类别情况。

判别分析的方法

判别分析中,根据资料的性质,分为定性资料的判别分析和定量资料的判别分析;采用不同的判别准则,又有费歇、贝叶斯、距离等判别方法。

费歇(FISHER)判别思想是投影,使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。

对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。

贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。

所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度;所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。

距离判别思想是根据各样品与各母体之间的距离远近作出判别。即根据资料建立关于各母体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各母体之间的距离值,判样品属于距离值最小的那个母体。

判别分析经典案例

本案例是判别分析鼻祖Fisher当年对鸢尾花观测的分析数据。

其中蓝色箭头表示的量相当于分类变量,含有三个水平,分别为1、2、3,代表刚毛鸢尾花、变色鸢尾花和弗吉尼亚鸢尾花。

红框中的四个变量是测量变量,为数值型变量,分别表示花萼长、宽和花瓣长、宽。

我们的目的是通过这四个数值型变量,对未知的鸢毛花各类进行判别。

要注意的是,在判别分析中,输入型变量必须是数值型的,而输出变量必须是分类型的。

操作步骤

在Spss中打开“分析”—“分类”—“判别”,将分类型的输出变量拖入到“分组变量”中;将其余四个数值型输入变量拖入到。

Spss提供了“一起输入”和“步进方法”,用户可根据自己需求,是决定让所有输入变量一起参与判别函数的建构,还是先筛选再进入。

结果解读

点击确定后,Spss给出描述性统计分析结果,如下:


 

下面3图是对判别分析的进一步描述。

第一张表格:

表示了两个判别函数的特征根情况。表中只给出了两个判别函数,其中第一判别函数所携带的信息量远远大于第二判别函数,其所解释的组间方差也占绝大多数。

注意后面有一列为典型相关系数,这个系数表示了不同分组与第一、二判别函数的相关性,相关性越强,则组别在此维度上的差异越大;反之,则此组别在此维度上的差异越小。

第二张表格:

对两个函数的WiksLamdba检验。

结果显示两个判别函数均具有统计学上的意义,即Sig小于0.05.

第三张表格:

给出了标准化后的判别系数。其表示了不同的输入变量对第一、二判别函数的贡献率。

可以把第三张表格写成线性形式,要注意这是标准化后的判别系数,是没有常数项的。

下面2图是对判别分析的再进一步描述:

第一张表格:

结构矩阵表,此结构矩阵表示了不同的输入变量与第一、二判别函数的相关性。

通过图表可知,与第一判别函数相关性最强的是花瓣长,第二判别函数相关的是其余的三个输入变量。

结构矩阵和之前的标准化后的函数系数不一样,虽然它们的分布趋势一致,但一个可以直接写成标准化的第一、二差别函数,而一个只是表示这彼此间的相关性而已。

第二个表格:

显示了不同组别在第一、二判别函数构成的平面图上的分布重心。前面有用WilksLambda统计量对第一二函数进行检验,检验的就是这两个向量在各组得分是否相等。

第二张表格,我们得到了不同组别在二维图上的坐标,这样只要计算出了新数据的坐标,然后比较其与哪个组别中心点距离近,就可以判别其为哪个类别了。

如果不想使用Spss提供的标准化后的第一、二判别函数,可通过在设置面板的设置,得到如下图的,未标准化的第一二判别函数的系数。

使用此系数,可以计算出新的数据的坐标。


 

判别结果的图形化展示

Spss为判别分析提供了三种图形化展示方式。分别为:

↘领域图

↘单独分布图

↘联合分布图

下面介绍联合分布图。下图联合分布显示三个类别很显著地彼此区别开。

如果想预测新纪录,只需要输入相应位置,在联合分布图中会显示出新数据的位置,通过位置,我们就能差别新数据是哪一类别的。

判别效果验证

判别效果的验证解读是对原数据进行一次判别,然后把决的判别情况汇总起来。

适用条件判断

使用判别分析时,输入变量在各组间的均值必须是显著性差异,组间方差越大越好。

下表是对各输入变量在不同类别组的均值分布情况,从均值检验可知,各组间具有显著性差异。此为单因素方差分析的表格。


http://chatgpt.dhexx.cn/article/j1wbP02V.shtml

相关文章

SPSS(十六)SPSS之判别分析(图文+数据集)

SPSS(十六)SPSS之判别分析(图文数据集) 判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。 聚类分析与判别分析的区别与联系 都是…

HTML5清除浮动方式,多种方式CSS清除浮动

以下展示了四种方式进行清除浮动 先看一段代码 css .box { border: 1px solid #f00; } .fl { float: left; width: 50px; height: 50px; background: #0f0; margin: 5px; } html 下面是结果 效果展示 因为没有清除浮动,所以子元素没有将父元素撑开,出现上…

清除浮动的四种方式及其原理

前言: 什么是浮动,浮动给我们造成了什么困扰,我们该使用什么方式来解决它。下面会介绍到为什么要清除浮动以及清除浮动的四种方式。 目录: 前言:一、为什么要清除浮动二、清除浮动的第一种方式---给父级盒子添加高度三、清除浮动…

清除浮动的五种方法详解

前言:   在非IE浏览器(如Firefox)下,当容器的高度为auto,且容器的内容中有浮动(float为left或right)的元素,在这种情况下,容器的高度不能自动伸长以适应内容的高度&…

清除浮动的几种方法

浮动的布局比标准流高了半个层级,因此它并不占标准流下,如果子元素浮动了,父元素又没有设置高度,此时子元素无法撑开盒子,就如同下面这种情况 没加浮动之前 给son加上浮动之后 可以看到,父元素pink的颜色消…

BFC以及清除浮动四种方式

什么是BFC 先了解常见的三种定位方案: bfc是普通流: 可以将bfc看作是一个属性 2.如何触发bfc 1.根元素() 2.浮动元素(元素的float不是none) 3.绝对定位元素(元素的position为absolute 或 fixed) 4.display为inline-block、tabl…

html清除浮动有几种方法,HTML中清除浮动的几种方法

清除float的常见几种方式: 清除浮动方法(1)在浮动元素后面使用一个空的自身清除浮动的元素。 例如 实例:清除容器中子元素的浮动,让父元素塌陷的高度恢复。 CSS代码: .content{width:100px; border:1px dotted red; } .div-test{width:100px; height:100px; border:1px dot…

css清除浮动的几种方式

前言: CSS 的 Float(浮动),会使元素向左或向右移动,其周围的元素也会重新排列。 Float(浮动),往往是用于图像,但它在布局时一样非常有用。 css浮动 但是使用了 float …

清除浮动的4种方式

为什么要清除浮动? 清除浮动主要是为了解决,父元素因为子级元素浮动引起的内部高度为0的问题 如下: 给父盒子设置一个boder,内部放两个盒子一个big 一个small,未给big和small设置浮动,则他们会默认撑开父盒子。 当我给…

左联,右联和内联的区别(图示)

感谢midy! 转载于:https://www.cnblogs.com/0633shj/archive/2008/05/12/1193660.html

左联接、右联接、内联接、自然联接

前几日面试。面试小哥问我左联接、右联接是什么。一时语塞。好像根本没用到过,也就没在意过,一直都是简单的自然连接。 左联接:也叫左外联接。就是以左表为主,右表为辐,ON 后跟的条件对右表生效。结果中包含全部左表数…

SQL的左联,右联,内联的关系

相信很多人在刚开始使用数据库的INNER JOIN、LEFT JOIN和RIGHT JOIN时,都不太能明确区分和正确使用这三种JOIN操作,本文通过一个简单的例子通俗易懂的讲解这三者的区别,希望对大家能带来帮助。 首先,我们创建示例数据库和表。同时…

sql语句中内联左联右联的区别?

内联查询: inner join ... on ... ,不以谁为主,列出满足条件的查询结果集; 左联查询:left join .... on ... , 以昨表为主,列出满足条件的结果集; 右联查询:right join…

SQL内联、左联、右联、全联查询语法

概述:   联合查询效率较高,举例子来说明联合查询:内联inner join 、左联left outer join 、右联right outer join 、全联full outer join 的好处及用法。   联合查询效率较高,以下例子来说明联合查询(内联、左联、右联、全联…

mysql多表左联分组查询

在做项目的时候需要实现一个多表左联加分组查询的逻辑。 下图是前端要显示的数据: 数据来源于三张表: ETC表:cap_etc车辆表:cap_vehicleETC消费表:cap_etc_record 下图是后台的三张数据表: cap_etc: ca…

左联右联内联

left join (左连接):返回包括左表中的所有记录和右表中连接字段相等的记录。 right join (右连接):返回包括右表中的所有记录和左表中连接字段相等的记录。 inner join (等值连接或者叫内连接…

uniapp使用scroll-view实现菜单的左联右和右联左

左联右 <!-- 左 菜品分类--><view class"order-left"><scroll-view scroll-y"true" class"scroll-Hei" :scroll-with-animation"true" :enhanced"true":show-scrollbar"false"><block v-fo…

join操作-内联,左外联,右外联,交叉联,全联

在数据库中新建三张表格&#xff1a; T1 T2 T3 普通查询&#xff1a; select * from T1, T3 where T1.user_id T3.user_id 结果&#xff1a; --------------------------------------------------------------- join就是把两张表格等效当做一张表来查 内联(inner join)&a…

mysql的左联、右联、内联查询

内联查询&#xff1a;where会作用到两张表 左联查询&#xff1a;where作用在右表&#xff0c;左表全部数据都会被检索出来&#xff0c;右表只有满足where里面条件的才会被检索出来 右联查询&#xff1a;where作用在左表&#xff0c;右表全部数据都会被检索出来&#xff0c;左表…

SQL关联查询(左联,右联,内联,外联,自关联)

在使用数据库查询语句时&#xff0c;单表的查询有时候不能满足项目的业务需求&#xff0c;在项目开发过程中&#xff0c;有很多需求都是要涉及到多表的连接查询&#xff0c;总结一下mysql中的多表关联查询 一&#xff0c;内连接查询 是指所有查询出的结果都是能够在连接的表中…