数据分析之卡方检验

article/2025/9/29 19:24:23

1、卡方检验定义

卡方检验,是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

是一种非参数检验方法。它的原假设H0 为:观察频数与期望频数没有显著性差异。

其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

卡方检验分为拟合度的卡方检验和卡方独立性检验。

在大数据运营场景中,通常用在某个变量(或特征)值是不是和因变量有显著关系。

通俗来讲:卡方检验就是检验两个变量之间有没有关系,
例如:

  • 卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别;
  • 不同城市级别的消费者对买SUV车有没有什么区别;

2、卡方检验用途

  1. 检验某个连续变量的分布是否与某种理论分布相一致。例如是否符合正态分布,均匀分布,Poisson(泊松)分布

  2. 检验某个分类变量的各类的概率是否等于指定概率

  3. 检验某两个分类变量是否 相互独立

  4. 检测两种方法的检测结果是否一致

  5. 检测控制某种或某几种的变量后,另外两个分类变量是否相互独立。

卡方检验的一个典型应用场景是衡量特定条件下的分布是否与理论分布一致,比如:特定用户某项指标的分布与大盘的分布是否差异很大,这时通过临界概率可以合理又科学的筛选异常用户。

另外,x2值描述了自变量与因变量之间的相关程度:x2值越大,相关程度也越大,所以很自然的可以利用x2值来做降维,保留相关程度大的变量。例如新闻分类的场景,如果我们希望获取和娱乐类别相关性最强的100个词,以后就按照标题是否包含这100个词来确定新闻是否归属于娱乐类,对娱乐类新闻标题所包含的每个词按上述步骤计算x2值,然后按x2值排序,取x2值最大的100个词。

3、案例

3.1 独立性检验

独立性检验评估的是,在一个列联表中,不成对的观测对象中的两个变量是不是相互独立的

案例一、想知道喝牛奶对感冒发病率有没有影响

在这里插入图片描述

喝牛奶组和不喝牛奶组的感冒率为30.94%和25.00%,两者的差别可能是抽样误差导致,也可能是 牛奶对感冒率真的有影响。

下面进行假设:假设喝牛奶对感冒发病率没有影响,即喝牛奶与感冒无关

所以感冒的发病率实际是(43+28)/(43+28+96+84)=28.29%
所以可以得到理论的表格
在这里插入图片描述

如果说真的没有影响的话 表格中理论值和实际值差别应该会很小。

卡方检验的计算公式
在这里插入图片描述

其中:Ai 为单元格i中的观察值,pi为单元格i中的在H0假设前提下的概率,k为单元格数 ​ X^2值的意义:衡量理论与实际的差异程度。

经过计算可以计算得到 X^2=1.077

H0假设拒绝与接受
根据得到的χ2 值,还并不能直接到的p-value。因为卡方分布根据其自由度有所不同,如下图所示:
在这里插入图片描述
卡方分布的概率密度函数如下:
在这里插入图片描述
其中k为自由度。

所以,首先需要计算所研究样本的自由度
在这里插入图片描述
其中R为单元格的行数,C为单元格的列数。
上述例子中,自由度k = ( 2 − 1 ) ( 2 − 1 ) = 1;【即自由度 = (行数-1)*(列数-1)】

根据所给定的自由度k以及χ2值,即可计算p-value

对于得到的p-value,与自己指定的显著性水平作比较(通常将0.05作为显著性水平),如果得到的p-value小于0.05,那我们认为样本所表现出来的结果是小概率事件,则我们有理由拒绝原假设H0;否则,我们需要接受原假设H0
在这里插入图片描述
参考:统计分布临界值表

我们看到,χ2分布在自由度k = 1,p=0.05时的取值为3.84。我们得到的χ2值1.077,小于3.84,且接近于p = 0.3时的χ2值1.07,故不能拒绝原假设H0 ,即喝牛奶对感冒发病率没有影响(即喝牛奶与感冒无关)

案例一 参考链接:卡方检验(详解)

3.2 适合度检验

适合度检验展示了一个观察到的频率分布是否与一个理论分布不同。

案例二 投掷筛子

下表为投掷120次六面骰子的实际观察值:

在这里插入图片描述

3.2.1 期望值

我们知道,在正常情况下,掷骰子服从二项分布X ∼ B ( n , p ) 其数学期望E [ X ] = n p ,方差为Var[ X ] = np( 1 − p ) 。

在进行适合度检验时,我们的原假设H0为观察到的掷骰子结果符合理论上的二项分布(Binomial distribution)。那么,我们就能得到掷骰子的理论值如下表:
在这里插入图片描述

3.2.2 χ2 值计算

由公式可得

                                          χ2=2.3

3.2.3 自由度确定

对于适合度检验,自由度的计算按照以下公式:

                                          k=C−M

其中,C为我们观察到的类别数,此例中为6;M为我们要比较的理论分布的参数的个数,此例中为1;因此k = 5

3.2.4 H0假设接受与拒绝

统计量χ 2 =2.3 所对应的p-value大约为0.8,与显著性水平0.05相差甚远,故我们应该接受原假设H0.

参考链接:卡方检验 (Chi-square test / Chi-square goodness-of-fit test)

4、使用SPSS进行卡方检验

想研究性别和是否抽烟之间有没有关系,男性抽烟的比例有没有更高等,通过抽样调查得到如下数据:

在这里插入图片描述

1、SPSS操作步骤

(1)传入数据或输入数据

打开SPSS软件,上传如下图所示的数据格式文件,或者在SPSS软件中手动输入下图所示数据:
在这里插入图片描述
第一列存入行(性别)信息,其中1代表男,2代表女;

第二列存入列(是否吸烟)信息,其中1代表吸烟,2代表不吸烟;

第三列存入每一种情况所对应的数据(人数),如:是男性且吸烟的人数有51人。

(2)数据加权处理

在主页面点击【数据】-【加权个案】
在这里插入图片描述
弹出加权个案操作的对话框,选中【加权个案】
在这里插入图片描述
将【人数】变量拖入【频率变量】框中,点击【确定】。

在这里插入图片描述
这样就完成了数据加权处理,下一步可以做卡方检验了。

(3)卡方检验操作

点击【分析】-【描述统计】-【交叉表】
在这里插入图片描述
弹出交叉表操作对话框,按照下图的关系将三个变量放入对应的分析框中。
在这里插入图片描述
放好之后就是这个样子:
在这里插入图片描述
放好变量后,接着设置:点击【统计量】-在弹出的对话框中选中【卡方】,并选中名义栏中的【Phi和Gramer变量】-点击【继续】
在这里插入图片描述
此时回到交叉表对话框,点击【确定】得出分析结果。
在这里插入图片描述

(4)卡方检验结果

在这里插入图片描述
SPSS看输出的卡方检验结果,主要看卡方值和P值。
原假设H0为性别与抽烟之间没有关系,P值为0.017<0.05,拒绝原假设,即性别与抽烟之间存在关系。

5、SPSS中卡方检验的结果选择

卡方检验的校正非常重要,这是因为卡方检验是以期望频数和实测频数的差异大小为分析基础的,如果通过计算,发现某个单元格内的期望频数小于5,那么有很大的可能性是由于样本频数不足导致的,此时继续使用卡方统计量公式进行计算和分析就非常不可靠了

用SPSS输出一个四格表的卡方检验结果,可以发现,与其它类型的卡方检验相比,它的分析结果多了两个:连续型修正和Fisher确切概率。皮尔逊卡方值就是用上一篇介绍的卡方统计量计算的卡方值,而连续性修正和费舍尔精确检验则需要根据表格内的频数情况进行选择。假设总频数为n,单元格内的期望频数为E,那么选择规则如下:

  • 当n大于等于40,且E大于5时,看皮尔逊卡方值即可;
  • 当n大于等于40,且E小于5且大于1时,选择连续性修正值;
  • 当n小于40,或E小于1时,选择费舍尔精确检验结果;

1、Pearson卡方

卡方检验最基本的就是Pearson卡方
在这里插入图片描述
当总频数n大于等于40,且所有单元格内的期望频数E都大于等于5时,2*2四格表的卡方检验结果直接选择Pearson卡方值作为检验结果即可。但是,如果最终的Pearson卡方检验的检验概率值p与显著性水平α(0.1、0.05、0.01)非常接近时,应该选择Fisher精确检验值作为检验结果。

2、连续性修正

对于总频数n>=40,但单元格中有期望频数1=<E<5时,2*2四格表的卡方检验结果应该选择连续型修正的结果,进行修正的原因上面已经解释,这是由卡方检验原理及卡方分布性质决定的。连续型修正公式如下:

在这里插入图片描述
当然,这种频数情况也可以直接选择Fisher精确检验结果作为最终结果。

3、Fisher精确检验

当2*2四格表中,有单元格的期望频数E<1,或总频数n<40时,直接用Pearson卡方值作为检验结果就不够准确和灵敏了。原因其实很好理解,样本总频数n小于40,频数分布结果有很大的可能性不具有代表性;单元格内的期望频数小于1,这有可能是由于样本频数数据不够多而导致的小概率事件,并没有反应总体的频数分布情况。

Fisher精确检验能够解决上面这个问题。Fisher精确检验的理论分布不是卡方分布,而是超几何分布(可以到统计基础导航页找到相应文章回顾),是一种直接计算事件发生概率的检验方法。Fisher精确检验的分析逻辑是在四格表周边合计频数不变的条件下,利用超几何分布概率公式直接计算比实际频数分布情况更为极端情形发生的概率,下面用一个生活案例来说明Fisher精确检验的分析逻辑和过程。

为了解某新药联合常规药物治疗疾病的效果,将28例情况相似的患者随机分成两组:实验组采用新药+常规药物的治疗方案;对照组仅采用常规药物治疗;治疗10天后,根据疗效对28名患者进行分组,数据整理如下表:

在这里插入图片描述
可以发现,总频数只有28,而期望频数(括号内数据)小于5的单元格有两个,应该用Fisher精确检验来考察实验组和对照组在有效率上是否有显著性差异。

首先列出比实际频数分布情况更为极端的频数分布情况,然后用超几何分布的概率计算公式计算出每种频数分布情况的发生概率:

在这里插入图片描述
因为考察的是比实际频数分布更极端的情况,所以只对“无效”下方的两个单元格频数进行变化。在保持行和列合计频数不变的条件下,可以列出上面七种频数分布情况。用超几何分布的公式计算每种情况的发生概率,以前4种情况为例介绍结算过程:

在这里插入图片描述
将所有7种情况的概率相加,得到Fisher精确检验的双侧检验的概率值:
在这里插入图片描述
如果是单侧检验,检验的目的是证明实验组比对照组的有效率更好,那么只需将实验组好于对照组的情况概率相加,其概率值为:
在这里插入图片描述
无论是双侧还是单侧概率,Fisher精确检验的概率值都大于0.05,可以说明实验组和对照组的有效率是不一致的,且实验组的有效率优于对照组。

结果解释

下表是SPSS的卡方检验结果。可以发现,皮尔逊卡方值、连续性修正值和Fisher精确检验结果与上方手动计算的结果完全相同。可以发现三者的显著性都大于0.05,说明实验组和对照组的治疗效果是没有显著性差异的。
在这里插入图片描述
在这里插入图片描述
由此可见,多数情况下,皮尔逊卡方、连续性修正和Fisher精确检验的结果是相同的,这样的情况没有问题。如果三者的最终检验结果不同,那么应该根据上面介绍的选择条件选择合适的检验结果作为最终结果。本案例中,因为总频数小于40,而且有两个单元格的期望频数小于5,所以应该以Fisher精确检验的结果为准。

总结一下

2*2四格表,因为其特殊的结构和卡方分布的性质,所以SPSS的检验结果中会增加连续性修正和Fisher精确检验这两个校正项,大家需要根据实际数据的频数分布情况对它们进行选择。如果皮尔逊卡方、连续性修正和Fisher精确检验的结果一致,那么选择哪个结果都可以。但是,如果三种检验结果不同,那么需要按照前面介绍的条件进行选择,否则会得到错误的分析结论。对于四格表数据,如果分析因子(例如不同疗法)对事件(例如不同效果)的相关性,可以使用优势比OR值表示因子对事件的影响程度。

卡方检验适用于分类变量的频数分析。对于包含两个水平的两分类变量(例如男女),因为不涉及类别递增或递减信息,所以定类型和定序型的变量的卡方检验过程基本类似

对于多分类变量的卡方检验,区分到底是定类型分类变量还是定序型分类变量是非常必要的,因为定序型分类变量(例如:大一、大二、大三和大四)包含了水平间的递增或递减信息,如果依旧按照传统的卡方检验进行,这部分递进信息就会丧失,对于分析者来说是非常可惜的。因此,多分类变量的卡方检验,需要区分的情况是更多更复杂的。

卡方检验根据涉及变量的不同,可以分为单个分类变量的拟合优度检验和两个分类变量的卡方检验。拟合优度检验主要用于分析某个分类变量的频数分布是否服从某种概率分布形态;两个分类变量的卡方检验,根据分析目的的不同可以分为比率差异检验和构成比差异检验等等。下面介绍的就是两个多分类变量的卡方检验,称为行列表卡方检验,注意与2*2四格表卡方检验区分开来。

参考链接:
1、SPSS卡方检验详细操作和结果分析
2、如何学习和理解卡方检验?
3、卡方检验


http://chatgpt.dhexx.cn/article/fZ3URYCc.shtml

相关文章

高斯分布和卡方分布

高斯分布和卡方分布 高斯分布和卡方分布高斯分布1 单元高斯分布1.1 一维随机变量1.2 标准正太分布1.3 numpy中使用正太分布 2 多元高斯分布2.1 独立多元/维高斯分布2.2 举例-画2维独立不相关高斯图2.3 相关系数2.3 举例-画2维不独立相关高斯图 高斯分布和卡方分布 高斯分布 1…

卡方分布(Chi-Square Distribution)

1.卡方分布 在统计学中, 很多假设检验的检验统计量在原假设下服从卡方分布. 这种检验统计量服从卡方分布的假设检验适用于分类数据. Γ ( v 2 ) \Gamma(\frac{v}{2}) Γ(2v​)为伽马函数 检验此PDF的积分值是否为1&#xff1f; 自由度&#xff08;DoF&#xff09;的正式定义为…

卡方检验和卡方分布

什么是卡方检验 卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴&#xff0c;主要是比较两个及两个以上样本率( 构成比&#xff09;以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。 它在分类资料…

卡方分布分析与应用

卡方检验(chi-square&#xff0c;记为 χ2 检验)是统计学中常用来计数数据分析的方法&#xff0c;对于总体的分布不作任何假设&#xff0c;因此它属于非参数检验法中的一种。本博文从理论到实际应用去阐述卡方检验&#xff0c;最后用python语言去实现卡方分布的代码。 1. 卡方…

常见分布 的 数学期望以及方差公式

一、通用公式【数学期望】 1》求解数学期望 2》数学期望的性质 二、常用分布的期望与方差 1》精简版&#xff1a; 2》叨叨版&#xff1a;

期望、方差

一、期望和方差的定义 随机变量(Random Variable) X 是一个映射&#xff0c;把随机试验的结果与实数建立起了一一对应的关系。而期望与方差是随机变量的两个重要的数字特征。 1. 期望(Expectation, or expected value) 期望是度量一个随机变量取值的集中位置或平均水平的最基…

[考研数学]概率论难点总结:样本标准差,样本均值,均值的期望和方差,与t分布、卡方分布和F分布的关系及推导

首先需要清楚一件事情&#xff0c;样本均值为X拔(上面有个棍) 样本的均值是讲从总体中抽样&#xff0c;这些样本的均值&#xff0c;而均值是指所有样本的真实均值。 后面部分很好推导&#xff0c;将括号展开后&#xff0c;由三部分组成&#xff0c;中间的部分为2倍的样本和样本…

统计学——卡方检验和卡方分布

什么是卡方检验 卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴&#xff0c;主要是比较两个及两个以上样本率( 构成比&#xff09;以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。 它在分类资料…

卡方分布与卡方检验

1.卡方分布 卡方分布(chi-square distribution, χ2 χ 2 -distribution)是概率统计里常用的一种概率分布&#xff0c;也是统计推断里应用最广泛的概率分布之一&#xff0c;在假设检验与置信区间的计算中经常能见到卡方分布的身影。 我们先来看看卡方分布的定义&#xff1a;…

卡方分布

卡方分布是抽样分布的一种。抽样分布其实与概率论中的大数定律有密切的关系。当关注的对象的概率不可知,意味着只知道数据,不知道其内在规律;另一方面,关注的对象是可以分解成多种因素的组合时,就引入了抽样分布。抽样分布是描述从多个随机变量中抽取数据并且加以组合后,…

你还记得吗,超重要的3大抽样分布?

你还记得吗&#xff0c;超重要的3大抽样分布&#xff1f; 原创2022-07-03 21:07爱阅读 三大抽样统计分布是指卡方分布&#xff08;χ2分布&#xff09;&#xff0c;t分布和F分布&#xff0c;是来自正态总体的三个常用的分布。 1、卡方分布 卡方分布是指符合标准正态分布的样…

卡方分布、方差分析

卡方分布&#xff1a; 首先我们先把现代数学中的数理统计中的卡方分布已经烂大街的定义先放下来&#xff0c;我先回到卡方检验的诞生的之地。 在1900年&#xff0c;皮尔森发表了著名的关于卡方检验的文章&#xff0c;该文章被认为是现代统计学的基石之一。在该文章中&#…

SVN汉化包安装后,没有出现对应的语言选项问题解决(附SVN1.12.1汉化包下载地址)

检查SVN与汉化包的版本是否一致 1、查看tortoise SVN的版本 2、在SVN的安装目录下&#xff0c;将对应版本的汉化包拷过去 注意&#xff0c;保证Languages目录下的文件都已删掉 3、双击安装汉化包&#xff0c;安装完成时&#xff0c;在出现的最后一个页面中&#xff0c;选中Con…

TortoiseSVN安装中文语言包

TortoiseSVN安装中文语言包 1.TortoiseSVN 1.14.0下载地址 下载网址&#xff1a;https://tortoisesvn.net/downloads.zh.html 2.安装 直接下一步 3.下载中文安装包 找到安装目录 在桌面空白处右击TortoiseSVN设置

SVN安装语言包后无中文

给svn下载了个语言包&#xff0c;但是安装后无反应&#xff0c;重启了下还是无反应。 后来看了一下svn版本&#xff0c;是12的下载的语言包是11的。就重新下一个版本一样的试试。结果ok了 下载安装ok去选择即可&#xff0c;我的安装后自动就选择了。 版本选择地址https://osd…

SVN:下载、安装和中文设置

一、SVN 下载 步骤1&#xff1a;点击下方链接进入 SVN 下载网址 下载网址&#xff1a;https://tortoisesvn.net/downloads.html 步骤2&#xff1a;点击下载 TortoiseSVN 1.14.3-64-bit 步骤3&#xff1a;点击下载 中文语言包 步骤4&#xff1a;下载完成 二、SVN 安装 步骤1…

SVN 汉化(官网下载汉化包)

这是网址 Downloads TortoiseSVN 看好版本 下滑 点击后他可能反应慢不用管等待

解决SVN语言包安装后无法出现下拉框选择

前言&#xff1a; 今天终于有空研究下SVN为啥安装完语言包后无法出现中文下拉框的问题&#xff0c;直接在官网下载语言包安装后也无效。。 看了网上好多教程都是让你删Language目录再安装的&#xff0c;结果也布星。。折磨。。。 然后想了下&#xff0c;干脆去官网对着版本号…

TortoiseSVN 安装中文语言包,SVN中文语言包

SVN中TortoiseSVN 是比较出门的一款SVN软件 TortoiseSVN 是Subversion 版本控制系统的一个免费开源客户端。 由于TortoiseSVN 默认是英文的&#xff1b;所以很多小伙伴可能有压力&#xff1b;那么这次我们来介绍一下怎么样安装中文的语言包 工具/原料 能上网的windows电脑一台 …

svn中文包

本篇文章主要给大家介绍svn怎么设置中文即svn中文语言包的安装教程。 重点&#xff1a;首先看下自己的版本:右键tortois svn ,点击关于&#xff0c;开源查看自己的版本&#xff0c;然后选择对应版本下载中文包 在之前的文章中已经给大家介绍了如何安装svn工具&#xff0c;但是由…