统计学——独立性与相关性检验

article/2025/8/18 23:57:10

统计学(第6版) 贾俊平 读书笔记

第9章 分类数据分析

9.1 分类数据与χ2统计量

统计数据的类型有分类数据、顺序数据和数值型数据。分类数据是对事物进行分类的结果。例如在泰坦尼克号海难的例子中,船上共2208人,其中男性1738人,女性470人。这里,性别是分类变量,有两个类别:男性和女性,男性和女性的人数都是事件结果,以频数的方式表现。χ2检验是对分类数据的频数进行分析的统计方法。

χ2可以用于测定两个分类变量之间的相关程度。若用fo表示观察值频数,用fe表示期望值频数,则χ2统计量可以写为:
在这里插入图片描述
χ2统计量有如下特征:首先,χ2 ≥ 0,因为它是对平房结果的汇总;其次,χ2统计量的分布与自由度有关;最后,χ2统计量描述了观察值与期望值的接近程度。两者越接近,计算出的χ2越小。χ2检验真是通过对χ2的计算结果与χ2分布中的临界值进行比较,做出是否拒绝原假设的统计决策。
卡方分布形状与自由度的关系
自由度越小,分布就越向左倾斜,随着自由度的增加,χ2分布的倾斜程度趋于缓解,χ2分布将趋近于对称的正态分布。利用χ2统计量,可以对分类数据进行拟合优度检验和独立性检验。

9.2 拟合优度检验

拟合优度检验是根据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到对分类变量进行分析的目的。

例题:
1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有2208人,其中男性1738人,女性470人。海难发生后,幸存者共718人,其中男性374人,女性344人,以α = 0.1的显著水平检验存活状况与性别是否有关。
解: 在本例中需要判断观察频数与期望频数是否一致。
H0:观察频数与期望频数一致
H1:观察频数与期望频数不一致
根据卡方检验公式进行计算:

  1. fo1 = 374,fe1 = 1738*(718/2208) = 565
  2. (fo1 - fe1)2/fe1 = 64.6
  3. fo2 = 344,fe2 = 470*(718/2208) = 153
  4. (fo2 - fe2)2/fe2 = 238.4
    χ2 = ∑ (fo - fe)2/fe = 303

自由度计算公式为df = R - 1,R为分类变量的个数。df = 2-1=1,经查 χ2分布表, χ0.12(1) = 2.706,括号中的数字表示自由度。因为 χ2远大于χ0.12,故拒绝H0,接受H1,说明存活状况与性别显著相关。

9.3 列联分析:独立性检验

拟合优度检验是对一个分类变量的检验有时我们会遇到两个以上分类变量的问题。对于两个分类变量的分析,称为独立性检验,分析过程可以通过列联表的方式呈现。

列联表是由两个以上的变量进行交叉分类的频数分布表。由于列联表中的每个变量都可以有两个以上的类别,可以将横向变量(行)的划分类别视为R,纵向变量(列)的划分类别视为C,则可以把每一个具体的列联表称为R*C列联表。

独立性检验就是分析列联表中行变量和列变量是否相互独立。
在独立性检验中,可以采用下式计算任何一个单元中频数的期望值:
fe = ( RT / n ) * ( CT / n ) * n = RT * CT / n
式中,fe为给定单元中的频数期望值;RT为给定单元所在行的合计,CT为给定单元所在列的合计;n为观察值的总个数,即样本量。 χ2计算公式同9.1。 χ2的自由度 = (R - 1) * (C - 1)

9.4 列联表中的相关测量

φ相关系数是描述2*2列联表数据相关程度最常用的一种相关系数。它的计算公式为:
φ相关系数
式中,χ2是按卡方公式计算出的值,n为列联表中的总频数,也即样本量。计算出的φ系数可以控制在0~1这个范围。

列相关系数又称列联系数,简称c系数,主要用于大于22列联表的情况。c系数的计算公式为:
列相关系数
当列联表中的两个变量相互独立时,系数c = 0,但它不可能大于1。c系数的特点是,其可能的最大值依赖于列联表的行数和列数,且随着R和C的增大而增大。
V相关系数
克莱默提出了V相关系数,其计算公式为:
V相关系数
它的计算也是以
χ*2值为基础,式中的min[(R-1),(C-1)]表示取(R-1),(C-1)中较小的一个。当两个变量完全相关时,V=1;当两个变量相互独立时,V=0。

分析原料的质量是否与生产地有关,将500件随机抽取的产品按质量和产地构造列联表如下:
原料抽样
fe = ( RT / n ) * ( CT / n ) * n = RT * CT / n
χ2 = ∑ (fo - fe)2/fe = 19.82
n = 500, min[(R-1),(C-1)] = 3-1=2
φ = sqrt(19.82/500) = 0.199
c = sqrt(19.82/(19.82+500)) = 0.195
V = sqrt(19.82/(500*2)) = 0.141
三种列联表系数的值都较小,因此综合起来可以认为,虽然检验表明原料的等级和地区有一定关系,但这种关系的密切程度不太高。

χ2分布进行独立性检验,要求样本量必须足够大,特别是每个单元中的期望频数不能过小,否则会造成对χ2的高估,从而导致不适当地拒绝H0的结论,处理的方法是将较小的fe合并。

第10章 方差分析

方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否具有显著影响。
在方差分析中,所要检验的对象称为因素因子。因素的不同表现称为水平处理。每个因子水平下得到的样本数据称为观测值

进行方差分析时,需要考虑数据误差的来源。数据的误差是用平方和来表示的。反映全部数据误差大小的平方和称为总平方和(SST),它反映了全部观测值的离散状况;反映组内误差大小的平方和称为组内平方和(SSE),也称为误差平方和或残差平方和,它反映了每个样本内各观测值的离散状况;反映组间误差大小的平方和称为组间平方和(SSA),它反映了样本均值之间的差异程度。

方差分析步骤

  1. 提出假设
    在方差分析中,原假设所描述的是按照自变量的取值分成的类中,因变量的均值相等。因此,检验因素的k个水平(总体)的均值是否相等,需提出如下形式的假设:
    H0:μ1 = μ2 = … = μk 自变量对因变量没有显著影响
    H1:μi不全相等( i = 1,2,…,k ) 自变量对因变量有显著影响
  2. 构造检验的统计量
    (1) 计算各样本的均值
    (2) 计算全部观测值的总均值
    (3) 计算各误差平方和
    SST
    SSA
    SSE
    (4) 计算统计量
    由于各误差平方和的大小与观测值的多少有关,为了消除观测值多少对误差平方和大小的影响,需要将其平均,也就是用各平方和除以它们所对应的自由度,这一结果称为均方。三个平方和所对应的自由度分别为:
    SST的自由度为n-1,其中n为全部观测值的个数;
    SSA的自由度为k-1,其中k为因素水平(总体)的个数;
    SSE的自由度为n-k。
    SSA的均方也称为组间均方组间方差,记为MSA:MSA = SSA / ( k-1 )
    SSE的均方也称为组内均方组内方差,记为MSE:MSE = SSE / ( n-k )
    将上述MSA和MSE进行对比,即得到所需要的检验统计量F。当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为n-k的F分布,即:
    F分布计算公式
  3. 统计决策
    将统计量的值F与给定的显著性水平α的临界值Fα进行比较,在F分布表中查找与分子自由度df1 = k - 1、分母自由度df2 = n - k相应的临界值 Fα(df1, df2)。
    若F > Fα,则拒绝原假设H0,表明各组均值之间的差异是显著的;若F < Fα,则不拒绝原假设。

关系强度的测量

在判断自变量和因变量之间关系强度的大小时,可以用组间平方和(SSA)占总平方和(SST)的比例大小来反映,这一比例记为R2
r方计算公式
其平方根R就可以用来测量两个变量之间的关系强度。


http://chatgpt.dhexx.cn/article/ZLjCckyj.shtml

相关文章

独立性检验

本文给出基于两种统计量的假设检验&#xff0c;来检验变量间是否独立--χ2与秩和。χ2越小说明越独立。你可能会参考另一篇博客相关性检验。 假设检验 假设检验&#xff08;Test of Hypothesis&#xff09;又称为显著性检验&#xff08;Test of Ststistical Significance&#…

独立性和条件独立性测试方法

独立性和条件独立性测试方法[1] 独立和条件独立定义&#xff1a;两个变量X, Z是独立的&#xff0c;其中P(Zz)>0,有&#xff1a; ​ P ( X x , Z z ) P ( X x ) P ( Z z ) P(Xx, Zz)P(Xx)P(Zz) P(Xx,Zz)P(Xx)P(Zz) 给定变量集合S&#xff0c;X和Z条件独立&#xff0…

独立性检验的基本思想和初步应用

独立性检验的基本思想和初步应用 问题&#xff1a;数学家克里斯提娜每天从一家面包店买一块1000g的面包&#xff0c;并记录下买回的面包的实际质量&#xff0c;一年后这位数学家发现&#xff0c;所记录数据的均值为950个&#xff0c;于是克里斯提娜推断这家秒宝典的面包分量不足…

卡方独立性检验|卡方拟合性检验

目录 1.独立性检验 2.卡方拟合性检验 3.自定义卡方检验 4.P值是什么 5.原假设/备择假设 1.独立性检验 “独立性检验”验证从两个变量抽出的配对观察值组是否互相独立&#xff08;例如&#xff1a;每次都从A国和B国各抽一个人&#xff0c;看他们的反应是否与国籍无关&…

[18调剂]中科院信工所·哈工程联合实验室2018年招收硕士生

点击文末的阅读原文或者公众号界面左下角的调剂信息是计算机/软件等专业的所有调剂信息集合&#xff0c;会一直更新的。 “中科院信工所 哈工程联合实验室”由信工所和哈工程于2017年3月共同围绕国家信息安全重大战略需求而组建&#xff0c;7月8日正式揭牌&#xff08;http://…

信工所复试收集材料分享

文章目录 面试问题汇总一室&#xff1a;二室三室五室 英语面试汇总综合面试汇总常见综合问题【前沿知识】 面试问题汇总 http://www.cskaoyan.com/forum.php?modviewthread&tid654445&fromuid443063 栈和堆的区别&#xff1f;&#xff1a; 1、栈由编译器自动分配释放…

中科院信工所 考研面试经验贴

转载于王道论坛&#xff0c;原文作者为&#xff1a;kxkxssz 点击原文链接&#xff0c;可进入原帖。 我们是23号面试的&#xff0c;由于这次本人的分数卡着复试线进的&#xff0c;本着要作死就往大了作的态度&#xff0c;报了个人觉得胜算最小的六室。接下来是我们的流程1.体检&…

2019年中科院信工所夏令营考核内容

二室考核分四项 心理素质测试 专业笔试 英语面试 专业面试 心理素质测试 专业笔试 45min&#xff0c;至少分了3套卷&#xff0c;10个选择题&#xff0c;是专业课知识&#xff0c;数据结构、计算机网络为主&#xff0c;没有数学&#xff1a;给出前序和中序遍历&#xff0c;求后…

信工所复试(专业面)

原文请戳2022年中科院信工所二室考研杂记__Melody&#xff5e;的博客-CSDN博客 一&#xff0c;408复习&#xff1a; 一&#xff09;计算机网络 &#xff08;见专题文章计算机网络专题__Melody&#xff5e;的博客-CSDN博客&#xff09; 二&#xff09;数据结构 1&#xff0c…

2020保研夏令营之路——武大网安、北理计算机、中科院信工所六室

2020年夏令营就这么毫无体验感地开始了。。。各个学校都变成了线上面试。不过依照往年的面经来说&#xff0c;基本没有什么变化。鉴于我本人比较菜&#xff0c;只有成绩拿得出手的那种&#xff0c;所以跟我有同样情况的学弟学妹们可以找我交流交流&#xff01; 本人情况&#…

保研夏令营记录-上交清华深研院北大信工中科院自动化所

保研夏令营记录 个人基本情况前期准备上海交通大学 &#xff08;6月1号&#xff09;清华深研院&#xff08;7月5日-10日&#xff09;北大信工(7月10日-7月13日)中科院自动化所&#xff08;7月15日-7月19日&#xff09;关于九推 注&#xff1a;此帖所涉及的夏令营全部没有机试&a…

【中科院信工所】-2021考研经验-记录一段每天都在思考如何学习的日子

今天出了录取名单&#xff0c;二战上岸&#xff0c;突然觉得综艺&#xff0c;B站都好没意思&#xff0c;也不知道该干什么&#xff0c;索性记录一下备考的这段日子&#xff0c;碎碎念可能会很多&#xff0c;想看干货可以直接点标题阅读。 目录 基本情况 初试备考 数学一&#x…

【大咖说Ⅱ】中科院信工所研究员林政:大规模预训练语言模型压缩技术

欢迎来到2022 CCF BDCI大咖说系列专题报告 听顶级专家学者围绕特定技术领域或选题&#xff0c;讲述自身成果的研究价值与实际应用价值 便于广大技术发烧友、大赛参赛者吸收学术知识&#xff0c;强化深度学习 每周一、三、五&#xff0c;「大咖说」与你相约“一碗数据汤”~ 本…

2020中科院信工所夏令营面试

中科院信工所夏令营招了很多人&#xff08;二室进群的有73个&#xff0c;大群好像二三百人&#xff09;&#xff0c;注重项目能力&#xff0c;获得重大奖项。 流程是&#xff1a;先在系统上报名->有人给你打电话&#xff0c;说让你来面试&#xff08;我的是二室&#xff09…

活动报名 | 中科院信工所陈恺:人工智能安全攻防对抗

活动议程 日期&#xff1a;2月24日&#xff08;周五&#xff09; 时间 主题10:00-10:05开场简介孟国柱 中国科学院信息工程研究所信息安全国家重点实验室副研究员&#xff0c;青源会会员10:05-10:50人工智能安全攻防对抗陈恺 中国科学院信息工程研究所研究员&#xff0c;中国科…

2021网安保研之路-----中科院信工所

2021保研之路-----中科院信工所 个人情况信工所情况介绍夏令营流程 个人情况 西安某211的2018级本科生&#xff0c;本科专业是网络空间安全&#xff0c;当时是被调剂的这个专业。到大三保研的时候才觉得网安专业保研还比较轻松&#xff0c;相对于计算机科学啥的轻松多了&#…

2019年中科院信工所复试经验帖

总述&#xff1a; 今天是4月1日愚人节&#xff0c;距离复试结束已经3天了&#xff0c;很幸运收到了信工所拟录取通知。复试成绩83.74分。因为复试刚刚结束&#xff0c;趁着自己还没忘&#xff0c;想记录一些复试经验&#xff0c;给师弟师妹们考研复试做为参考。我一志愿报的二室…

【中科院信工所】22考研经验分享

2022年4月7日&#xff0c;随着信工所拟录取的名单公布&#xff0c;我长达十四个月的考研征程终于画上了圆满的句号。回首看这一年多的征程&#xff0c;发现有很多想复盘的地方&#xff0c;在这里写出来&#xff0c;可供同行者浏览&#xff0c;后来者借鉴&#xff0c;以及多年后…

褒贬不一,中科院信工所是否值得报考?

写在前面 近年来&#xff0c;中科院发展迅猛&#xff0c;报名人数逐年增加。多数保研er对中科院了解可能仅限于中国科学院大学这所“双一流”高校&#xff0c;对中科院的诸多研究院所不甚了解&#xff0c;信息工程研究所作为中科院研究所的一员&#xff0c;近几年发展迅速&…

清北级别,补助丰厚,这样的中科院信工所你心动了吗?

1、院校介绍 中国科学院信息工程研究所是2011年批准成立的中国科学院直属科研机构。目前拥有信息安全国家重点实验室、信息内容安全技术国家工程实验室等一批国家级和省部级的科研创新平台。主要研究方向包括&#xff1a;密码理论与安全协议、信息智能处理、数据安全、通信与电…