独立性检验

article/2025/8/19 0:02:20

本文给出基于两种统计量的假设检验,来检验变量间是否独立--χ2与秩和。χ2越小说明越独立。你可能会参考另一篇博客相关性检验。

假设检验

假设检验(Test of Hypothesis)又称为显著性检验(Test of Ststistical Significance)。

在抽样研究中,由于样本所来自的总体其参数是未知的,只能根据样本统计量对其所来自总体的参数进行估计,如果要比较两个或几个总体的参数是否相同,也只能分别从这些总体中抽取样本,根据这些样本的统计量作出统计推断,籍此比较总体参数是否相同。由于存在抽样误差,总体参数与样本统计量并不恰好相同,因此判断两个或多个总体参数是否相同是一件很困难的事情。

 

基本的解决方法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t—检验法、χ2检验法、F—检验法,秩和检验等。

χ2独立性检

χ2检验是一种无参数的假设检验。

考虑这以一个问题:某地区有10000合法选民,现统计了男性和女性分别有多少人参加了投票。

 

		Men	Women
_____________________________ Voted 2792 3591 Didn't vote 1486 2131

问“性别”和“投票”是不是相互独立的?

下面就使用假设检验的方法解决这个问题。

我们假设H0:性别和投票相互独立。备选假设H1:性别与投票相关。

计算上表的行和与列和。

 OBSERVED TABLEMen	Women 	Total
_____________________________ |______
Voted		2792	3591  |	6383
Didn't vote	1486	2131  |	3617
_____________________________________
Total		4278	5722  |	10000

原始表中的数据用Aij表示,行和用A表示,列和用A·j表示,全部元素的和用A··表示。

投票的概率:

选民为男性的概率:

在H0下,我们认为投票与性别无关,所以男性参加投票的概率为:

这样可以算出男性投票的期望值:0.2731×10000=2731。于是就得到了下面这张“期望表”

	  EXPECTED TABLEMen	Women 	Total
_____________________________ |______
Voted		2731	3652  |	6383
Didn't vote	1547	2070  |	3617
_____________________________________
Total		4278	5722  |	10000

观察值与期望值的差值为误差。对于每一个观察值我们计算误差的平方与期望值的比值。

c11 = (2792-2731)^2/2731
c12 = (3591-3652)^2/3652
c21 = (1486-1547)^2/1547
c22 = (2131-2070)^2/2070

χ2=c11+c12+c21+c22=6.584283457

定义自由度为(rows-1)*(cols-1),在我们的例子中自由度为1。

查表:

Degrees offreedom	99%  ...	10%	5%	1%
_____________________________________________________
1		0.00016		2.71	3.84	6.64
2 		0.020		4.60	5.99	9.21

由于χ2介于3.84和6.64之间,所以P值介于5%和1%之间,也就是说我们接收假设H0的把握还不到5%,因此拒绝它。

最后给出CHI-Square独立检测的公式:

自由度,r表示行数,c表示列数

期望值,nr是行和,nc是列和,n是所有元素的和

统计量,Or,c是观察值

由(3)式可以推出,对于一个2×2的contigency table,χ2统计量可以由(4)式来计算。

 

 Variable 2

 

 Data type 1

 

 Data type 2

 

 Totals
 Category 1

 

 a

 

b

 

a + b
 Category 2

 

 c

 

d

 

c + d
 Total

 

a + c

 

b + d

 

a + b + c + d = N

基于χ2的特征项选择

既然χ2统计量可以独立性检验,从独立性检验的对立面来考虑,χ2统计量也可以用来作相关性的度量。χ2越小说明变量之间越独立,χ2越大说明变量之间越相关。

 文档类别CjCj的补集
词条wab
w的补集cd

a表示词条w在类别Cj中出现的频数;b表示词条w在Cj以外的其他类别中出现的频数;c表示除w以外的其他词条在Cj中出现的频数;d表示除w以外的其他词条在除Cj外的类别中出现的频数。

利用公式(4)计算每个词条对于每种分类的χ2统计量,记为χ2(w,Cj)。说明词条与分类正相关;说明词条与分类负相关。

则词条对整个语料库的记χ2值为

根据(5)式计算每个词条的平均χ2值,选最大的K个作为特征项。

秩和检验

秩和检验也是一种无参数的假设检验。它从两个未知分布的总体中独立、随机地抽取容量分别为n1、n2的样本,设n1<n2。然后把两个样本混合在一起进行排序,得到每个样本单位的秩次。当几个数据的大小相同秩次却不相同时,最终的秩次取其算术平均。 

数据:56677889101011
秩号:12.52.54.54.56.56.589.59.511

红颜色的数据来自一个总体P1,黑颜色的来自另一个总体P2。n1=5,n2=6。

原假设:两个总体服从相同的分布。

备选假设:两个总体服从不同的分布。

总体P1(即数量少的那个总体)的秩和   T=2.5+4.5+6.5+6.5+9.5=29.5

取显著水平α=0.05,进行双侧检验,查“秩和检验表”,n1=5,n2=6,得临界值T1(α)=20,T2(α )=40。
20<29.5<40,样本落入接受域,所以接受原假设。 

http://chatgpt.dhexx.cn/article/HqG9YHKv.shtml

相关文章

独立性和条件独立性测试方法

独立性和条件独立性测试方法[1] 独立和条件独立定义&#xff1a;两个变量X, Z是独立的&#xff0c;其中P(Zz)>0,有&#xff1a; ​ P ( X x , Z z ) P ( X x ) P ( Z z ) P(Xx, Zz)P(Xx)P(Zz) P(Xx,Zz)P(Xx)P(Zz) 给定变量集合S&#xff0c;X和Z条件独立&#xff0…

独立性检验的基本思想和初步应用

独立性检验的基本思想和初步应用 问题&#xff1a;数学家克里斯提娜每天从一家面包店买一块1000g的面包&#xff0c;并记录下买回的面包的实际质量&#xff0c;一年后这位数学家发现&#xff0c;所记录数据的均值为950个&#xff0c;于是克里斯提娜推断这家秒宝典的面包分量不足…

卡方独立性检验|卡方拟合性检验

目录 1.独立性检验 2.卡方拟合性检验 3.自定义卡方检验 4.P值是什么 5.原假设/备择假设 1.独立性检验 “独立性检验”验证从两个变量抽出的配对观察值组是否互相独立&#xff08;例如&#xff1a;每次都从A国和B国各抽一个人&#xff0c;看他们的反应是否与国籍无关&…

[18调剂]中科院信工所·哈工程联合实验室2018年招收硕士生

点击文末的阅读原文或者公众号界面左下角的调剂信息是计算机/软件等专业的所有调剂信息集合&#xff0c;会一直更新的。 “中科院信工所 哈工程联合实验室”由信工所和哈工程于2017年3月共同围绕国家信息安全重大战略需求而组建&#xff0c;7月8日正式揭牌&#xff08;http://…

信工所复试收集材料分享

文章目录 面试问题汇总一室&#xff1a;二室三室五室 英语面试汇总综合面试汇总常见综合问题【前沿知识】 面试问题汇总 http://www.cskaoyan.com/forum.php?modviewthread&tid654445&fromuid443063 栈和堆的区别&#xff1f;&#xff1a; 1、栈由编译器自动分配释放…

中科院信工所 考研面试经验贴

转载于王道论坛&#xff0c;原文作者为&#xff1a;kxkxssz 点击原文链接&#xff0c;可进入原帖。 我们是23号面试的&#xff0c;由于这次本人的分数卡着复试线进的&#xff0c;本着要作死就往大了作的态度&#xff0c;报了个人觉得胜算最小的六室。接下来是我们的流程1.体检&…

2019年中科院信工所夏令营考核内容

二室考核分四项 心理素质测试 专业笔试 英语面试 专业面试 心理素质测试 专业笔试 45min&#xff0c;至少分了3套卷&#xff0c;10个选择题&#xff0c;是专业课知识&#xff0c;数据结构、计算机网络为主&#xff0c;没有数学&#xff1a;给出前序和中序遍历&#xff0c;求后…

信工所复试(专业面)

原文请戳2022年中科院信工所二室考研杂记__Melody&#xff5e;的博客-CSDN博客 一&#xff0c;408复习&#xff1a; 一&#xff09;计算机网络 &#xff08;见专题文章计算机网络专题__Melody&#xff5e;的博客-CSDN博客&#xff09; 二&#xff09;数据结构 1&#xff0c…

2020保研夏令营之路——武大网安、北理计算机、中科院信工所六室

2020年夏令营就这么毫无体验感地开始了。。。各个学校都变成了线上面试。不过依照往年的面经来说&#xff0c;基本没有什么变化。鉴于我本人比较菜&#xff0c;只有成绩拿得出手的那种&#xff0c;所以跟我有同样情况的学弟学妹们可以找我交流交流&#xff01; 本人情况&#…

保研夏令营记录-上交清华深研院北大信工中科院自动化所

保研夏令营记录 个人基本情况前期准备上海交通大学 &#xff08;6月1号&#xff09;清华深研院&#xff08;7月5日-10日&#xff09;北大信工(7月10日-7月13日)中科院自动化所&#xff08;7月15日-7月19日&#xff09;关于九推 注&#xff1a;此帖所涉及的夏令营全部没有机试&a…

【中科院信工所】-2021考研经验-记录一段每天都在思考如何学习的日子

今天出了录取名单&#xff0c;二战上岸&#xff0c;突然觉得综艺&#xff0c;B站都好没意思&#xff0c;也不知道该干什么&#xff0c;索性记录一下备考的这段日子&#xff0c;碎碎念可能会很多&#xff0c;想看干货可以直接点标题阅读。 目录 基本情况 初试备考 数学一&#x…

【大咖说Ⅱ】中科院信工所研究员林政:大规模预训练语言模型压缩技术

欢迎来到2022 CCF BDCI大咖说系列专题报告 听顶级专家学者围绕特定技术领域或选题&#xff0c;讲述自身成果的研究价值与实际应用价值 便于广大技术发烧友、大赛参赛者吸收学术知识&#xff0c;强化深度学习 每周一、三、五&#xff0c;「大咖说」与你相约“一碗数据汤”~ 本…

2020中科院信工所夏令营面试

中科院信工所夏令营招了很多人&#xff08;二室进群的有73个&#xff0c;大群好像二三百人&#xff09;&#xff0c;注重项目能力&#xff0c;获得重大奖项。 流程是&#xff1a;先在系统上报名->有人给你打电话&#xff0c;说让你来面试&#xff08;我的是二室&#xff09…

活动报名 | 中科院信工所陈恺:人工智能安全攻防对抗

活动议程 日期&#xff1a;2月24日&#xff08;周五&#xff09; 时间 主题10:00-10:05开场简介孟国柱 中国科学院信息工程研究所信息安全国家重点实验室副研究员&#xff0c;青源会会员10:05-10:50人工智能安全攻防对抗陈恺 中国科学院信息工程研究所研究员&#xff0c;中国科…

2021网安保研之路-----中科院信工所

2021保研之路-----中科院信工所 个人情况信工所情况介绍夏令营流程 个人情况 西安某211的2018级本科生&#xff0c;本科专业是网络空间安全&#xff0c;当时是被调剂的这个专业。到大三保研的时候才觉得网安专业保研还比较轻松&#xff0c;相对于计算机科学啥的轻松多了&#…

2019年中科院信工所复试经验帖

总述&#xff1a; 今天是4月1日愚人节&#xff0c;距离复试结束已经3天了&#xff0c;很幸运收到了信工所拟录取通知。复试成绩83.74分。因为复试刚刚结束&#xff0c;趁着自己还没忘&#xff0c;想记录一些复试经验&#xff0c;给师弟师妹们考研复试做为参考。我一志愿报的二室…

【中科院信工所】22考研经验分享

2022年4月7日&#xff0c;随着信工所拟录取的名单公布&#xff0c;我长达十四个月的考研征程终于画上了圆满的句号。回首看这一年多的征程&#xff0c;发现有很多想复盘的地方&#xff0c;在这里写出来&#xff0c;可供同行者浏览&#xff0c;后来者借鉴&#xff0c;以及多年后…

褒贬不一,中科院信工所是否值得报考?

写在前面 近年来&#xff0c;中科院发展迅猛&#xff0c;报名人数逐年增加。多数保研er对中科院了解可能仅限于中国科学院大学这所“双一流”高校&#xff0c;对中科院的诸多研究院所不甚了解&#xff0c;信息工程研究所作为中科院研究所的一员&#xff0c;近几年发展迅速&…

清北级别,补助丰厚,这样的中科院信工所你心动了吗?

1、院校介绍 中国科学院信息工程研究所是2011年批准成立的中国科学院直属科研机构。目前拥有信息安全国家重点实验室、信息内容安全技术国家工程实验室等一批国家级和省部级的科研创新平台。主要研究方向包括&#xff1a;密码理论与安全协议、信息智能处理、数据安全、通信与电…

数字图像处理习题(一)

数字图像处理习题&#xff08;一&#xff09; 文章目录 数字图像处理习题&#xff08;一&#xff09;一、简答题二、编程题1. 图像处理1.1 图像导入、裁减显示&#xff08;长宽分别为原尺寸1/2)、彩色图像灰度化、保存 2. 图像采样与量化2.2 利用求均值方法是实现4倍降采样2.3 …