独立性和条件独立性测试方法

article/2025/8/19 0:59:27

独立性和条件独立性测试方法[1]

独立和条件独立定义:两个变量X, Z是独立的,其中P(Z=z)>0,有:

P ( X = x , Z = z ) = P ( X = x ) P ( Z = z ) P(X=x, Z=z)=P(X=x)P(Z=z) P(X=x,Z=z)=P(X=x)P(Z=z)

给定变量集合S,X和Z条件独立,记为 I n d ( X , Z ∣ S ) Ind(X,Z|S) Ind(X,ZS)

P ( X = x , Z = z ∣ S = s ) = P ( X = x ∣ S = s ) P ( Z = z ∣ S = s ) P(X=x, Z=z|S=s)=P(X=x|S=s)P(Z=z|S=s) P(X=x,Z=zS=s)=P(X=xS=s)P(Z=zS=s), 其中 P ( S = s ) > 0 P(S=s)>0 P(S=s)>0

方法1:Fisher’s z-Transform for Correlation and Partial Correlation

(1)独立性测试

给定一个包含n个样本的X,Y变量,皮尔森相关系数计算如下:

r = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ i = 1 n ( X i − X ˉ ) 2 ∑ i = 1 n ( Y i − Y ˉ ) 2 r=\frac{\sum_{i=1}^{n}{(X_i-\bar X)(Y_i-\bar Y)}}{\sqrt{\sum_{i=1}^n{(X_i-\bar X)^2}}\sqrt{\sum_{i=1}^n{(Y_i-\bar Y)^2}}} r=i=1n(XiXˉ)2 i=1n(YiYˉ)2 i=1n(XiXˉ)(YiYˉ)

Fisher 的r-to-z transformation 其实是将皮尔森相关系数转化成具有正态分布的变量z, z ∼ N ( μ z , σ z ) z\sim N(\mu_z,\sigma_z) zN(μz,σz):
z = 0.5 l n ( 1 + r 1 − r ) z = 0.5ln(\frac{1+r}{1-r}) z=0.5ln(1r1+r)
and
μ z = 0.5 l n ( 1 + ρ 1 − ρ ) , σ z = 1 n − 3 \mu_z=0.5ln(\frac{1+\rho}{1-\rho}), \sigma_z = \frac{1}{\sqrt{n-3}} μz=0.5ln(1ρ1+ρ),σz=n3 1
其中 ρ \rho ρ是总体皮尔森相关系数
PS总体皮尔森相关系数和样本皮尔森相关系数:
在这里插入图片描述

在这里插入图片描述

给定显著性水平 α \alpha α和皮尔森相关系数 r r r,X, Y相关需要满足以下条件:
z n − 3 > ϕ − 1 ( 1 − α / 2 ) z\sqrt{n-3}>\phi^{-1}(1-\alpha/2) zn3 >ϕ1(1α/2)
ϕ \phi ϕ表示标准正态分布函数

例:假如有一组包含100个样本的X,Y变量组,计算得出二者皮尔森相关系数为 0.4。在95%的置信水平下,有:
z n − 3 = 0.5 l n ( 1 + 0.4 1 − 0.4 ) 100 − 3 = 4.172458 z\sqrt{n-3}=0.5ln(\frac{1+0.4}{1-0.4})\sqrt{100-3}=4.172458 zn3 =0.5ln(10.41+0.4)1003 =4.172458
还有:

ϕ − 1 ( 1 − α / 2 ) = ϕ − 1 ( 1 − 0.05 / 2 ) = ϕ − 1 ( 0.975 ) = 1.959964 \phi^{-1}(1-\alpha/2)=\phi^{-1}(1-0.05/2)=\phi^{-1}(0.975)=1.959964 ϕ1(1α/2)=ϕ1(10.05/2)=ϕ1(0.975)=1.959964
因为前者4.172458大于后者1.959964,所以X和Y不独立(相关的)。

(2)条件独立性测试

给定变量集S情况下,X,Y的条件相关系数计算如下:
r X , Y ∣ S = r X , Y ∣ S \ W − r X , W ∣ S \ W r Y , W ∣ S \ W ( 1 − r X , W ∣ S \ W 2 ) ( 1 − r Y , W ∣ S \ W 2 ) r_{X,Y|S}=\frac{r_{X,Y|S\backslash W}-r_{X,W|S\backslash W}r_{Y,W|S\backslash W}}{\sqrt{(1-r^2_{X,W|S\backslash W})(1-r^2_{Y,W|S\backslash W})}} rX,YS=(1rX,WS\W2)(1rY,WS\W2) rX,YS\WrX,WS\WrY,WS\W
其中W是变量集S的任意一个变量,

PS:论文[2]给出了一种计算 r X , Y ∣ S r_{X,Y|S} rX,YS的高效算法。

给定显著性水平 α \alpha α,X和Y在给定变量集S的相关性需满足以下条件:
z n − ∣ S ∣ − 3 > ϕ − 1 ( 1 − α / 2 ) z\sqrt{n-|S|-3}>\phi^{-1}(1-\alpha/2) znS3 >ϕ1(1α/2)
其中 |S|表示变量集S的长度,且有:
z = 0.5 l n ( 1 + r X , Y ∣ S 1 − r X , Y ∣ S ) z=0.5 ln(\frac{1+r_{X,Y|S}}{1-r_{X,Y|S}}) z=0.5ln(1rX,YS1+rX,YS)

方法2: Chi-Square Test of Independence and Conditional Independence

(1)独立性检测

构建一个列联表,表示X,Z两个变量的联合频率分布。如下图:
在这里插入图片描述

n 11 , n 12 , n 21 , n 22 n_{11},n_{12},n_{21},n_{22} n11,n12,n21,n22分别表示 ( X = 1 , Z = 1 ) , ( X = 1 , Z = 0 ) , ( X = 0 , Z = 1 ) , ( X = 0 , Z = 0 ) (X=1,Z=1),(X=1,Z=0),(X=0,Z=1),(X=0,Z=0) (X=1,Z=1),(X=1,Z=0),(X=0,Z=1),(X=0,Z=0)的数量,称为观测频率; n 1 ∗ , n 2 ∗ , n ∗ 1 , n ∗ 2 n_{1*},n_{2*},n_{*1},n_{*2} n1,n2,n1,n2分别表示 X = 1 , X = 0 , Z = 1 , Z = 0 X=1,X=0,Z=1,Z=0 X=1,X=0,Z=1,Z=0的数量,称为边缘频率。

基于联合频率表,我们可以计算出卡方检验统计量:
χ 2 = ∑ i = 1 i = 2 ∑ j = 1 j = 2 ( n i j − n ^ i j ) 2 n ^ i j \chi^2=\sum_{i=1}^{i=2}\sum_{j=1}^{j=2}\frac{(n_{ij}-\hat{n}_{ij})^2}{\hat n_{ij}} χ2=i=1i=2j=1j=2n^ij(nijn^ij)2
其中 n ^ 11 , n ^ 12 , n ^ 21 , n ^ 22 \hat{n}_{11},\hat n_{12},\hat n_{21},\hat n_{22} n^11,n^12,n^21,n^22是期望频率,按照下式计算:
n ^ i j = n i ∗ n ∗ j n \hat n_{ij}=\frac{n_{i*}n_{*j}}{n} n^ij=nninj

给定置信水平 α \alpha α,可以查询卡方分布(自由度为)的值 χ α 2 \chi^2_\alpha χα2。如果计算出的卡方统计量大于 χ α 2 \chi^2_\alpha χα2,就拒绝零假设,两者在给定的置信水平下有相关关系。

(2)条件独立性

在条件独立性测试中,测试X和Z在给定变量集S的独立性,我们生成取变量集S每个值情况下的列联表。例如,如果S中只有一个变量W,然后我们给出W=1和W=0两个情况下的列联表,如下图:
在这里插入图片描述

条件独立测试中的卡方统计量是所有列联表卡方统计量的总和。例如,如果W=1的表的卡方值为1.7,W=0表的卡方值为0.9,所以最终的卡方统计量的值为1.7+0.9=2.6。类似于非条件独立测试,我们可以通过比较卡方统计量与 χ α 2 \chi^2_\alpha χα2来判断是否独立。但是需要注意的是,条件独立性测试时自由度为 2 ∣ S ∣ 2^{|S|} 2S,|S|是变量集S中的变量个数。

参考文献

[1] Practical approaches to causal relationship exploration. LI J,LIU L,LE T D. Springerbriefs in Electrical and Computer Engineering . 2015,LIU L,LE T D. Springerbriefs in Electrical and Computer Engineering . 2015

[2] J. Schaefer, R. Opgen-Rhein, and K. Strimmer. corpcor: Effificient estimation of covariance and (partial) correlation. R package version 1.5, 7, 2010.


http://chatgpt.dhexx.cn/article/2EPxo8E7.shtml

相关文章

独立性检验的基本思想和初步应用

独立性检验的基本思想和初步应用 问题:数学家克里斯提娜每天从一家面包店买一块1000g的面包,并记录下买回的面包的实际质量,一年后这位数学家发现,所记录数据的均值为950个,于是克里斯提娜推断这家秒宝典的面包分量不足…

卡方独立性检验|卡方拟合性检验

目录 1.独立性检验 2.卡方拟合性检验 3.自定义卡方检验 4.P值是什么 5.原假设/备择假设 1.独立性检验 “独立性检验”验证从两个变量抽出的配对观察值组是否互相独立(例如:每次都从A国和B国各抽一个人,看他们的反应是否与国籍无关&…

[18调剂]中科院信工所·哈工程联合实验室2018年招收硕士生

点击文末的阅读原文或者公众号界面左下角的调剂信息是计算机/软件等专业的所有调剂信息集合,会一直更新的。 “中科院信工所 哈工程联合实验室”由信工所和哈工程于2017年3月共同围绕国家信息安全重大战略需求而组建,7月8日正式揭牌(http://…

信工所复试收集材料分享

文章目录 面试问题汇总一室:二室三室五室 英语面试汇总综合面试汇总常见综合问题【前沿知识】 面试问题汇总 http://www.cskaoyan.com/forum.php?modviewthread&tid654445&fromuid443063 栈和堆的区别?: 1、栈由编译器自动分配释放…

中科院信工所 考研面试经验贴

转载于王道论坛,原文作者为:kxkxssz 点击原文链接,可进入原帖。 我们是23号面试的,由于这次本人的分数卡着复试线进的,本着要作死就往大了作的态度,报了个人觉得胜算最小的六室。接下来是我们的流程1.体检&…

2019年中科院信工所夏令营考核内容

二室考核分四项 心理素质测试 专业笔试 英语面试 专业面试 心理素质测试 专业笔试 45min,至少分了3套卷,10个选择题,是专业课知识,数据结构、计算机网络为主,没有数学:给出前序和中序遍历,求后…

信工所复试(专业面)

原文请戳2022年中科院信工所二室考研杂记__Melody~的博客-CSDN博客 一,408复习: 一)计算机网络 (见专题文章计算机网络专题__Melody~的博客-CSDN博客) 二)数据结构 1&#xff0c…

2020保研夏令营之路——武大网安、北理计算机、中科院信工所六室

2020年夏令营就这么毫无体验感地开始了。。。各个学校都变成了线上面试。不过依照往年的面经来说,基本没有什么变化。鉴于我本人比较菜,只有成绩拿得出手的那种,所以跟我有同样情况的学弟学妹们可以找我交流交流! 本人情况&#…

保研夏令营记录-上交清华深研院北大信工中科院自动化所

保研夏令营记录 个人基本情况前期准备上海交通大学 (6月1号)清华深研院(7月5日-10日)北大信工(7月10日-7月13日)中科院自动化所(7月15日-7月19日)关于九推 注:此帖所涉及的夏令营全部没有机试&a…

【中科院信工所】-2021考研经验-记录一段每天都在思考如何学习的日子

今天出了录取名单,二战上岸,突然觉得综艺,B站都好没意思,也不知道该干什么,索性记录一下备考的这段日子,碎碎念可能会很多,想看干货可以直接点标题阅读。 目录 基本情况 初试备考 数学一&#x…

【大咖说Ⅱ】中科院信工所研究员林政:大规模预训练语言模型压缩技术

欢迎来到2022 CCF BDCI大咖说系列专题报告 听顶级专家学者围绕特定技术领域或选题,讲述自身成果的研究价值与实际应用价值 便于广大技术发烧友、大赛参赛者吸收学术知识,强化深度学习 每周一、三、五,「大咖说」与你相约“一碗数据汤”~ 本…

2020中科院信工所夏令营面试

中科院信工所夏令营招了很多人(二室进群的有73个,大群好像二三百人),注重项目能力,获得重大奖项。 流程是:先在系统上报名->有人给你打电话,说让你来面试(我的是二室&#xff09…

活动报名 | 中科院信工所陈恺:人工智能安全攻防对抗

活动议程 日期:2月24日(周五) 时间 主题10:00-10:05开场简介孟国柱 中国科学院信息工程研究所信息安全国家重点实验室副研究员,青源会会员10:05-10:50人工智能安全攻防对抗陈恺 中国科学院信息工程研究所研究员,中国科…

2021网安保研之路-----中科院信工所

2021保研之路-----中科院信工所 个人情况信工所情况介绍夏令营流程 个人情况 西安某211的2018级本科生,本科专业是网络空间安全,当时是被调剂的这个专业。到大三保研的时候才觉得网安专业保研还比较轻松,相对于计算机科学啥的轻松多了&#…

2019年中科院信工所复试经验帖

总述: 今天是4月1日愚人节,距离复试结束已经3天了,很幸运收到了信工所拟录取通知。复试成绩83.74分。因为复试刚刚结束,趁着自己还没忘,想记录一些复试经验,给师弟师妹们考研复试做为参考。我一志愿报的二室…

【中科院信工所】22考研经验分享

2022年4月7日,随着信工所拟录取的名单公布,我长达十四个月的考研征程终于画上了圆满的句号。回首看这一年多的征程,发现有很多想复盘的地方,在这里写出来,可供同行者浏览,后来者借鉴,以及多年后…

褒贬不一,中科院信工所是否值得报考?

写在前面 近年来,中科院发展迅猛,报名人数逐年增加。多数保研er对中科院了解可能仅限于中国科学院大学这所“双一流”高校,对中科院的诸多研究院所不甚了解,信息工程研究所作为中科院研究所的一员,近几年发展迅速&…

清北级别,补助丰厚,这样的中科院信工所你心动了吗?

1、院校介绍 中国科学院信息工程研究所是2011年批准成立的中国科学院直属科研机构。目前拥有信息安全国家重点实验室、信息内容安全技术国家工程实验室等一批国家级和省部级的科研创新平台。主要研究方向包括:密码理论与安全协议、信息智能处理、数据安全、通信与电…

数字图像处理习题(一)

数字图像处理习题(一) 文章目录 数字图像处理习题(一)一、简答题二、编程题1. 图像处理1.1 图像导入、裁减显示(长宽分别为原尺寸1/2)、彩色图像灰度化、保存 2. 图像采样与量化2.2 利用求均值方法是实现4倍降采样2.3 …

图片标注问题image_caption

数据集: 数据集中的训练集使用的是coco train 2014,82783张图片,测试集使用的是 val 2017 ,5000张图片,对应的caption是captions_train2014.json,和captions_val2017.json。 该文件中是以字典的形式包含其内容信息,key…