1.定义:一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。
2.基本思想:统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
例:检验化妆与性别有没有关系
调查结果:
假设:化妆与性别无关,化妆和不化妆中男女分布一样的。
假设检验量:(fi是实际值,npi表示理论分布)(以男化妆为例:15是实际,55是理论)
计算后:
卡方值与p值的对比表:
129.3明显大于3.841——>拒绝原假设,说明化妆与性别有关。
卡方检验又叫四方格检验法,常用与检验两个因素直接是否具有联系。
(本文主要适应于数据挖掘,所以相比于统计学知识可能会简陋一些,如果想要具体了解,可以详细参考其他人好的博客进行学习)