统计学系列目录(文末有大奖赠送
):
统计学①——概率论基础及业务实战
统计学②——概率分布(几何,二项,泊松,正态分布)
统计学③——总体与样本
统计学④——置信区间
一、什么是假设验证?
当你从广告中,从别人口中,从新闻上等得到一个结论时,你要判断这个结论是否可信,假设验证就是这样一种判断是否值得可信的方法。
比如市面上很繁荣的IT培训,包你在三个月找到工作,这怎么验证真伪呢?先假设这句话是真的,再去选择一些参加过培训的人的,看找到工作的人有多少?如果都找到了那就值得信,但是由于各种各样的因素不太可能谁都找到,我们允许有一定的误差,假如5%,那就超过95%的都找到了,那也值得信。如果只有很少的人找到,我们就足以推翻这个结论,得到相反的结论。
二、假设验证的步骤有哪些?
1、设定原假设——参加培训的人90%都能找到工作,换成数字就是成功找到工作的比例P=90%
2、作好备择假设——成功找到工作的比例P<90%,这个叫单侧检验,根据实际情况可以选择单侧或双侧
3、设定检验统计量——成功找到工作的比例P,P服从二项分布,当满足特定条件时,二项分布可近似为正态分布,就可以通过标准化为N(0,1)分布获得概率分布
4、设定拒绝域——是指当样本的统计量的概率处于某个范围时,就可以拒绝原假设,一般以5%,也叫显著性水平
5、抽取样本——简单随机,分层,分群,系统抽样等尽量保证样本无偏
6、根据样本计算统计量并判断是否接受原假设——比如统计量为P=87%,没有落入拒绝哉,那就没有足够的证据推翻原假设,那就说明参加这个培训的人确实90%都能找到工作(虽然实际是不可能的,举个例子不要当真,哈哈)
三、假设验证常用的统计量
1、均值
统计量为μ,如果总体为正态分布,则不管大小样本,均值符合正太分布
如果总体是非正太分布,大样本可以近似为正态分布,小样本可以近似于T分布
2、比例
统计量P,如二中所说,在样本和总体比例满足:np>5且np(1-p)>5时, 比例可近似于正太分布
3、卡方
验证实际频数与预期频数是否一致,统计量为χ2,中文名就卡方(下文会解释),卡方服从卡方分布
四、卡方检验
1、卡方分布是什么?
假设随机变量X符合卡方分布,则概率分布曲线为:
n越大,曲线越趋向于对称,可以通过差表获得概率,这里要注意一点,概率表中是以自由度来查找概率,自由度 = 组数-限制数
两大性质:
主要用于:
① 检验实际概率是否符合特定概率分布
② 检验两变量是否具有相关性
2、卡方检验是什么?
卡方检验是实际频数与预期频数是否存在差别的度量χ2,χ2越小,说明观察频数与期望频数相差越小。
其中O是实际频数,E是理论频数
3、假设检验的步骤
与均值,比例假设检验步骤相同
本人互联网数据分析师,目前已出Excel,SQL,Pandas,Matplotlib,Seaborn,机器学习,统计学,个性推荐,关联算法,工作总结系列。
微信搜索并关注 " 数据小斑马
" 公众号,回复“统计
”可以免费获取下方深入浅出统计学、统计学原理、赤裸裸的统计学
等9本统计学入门到精通必备经典教材