点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
本文转自:机器学习算法那些事
非参数正态性检验
前面两节介绍了采用Q-Q图和偏度与峰度来对采集样本进行正态性检验,本节介绍非参数性的正态性检验,非参数性的正态性检验算法思想大致相同,算法思想步骤为:首先假设条件H0成立,然后计算采集样本的统计量,最后在已知统计量分布的情况下比较统计量与显著性水平α的大小,根据比较结果判断是否拒绝检验假设H0(如下图)。
本文首先介绍了非参数正态性检验算法如拟合优度检验,K-S检验,S-W检验等,最后比较各非参数性正态检验的适用条件。
1、拟合优度检验
是在总体X的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法,比较样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受总体分布的原假设。比如,记录小明最近一年每天花在学习英语的时间,判断小明是否是英语爱好者。运用检验法来判断的步骤是:
(1)假设小明是英语爱好者。
(2)统计英语爱好者最近一年内每天学习英语的时间。
(3)计算英语爱好者每天学习英语的时间与小明每天学习英语的时间的差异,再计算这一年内学习英语时间的总差异,若总差异结果超过某一阈值,拒绝假设,即小明不是英语爱好者;反之,不拒绝假设,即小明是英语爱好者。
在用检验法检验假设H0时,需要用极大似然估计计算检验假设H0的参数,比如,若H0是正态分布,则需要用极大似然估计计算均值和方差;若H0是指数分布,则需要用极大似然估计计算均值;
验统计量为:
其中r是检验假设H0模型的被估参数,n为样本容量,离散化样本容量成k段,Pi为假设检验H0成立时第i个分段的频率,n*Pi,fi分别为第i段的理论频数和实际频数。
皮尔逊证明了统计量的分布服从(k-r-1)个自由度的分布的前提是样本容量n足够大。使用拟合优度检验正态分布需要注意大样本容量和n*Pi不能太小(≥5)这两个条件,若某一段出现的频数太小,则与其他的分段合并,达到频数≥5的条件。
最后比较样本检验统计量数值与显著性水平α的大小,来判断假设是否成功。
【例】
解:H0:IQ得分服从正态分布,H1:不服从正态分布,α=0.05,X = 101.294,S =15.585
其中Oi为第i段的实际观测频数,Ei为第i段的理论频数。因为最后两组的观测频数过小,则合并最后三组成一组,该组频数为8。
自由度 v = 7-1-2 = 4,,统计量=1.63832 < 9.49,所以不拒绝零假设H0,即IQ得分服从正态分布。
2、K-S正态性检验
S检验是通过比较样本经验分布函数与给定分布函数来推断该样本是否来自给定分布函数的总体。比较容量n的经验分布函数Fn(x)与给定分布函数F0(x)的间隔,构造统计量D为两个分布函数的间隔最大值,如下图。
步骤:
(1)提出假设:H0:Fn(x)= F0(x),H1:Fn(x)≠F0(x)。
(2)计算统计量D。
(3)根据给定的显著性水平α和样本数据个数n,确定单样本K-S检验的临界值Dα(n)。
(4)若,则不拒绝假设H0;反之,拒绝假设H0。
这个检验需要给定F0(x),因此非参数检验的K-S正态性检验只能做标准正态检验。
【例】验证一组39例抽样数据是否符合标准正态分布
(1)假设抽样数据符合标准正态分布;
(2)画出经验分布函数和标准正态分布函数的曲线图;
(3)确定统计量D;
(4)显著性水平α=0.05,样本容量n = 39,确定统计量的拒绝域最小值,可通过查表可得。
(5)比较统计量D与的大小,若大于,则拒绝假设,反之,则不拒绝;
3、Lilliefor正态性检验
Lilliefor正态性检验是对K-S检验的修正,非参数K-S检验只能作标准正态分布检验,Lilliefor提出用样本均值和标准差代替总体的期望和标准差,然后再用K-S正态性检验法,步骤相同,不同点在于单样本K-S检验只能检测标准正态分布,Lilliefor检验能检测一般性的正态分布。
4、S-W正态性检验
S-W检验正态分布的思想与K-S检验一致,关键点在于如何求样本的统计量以及确定统计量的分布情况。
S-W检验称为W检验,统计量W定义为:
其中是样本均值,,是样本来自正态分布的标准差,a的确切值是:
其中V矩阵是n个标准正态分布的随机变量的顺序统计量的协方差矩阵。
给定显著性水平α和样本容量n,可以知道拒绝域的临界值,比较统计量结果W与的大小,判断是否拒绝原假设。
【例】 用函数rnorm获得一个标准正态分布的随机样本,然后用W检验它的正态性。
结果显示p-value值大于显著性水平0.05,因此不能拒绝零假设,即样本来自正态分布。
5、非参数检验算法的比较
(1)Lilliefor检验是对K-S检验的改进,可用于一般的正态性检验,而非参数检验的K-S检验只能做标准正态检验。
(2)χ2拟合优度检验的检验结果依赖于分组,而其他方法的检验结果与区间划分无关。
(3)拟合优度检验和K-S检验都采用实际频数和期望频数进行检验,前者既可用于连续总体,又可用于离散总体,而Kolmogorov-Smirnov检验只适用于连续和定量数据。
(4)SPSS规定:当样本含量3≤n≤5000时,结果以S—W(W 检验)为准,当样本含量n>5000结果以K-S检验(D检验)为准。
参考
https://blog.csdn.net/suncherrydream/article/details/51073001
http://www.docin.com/p-2006164716.html
http://www.dxy.cn/bbs/topic/26366190
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~