R语言对数据进行非参数检验

article/2025/9/15 0:23:08

假设检验:参数检验运用样本的统计量来估计总体的参数,如用样本均值估计总体均值,用样本标准差估计总体标准差。


非参数检验则不考虑数据的具体值,而更多地运用了数据大小排序的信息,因此不可能以此估计总体的参数

1.原假设和备择假设

原假设(null hypothesis)——原假设又称“ 0假设”,总是有符号 =, ≥ 或≤,表示为 H0。是研究者想收集证据予以反对的假设(生产实践中常对应正常情形,如均值与设计一致);一般来说,原假设是一旦拒绝便要采取行动的假设。因此, 原假设总是“受到保护的假设” ,没有充分的证据是不能拒绝原假设的。例如,对一家信誉很好的工厂的产品进行检验,原假设一般是“ 产品合格”。备择假设(alternative hypothesis)——研究者想收集证据予以支持的假设, 一旦发生就要采取行动, 是与原假设对立的假设,也称“研究假设”,总是有符号 ≠, > 或 <,表示为 H1。

同时在实际应用中,我们有不同的需求,因此又有双侧检验和单侧检验的区分。

  • 双侧检验——备择假设没有特定的方向性,并含有符号“=”的假设检验,称为双侧检验或双尾检验(two-tailed test)
  • 单侧检验——备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验(one-tailed test)。其中备择假设的方向为“<”,称为左侧检验,备择假设的方向为“>”,称为右侧检验。

原假设与备择假设形式:

双侧检验:

左侧检验:

2.非参数检验:

1.正态W检验

 例1.   已知15名学生体重如下,问是否服从正态分布

     

    解:

    R语言代码:

    w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5,
       66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
    shapiro.test(w)

   P值>0.05,接受原假设,认为来自正态分布总体。

例2 :H0:数据集服从正态分布

                H1:数据集不服从正态分布

#是否服从正态分布
#随机抽取3000个样本
mysample <- error[sample(1:nrow(error), 3000, replace=FALSE),] 
shapiro.test(mysample$B1)
shapiro.test(mysample$Q1)

#显示p值小于2.2e-16,因此认为不服从正太分布

2.Kolmogorov-Smirnov 检验

例3.  假定从分布函数未知的F(x)和G(x)的总体中分别抽出25个和20个观察值的随即样品,其数据由下表所示。现检验F(x)和G(x)是否相同。

                           

     R语言代码:

        X<-scan( )
        0.61 0.29 0.06 0.59 -1.73 -0.74 0.51 -0.56
        1.64 0.05 -0.06 0.64 -0.82 0.37 1.77
        2.36 1.31 1.05 -0.32 -0.40 1.06 -2.47
        0.39 1.09 -1.28
        Y<-scan( )
        2.20 1.66 1.38 0.20 0.36 0.00
        0.96 1.56 0.44  1.50 -0.30 0.66       

        2.31 3.29 -0.27 -0.37 0.38 0.70
        0.52 -0.71
        ks.test(X,Y)

P值>0.05,无法拒绝原假设,说明F(x)和G(x)分布函数相同。

例子:

> ks.test(error$B1,error$Q1)Two-sample Kolmogorov-Smirnov testdata:  error$B1 and error$Q1
D = 0.11508, p-value < 2.2e-16
alternative hypothesis: two-sided	Two-sample Kolmogorov-Smirnov testdata:  error$B1 and error$Q1
D = 0.11508, p-value < 2.2e-16
alternative hypothesis: two-sided

P值<0.05,可以拒绝原假设,说明B1,Q1分布函数相同。

3.列联表数据的检验

例4.  为了研究吸烟是否与患肺癌相关,对63位肺癌患者及43名非肺癌患者(对照组)调查了其中的吸烟人数,得到2x2列联表,如下表所示

                                      

   解:

        进行Pearson卡方检验

        R语言代码:

        x<-c(60, 3, 32, 11)
        dim(x)<- c(2,2)
        chisq.test(x,correct = F)

        

P值<0.05,拒绝原假设,认为吸烟与患肺癌相关。

4.符号检验

例5.  用两种不同的饲料养猪,其增重情况如下表所示。试分析两种饲料养猪有无显著差异。

                    

     R语言代码:

     x<-scan()
     25 30 28 23 27 35 30 28 32 29 30 30 31 16

     y<-scan()
     19 32 21 19 25 31 31 26 30 25 28 31 25 25

     binom.test(sum(x<y), length(x))

    

sum(x < y)表示样品X小于样品Y的个数。计算出P值大于0.05,无法拒绝原假设,可以认为两种饲料养猪无显著差异。

例子6:H0:两组数据无显著的差别

            H1:两组数据有明显的差别

binom.test(sum(error$B1<error$Q1), length(error$B1))
> binom.test(sum(error$B1<error$Q1), length(error$B1))Exact binomial testdata:  sum(error$B1 < error$Q1) and length(error$B1)
number of successes = 34950, number of trials = 65535, p-value <2.2e-16
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:0.5294742 0.5371285
sample estimates:
probability of success 0.5333028

P<0.05,所以拒绝原假设,接受两组数据有明显的差别

在符号检验法中,只计算符号的个数,而不考虑每个符号差所包含的绝对值的大小,因此常常使用弥补了这个缺点的wilcoxon符号秩检验。

5.符号秩检验

R中,wilcox.test()函数可以用来做Wilcoxon秩和检验,也可以用于做Mann-Whitney U检验。当参数为单个样本,或者是两个样本相减,或者是两个参数,paired=F时,是Wilcoxon秩和检验。当paired = FALSE(独立样本)时,就是Mann-Whitney U检验,

在R语言中进行符号秩检验可以使用wilcox.test( )

          wilcox.test(x, y = NULL,
              alternative = c("two.sided", "less", "greater"),
              mu = 0, paired = FALSE, exact = NULL, correct = TRUE,
              conf.int = FALSE, conf.level = 0.95, ...)

n为整数向量,表示试验的次数,当x为矩阵时,该值无效.
p为向量,表示试验成功的概率,必须与x有相同的维数,且值在0至1之间,默认值为NULL.
alternative为备择假设选项,取"two.sided"(默认值)表示双侧检验;取"less"表示备择假设为“<”的单侧检验,取"greater"表示备择假设为“>”的单侧检验.
conf.level为0~1之间的数值(默认值为0.95),表示置信水平,它将用于计算比率p或比率差p1-p2的置信区间.
correct为逻辑变量,表示是否对统计量作连续修正,默认值为TRUE.

           其中x,y是观察数据构成的数据向量。alternative是备择假设,有单侧检验和双侧检验,mu待检参数,如中位数M0.paired是逻辑变量,说明变量x,y是否为成对数据。exact是逻辑变量,说明是否精确计算P值,当样本量较小时,此参数起作用,当样本两较大时,软件采用正态分布近似计算P值。correct是逻辑变量,说明是否对P值的计算采用连续性修正,相同秩次较多时,统计量要校正。conf.int是逻辑变量,说明是否给出相应的置信区间。

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

例7.  今测得10名非铅作业工人和7名铅作业工人的血铅值,如下表所示。试用Wilcoxon秩和检验分析两组工人血铅值有无差异。

                      

    解:进行Wilcoxon秩和检验R语言同样可以使用wilcox.test( )

   

    R语言代码:

    x<-c(24, 26, 29, 34, 43, 58, 63, 72, 87, 101)

    y<-c(82, 87, 97, 121, 164, 208, 213)

    wilcox.test(x,y,alternative="less",exact=FALSE,correct=FALSE)

    

   P值小于0.05,拒绝原假设,即铅作业工人血铅值高于非作业工人。

例子2:H0:两组数据无显著的差别

            H1:两组数据有明显的差别

> wilcox.test(error$B1,error$Q1,alternative="two.sided",exact=FALSE,correct=TRUE)Wilcoxon rank sum test with continuity correctiondata:  error$B1 and error$Q1
W = 2103600000, p-value = 1.606e-10
alternative hypothesis: true location shift is not equal to 0

P<0.05,所以拒绝原假设,两组数据是有差别的

6.二元数据相关检验

例8  .某种矿石中两种有用成分A,B,取10个样品,每个样品中成分A的含量百分数x(%),及B的含量百分数y(%)的数据下表所示,对两组数据进行相关性检验。

                                    

    解:进行相关性检验,在R语言中可以使用cor.test( )

    cor.test(x, y,
         alternative = c("two.sided", "less", "greater"),
         method = c("pearson", "kendall", "spearman"),
         exact = NULL, conf.level = 0.95, ...)

    #其中x,y是数据长度相同的向量,alternative是备择假设,缺省值为"two.sided",method是检验方法,缺省值是Pearson检验,conf.level是置信区间水平,缺省值为0.95

    cor.test( )还有另一种使用格式

        cor.test(formula, data, subset, na.action, ...) #其中formula是公式,形如'~u+v' , 'u', 'v' 必须是具有相同长度的数值向量,data是数据框,subset是可选择向量,表示观察值的子集。   

   假设此例中两组数据均来自正态分布,使用pearson相关性检验,

   R语言代码:

    ore<-data.frame(
         x=c(67, 54, 72, 64, 39, 22, 58, 43, 46, 34),
         y=c(24, 15, 23, 19, 16, 11, 20, 16, 17, 13)
    )
    cor.test(ore$x,ore$y)

   

    可见P值<0.05,拒绝原假设,认为X与Y相关。


项目推荐:

2000多G的计算机各行业电子资源分享(持续更新)

2020年微信小程序全栈项目之喵喵交友【附课件和源码】

Spring Boot开发小而美的个人博客【附课件和源码】

Java微服务实战296集大型视频-谷粒商城【附代码和课件】

Java开发微服务畅购商城实战【全357集大项目】-附代码和课件

最全最详细数据结构与算法视频-【附课件和源码】

在这里插入图片描述

------------------------- end  -----------------------



http://chatgpt.dhexx.cn/article/Dv51mXWh.shtml

相关文章

SPSS参数检验、非参数检验、方差分析

参数检验、非参数检验、方差分析 1.导语2.参数检验2.1 数据分布2.1.1 正态分布1.有总体数据2.没有总体数据&#xff0c;用样本3.统计参数 2.1.2 指数分布1.有总体数据2.没有总体数据&#xff0c;样本3.统计参数 2.2 单样本t检验2.2.1 单样本t检验目的2.2.2 SPSS操作 2.3 两独立…

SPSS学习笔记(四)非参数检验

目录 一、配对&#xff1a;Wilcoxon符号-秩检验 分析 操作 结果及分析 二、独立样本&#xff1a;Mann-Whitney U检验 分析 操作 结果及分析 三、单因素ANOVA&#xff1a;Kruskal-Wallis检验 分析 操作 结果及分析 一、配对&#xff1a;Wilcoxon符号-秩检验 分析&a…

R语言非参数检验多重比较

本文首发于公众号&#xff1a;医学和生信笔记&#xff0c;完美观看体验请至公众号查看本文。 医学和生信笔记&#xff0c;专注R语言在临床医学中的使用&#xff0c;R语言数据分析和可视化。 之前介绍了多个样本均数的多重比较&#xff0c;今天说说kruskal-Wallis H检验后的多重…

什么是非参数检验?应该如何操作与分析?

检验问题可划分为两大类&#xff1a;参数检验和非参数检验&#xff0c;其中总体分布的具体函数形式的前提下&#xff0c;只是其中若干个参数未知称为参数检验&#xff0c;否则称为非参数检验。 一、研究场景 非参数检验用于研究定类数据与定量数据之间的关系情况。例如研究人…

【日常】矩阵正态分布参数检验问题

最近给凯爹做的一个苦力活&#xff0c;统计检验这个东西说实话也挺有趣&#xff0c;跟算法设计一样&#xff0c;好的检验真的是挺难设计的&#xff0c;就有近似算法的那种感觉&#xff0c;检验很难保证size和power都很理想&#xff0c;所以就要做tradeoff&#xff0c;感觉这个假…

参数估计与假设检验

推断统计&#xff1a;研究如何利用样本数据来推断总体特征 描述统计&#xff1a;描述一组数据的特征 参数估计&#xff1a;利用样本信息估计总体特征 假设检验&#xff1a;利用样本信息判断对总体的假设是否成立 一.参数估计 就是对于总体指标的估计 估计&#xff1a;根据…

第4章 Stata参数检验

目录 4.1单一样本T检验 案例延伸 4.2独立样本T检验 案例延伸 1.改变置信水平 2.在异方差假定条件下进行假设检验 4.3配对样本T检验 案例延伸 1.改变置信水平 4.4单一样本方差的假设检验 案例延伸 4.5双样本方差的假设检验 参数检验&#xff08;Parameter Test&…

非参数检验——Wilcoxon 检验 Friedman 检验与 Nemenyi 后续检验

最近看论文&#xff0c;看到了Wilcoxon signed-rank test&#xff08;符号秩检验&#xff09;&#xff0c;咱也不知道是个啥&#xff0c;就学习了一下&#xff0c;这里做一下笔记&#xff0c;方便以后查阅。 非参数检验——Wilcoxon 检验 非参数检验概念非参数检验和参数检验的…

SPSS之“参数检验”

目录 简介单样本t检验两独立样本t检验两配对样本t检验 简介 <!-主要作为个人的笔记&#xff0c;和操作步骤的查询-->参数检验(比价均值)是根据样本数据推断总体特征的方法。这种推断通常在以下两种情况下进行&#xff1a;参数检验&#xff1a;总体分布(多为正态分布)已知…

参数检验和非参数检验(结合SPSS分析)

文章目录 假设检验参数检验平均值检验单样本t检验两独立样本t检验配对样本t检验 非参数检验卡方检验单样本K-S检验两独立样本的非参数检验多个独立样本的非参数检验两配对样本检验多匹配样本的非参数检验 假设检验 概念&#xff1a;是一种根据样本数据来推断总体的分布或均值、…

参数与非参数检验:理解差异并正确使用

数据科学是一个快速发展的领域&#xff0c;它在很大程度上依赖于统计技术来分析和理解复杂的数据集。这个过程的一个关键部分是假设检验&#xff0c;它有助于确定从样本中获得的结果是否可以推广到总体。 在这篇文章中&#xff0c;我们将探讨参数与非参数检验之间的区别&#…

SPSS-参数检验

1. 假设检验 假设检验分为参数检验与非参数检验。 &#xff08;1&#xff09; 参数检验&#xff1a;已知总体分布, 猜测总体的某参数(原假设H0&#xff0c;null hypothesis)&#xff0c;用一组样本来检验这个假设&#xff0c; 是否正确 (即接受还是拒绝假设H0)。 &#xff0…

参数检验和非参数检验

一、参数检验 1、基本思想 2、两类错误 3.、检验步骤 4、检验的p值 在一个假设检验问题中, 拒绝原假设H0的最小显著性水平称为检验的p值. 5、单正态总体参数的检验 &#xff08;1&#xff09; &#xff08;2&#xff09; &#xff08;3&#xff09; 6、两正态总体参数的检…

数据分析之参数检验与非参数检验

1、参数检验和非参数检验的区别 定义不同&#xff1a; 参数检验&#xff1a;假定数据服从某分布&#xff08;一般为正态分布&#xff09;&#xff0c;通过样本参数的估计量&#xff08;xs&#xff09;对总体参数&#xff08;μ&#xff09;进行检验&#xff0c;比如t检验、u检…

常用的参数检验和非参数检验方法对比

目录 一、基本概念 二、对比 三、具体方法对比 1、参数检验 2、非参数检验 一、基本概念 参数检验是在总体分布形式已知的情况下&#xff0c;对总体分布的参数如均值、方差等进行推断的方法。但是&#xff0c;在数据分析过程中&#xff0c;由于种种原因&#xff0c;我们往…

STM32中断优先级的分配以及中断原则

STM32d的中断优先级由NVIC_IPRx寄存器来配置&#xff0c;IPR的宽度为8bit所以原则上每个中断可配置的优先级为0~255&#xff0c;数值越小优先级越高&#xff0c;但对于大部分的 Cortex-M3芯片都会精简设计&#xff0c;导致实际上支持的优先级数量更少。在STM32中只使用了IPR寄存…

STM32 中断优先级

1&#xff0e;ARM cortex_m3 内核支持 256 个中断&#xff08;16 个内核240 外部&#xff09;和可编程 256 级中断优先级 的设置&#xff0c;与其相关的中断控制和中断优先级控制寄存器&#xff08;NVIC、SYSTICK 等&#xff09;也都属于 cortex_m3 内核的部分。STM32 采用了 c…

6.STM32中断优先级管理

1.中断 stm32的芯片通常有90多个以上的中断&#xff0c;具有16级可编程的中断优先级。 2.中断管理方法 1.首先对STM32中断进行分组&#xff0c; 有组0~4。同时对每一个中断设置一个抢占优先级和一个响应优先级值。 分组配置是在寄存器SCB->AIRCR中配置&#xff1a; SCB-&…

stm32中断优先级

1.STM32(Cortex-M3)中有两个优先级的概念&#xff1a;抢占式优先级和响应优先级&#xff0c;也把响应优先级称作“亚优先级”或“副优先级”或“从优先级”&#xff0c;每个中断源都需要被指定这两种优先级。 高抢占优先级的中断可以打断低抢占优先级的中断 相同抢占优先级&…