统计基础(四)假设检验

article/2025/10/14 13:21:44

Hypothesis Testing

1.中心极限定理Central Limit Theorem

当总体是非正态分布且样本容量足够大时,使用正态分布来近似任何统计量的抽样分布。
两种应用:

1.1 X ˉ \bar{X} Xˉ的抽样分布

•考虑从一个具有平均偏差μ和标准偏差σ的总体(任何总体)中选择的n个观察的随机样本。当n够大(n≥30)、 X ˉ \bar{X} Xˉ的抽样分布将近似正态分布均值μ和标准差 σ n \frac{σ}{\sqrt{n}} n σ。象征性地, X ˉ ≈ ( μ , σ n ) \bar{X}\approx(\mu,\frac{σ}{\sqrt{n}}) Xˉ(μ,n σ),近似。
•如果随机样本n是从正态整体中选取,则 X ˉ \bar{X} Xˉ的抽样分布是正态分布; X ˉ ∼ ( μ , σ n ) \bar{X}\sim(\mu,\frac{σ}{\sqrt{n}}) Xˉ(μ,n σ)精确。

1.2 p ^ \hat{p} p^的抽样分布

X : 具有感兴趣特征的元素的数量是一个二项式随机变量, p ^ = x n \hat{p}=\frac{x}{n} p^=nx的抽样分布实际上遵循二项分布。如果样本大小是足够大的,那么可以用正常的经验法则来近似: n > 25,np > 5,以及 q = 1-p 的 nq > 5

随机变量标准化
在这里插入图片描述
例子
在这里插入图片描述
在这里插入图片描述

1.3 二项的正态逼近

•如果X ~ Bin(n, p)且n足够大,则可近似为Y,其中 Y ∼ N ( μ = n p , σ = n p q ) Y\sim N(\mu=np,\sigma=\sqrt{npq}) YN(μ=np,σ=npq )
•经验法则:n > 25, np > 5,和nq > 5
•校正连续性调整
•当离散分布近似为连续分布时,需要连续性校正。从离散随机变量X的值上加或减0.5是连续性校正。
•例如,如果X ~ Bin(n=100, p=0.7),近似p (X > 25)。
P(X > 25) = 1 - P(X≤25.5)≈1 - P(Y≤25.5)

eg.假设从一个正在进行的生产过程中随机获得n = 100个相同类型的轮胎样本,其中8%的轮胎是有缺陷的。
•在这样一个样品中有超过10个轮胎有缺陷的确切概率是多少?
在这里插入图片描述
•在这样一个样品中,缺陷轮胎超过10个的近似概率是多少?
在这里插入图片描述

2.假设检验概念

2.1 零假设与备则假设

零假设 Null Hypothesis (H0)
H0是普遍接受的事实
使用=号指定,即使≤或≥
示例,H0: μ= 3

备择假设 Alternative Hypothesis(H1)
与零假设相反
如果H0被拒绝,通常代表了一个新的理论(研究问题)。
总是不等号:<、>、或≠
示例,H1:μ< 3
在这里插入图片描述
假设检验的四种可能结果
在这里插入图片描述

2.2 如何制定决策规则

临界值的方法 Critical value approach
如果测试统计量落在拒绝区域,则拒绝H0
P值即概率,反映某一事件发生的可能性大小。

  • 如果 P<0.01,说明是较强的判定结果,拒绝假定的参数取值。
  • 如果 0.01<P值<0.05,说明较弱的判定结果,拒接假定的参数取值。
  • 如果 P值>0.05,说明结果更倾向于接受假定的参数取值

假定值的方法 P-value approach
如果假定值<α则否定H0
α=P(I类错误)
α在检验开始前被指定
典型值是0.01、0.25、0.05、0.10(常用为 0.05)

置信区间的方法 Confidence interval approach
如果空值(在H0中指定的值)位于置信区间之外,则拒绝H0

3.假设性检验步骤

3.1假设检验框架

对于每个假设检验,我们使用以下框架:
H
建立了两个假设:H0和H1。
A
陈述测试的假设,并证明这些假设从样本中是否有效。
T
陈述检验统计量,并且假设H0为真,它的分布。
说明哪些值反对H0。
找到测试统计量的观察值。
计算P值,表示在H0为真的情况下观察该样本(或更极端)的概率。
C
根据p值的大小权衡结论。

3.2术语定义

H

  • Null hypothesis H0是默认的假设:我们当前认为是正确的。
  • 假设H1是关于总体的新假设。
  • 假设通常用未知的总体参数表示。例如H0:μ= 5。
  • 如果是这样,那么备选假设可以采取两种形式:1边假设(H1:μ> 5或H1:μ< 5)或2边假设(H1:/= 5)。
  • 我如何决定一个1或2边测试?这个决定不能受到数据的影响(“数据窥探”)——我们必须在进行实际测试之前明确假设。因此,我们总是使用双侧测试,除非我们有预先的证据(例如以前的报告)建议使用单侧测试。

A

  • 这些假设对于测试的有效性是必要的。我们从样本中检查它们是否有效。

T

  • 检验统计量τ是一个随机变量,其分布取决于未知参数。
  • 从样本中计算出测试统计量τobs的观测值。
  • 查看可调整的分布,以确定哪些值将与H1的H0争论。
  • 假设检验涉及到一些关于随机变量的理论,其中每一个可能的值{T0}都作为H0的一些证据。假设检验根据观察值对证据和H0进行权衡。

p

  • p值是在H0下观察到τ的概率,或更极端(或不寻常)的概率。
  • p值小,要么表示H0为真,但样本非常罕见,要么表示H0为假。
  • p值越小,H1对H0不利的证据越强。
  • p值大表示样本与H0一致。
  • 临界区域是使H0被拒绝的。在这里插入图片描述C
  • “(零假设)是……从未被证明或建立,但可能被推翻,在实验的背景下。每一个实验的存在都只是为了给事实一个机会来反驳无效假设。(罗纳德·费舍尔,《实验设计》,1935年,第19页)。
    没有最终的证据证明H0是对的还是错的。
  • 结论是不‘接受’H0或H1,因为我们已经假设H0为真。也就是说,我们并没有证明H0是真的,而是在寻找证据来证明它是否是假的。
  • I如果p值很小,说明存在不利于H0的证据。如果p值是不小,那么它表明数据是一致的H0
    通过’小’,一个常见的惯例是,是也就是说,对于p < 0.05,我们建议有不利于H0的证据。
    在这里插入图片描述

3.3 proportion test步骤

对于关于未知总体比例p的假设,我们执行以下步骤。
H H0: p = p0 vs H1: p < p0n次试验是独立的,概率为常数p。
T τ = X =在H0下成功的数量~ Bin(n, p0)
对于H1, x的小值会与H0争论。
观测值为x,
P P-value = P(x≤x)。
C衡量p值。经验法则是拒绝H0,因为p值< 0.05 =α。

P-values假定值:
如果备选假设是H1: p > p0,那么对于H1, x的较大值将与H0发生争论,因此对应的p值为p (X≥x)。
如果交替假设为双侧H1: p /= p0,那么对于H1, x的大小值都与H0相反,相关的p值为p (|x-np0|≥|x-np0|)。
在p0 = 12的特殊情况下,两边的p值降为
X > n/2时, P-value = 2P(X≥X)。
X < n/2时,P-value = 2P(X≤X)。
如果n很大,那么我们可以使用CLT(上周)来找到p值的近似值。我们找到近似的标准Y ~ N(np0, np0(1- p0)),然后使用R或标准化标准值并查找标准表。

IVF案例
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

3.4 符号检验 sign test

符号检验是一种巧妙的方法,它有效地扩大了比例检验的适用性。它允许“比例”检验用于检验关于平均值或中位数的假设。
我们从H0:µ=µ0(或H0:˜µ=˜µ0)H0: p + = 0.5,通过考虑的比例差异的迹象{签署(ξµ0)}这是积极的。
注意:如果任何观测值等于零假设值xi = l0,则从样本中消除它们。这假设只有几个’ 0 ',因为它有效地减少了样本大小。

假设单个样本x1, x2,…, xn取未知类型的连续分布。
我们想测试H0:µ=µ0(或H0:˜µ=˜µ0)。
如果我们假设分布是对称的,那么如果H0成立,每个观测值都等可能在H0之上或之下。
考虑不同符号的集合sign(x1 - µ0),sign(x2 - µ0)… …sign(xn - µ0)
定义X =关于Bin(n, p+)的+号数量,其中p+ = p(+差)。
那么H0:µ=µ0 就等于H0:P+=0.5

符号测试步骤
在这里插入图片描述
案例:freeze dried coffee
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://chatgpt.dhexx.cn/article/hbycgCsS.shtml

相关文章

连续性概率

提示&#xff1a;写完文章后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 欧拉常数连续型随机变数与概率密度函数正态分布标准正态分步检验t检验t假设 在我们将离散型数据的数值放大到无限&#xff0c;也就是讨论所谓的极限时&#xff0c; …

概率统计:离散分布和连续分布

1. 几种分布分类 (1) 离散分布&#xff1a;  伯努利分布&#xff08;零一分布&#xff0c;两点分布&#xff09;&#xff0c;二项分布&#xff0c;几何分布&#xff0c;泊松分布&#xff08;Poisson分布&#xff09; (2) 连续分布&#xff1a;  指数分布&#xff0c;正态分…

【概率论】随机试验、随机变量、离散型/连续型随机变量

1. 随机试验 满足以下3个条件的试验可以称为随机试验&#xff1a; 相同条件下可重复试验结果明确可知且不只一个试验前不知道哪个结果会发生 例如&#xff1a;我们平时做的抛硬币、掷骰子试验都是随机试验。以抛硬币试验为例&#xff1a;①该试验可以重复进行多次&#xff1…

连续型随机变量

连续型随机变量&#xff1a;continuous random variables 即在一定区间内变量取值有无限个&#xff0c;或数值无法一一列举出来 如下面的例子 概率密度函数&#xff08;probability density function, pdf&#xff09;: 在数学理论中&#xff0c;一个连续型随机变量的概率密度…

概率论基础 —— 3.离散型、连续型概率模型,及其概率密度与概率分布函数

在前面的文章里&#xff0c;已经带大伙了解了概率论的概率事件类型&#xff0c;以及针对某些事件的发生概率&#xff0c;以及针对全部场景的某事件的发生概率等基本知识。不过对于统计学专业来说&#xff0c;或者实际应用来说&#xff0c;接触最多的还是离散型和连续型概率&…

概率论的离散型随机变量和连续型随机变量

借鉴大佬的 下面附上网址 https://blog.csdn.net/ckk727/article/details/103435150 随机变量 随机变量是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。 它是由于随机而获得的非确定值&#xff0c;是概率中的一个基本概念。 在经济活动中&#xff0c;随机变量是某…

计量经济学 联合假设检验 F统计量

考虑这样一个问题&#xff0c;现在你拥有1个被解释变量y和4个解释变量&#xff0c;如何判断x3,x4这2个变量是没有必要的&#xff1f; 或者换个说法&#xff0c;你现在有x1&#xff0c;x2这2个解释变量&#xff0c;突然你在寻找数据时&#xff0c;发现了另外2个变量x3&#xff0…

概率的性质——连续性

概率的连续性如下定义&#xff1a; 我们可以用韦恩图把他们表示出来&#xff0c;便于理解&#xff1a; 图1 对应性质&#xff08;1&#xff09; 图2 对应性质&#xff08;2&#xff09; 从图1中我们可以看出&#xff0c;集合单调不增&#xff0c;打个比方&#xff0c;此集合…

连续and离散系统的描述

系统的描述 系统的分类系统的框图表示系统的特性和分析方法时域离散系统 把最好的分享给大家&#xff0c;大家一起努力&#xff01; 系统的分类 连续系统与离散系统&#xff1a;输入和输出均为连续时间信号的系统称为连续时间系统&#xff1b;输入和输出均为离散时间信号的系统…

统计学:离散型和连续型随机变量的概率分布

主要随机变量一览表 随机变量概率分布均值方差一般离散型变量 p(x)的表、公式或者图 ∑xxp(x) ∑x(x−μ)2p(x) 二项分布 p(x)Cxnpxqn−x (x0,1,2,3⋅⋅⋅,n) np npq 泊松分布 p(x)λxe−λx! (x0,1,2,⋅⋅⋅) λ λ 超几何分布 p(x)CxrCn−xN−rCnN nrN r(N−r)n(N−n)N2(N−…

随机变量-离散-连续-假设检验方法

一组随机样本数据需要进行分析处理时&#xff0c;往往需要用到假设检验&#xff0c;对于离散变量discrete多用卡方检验&#xff0c;连续变量continuous用t检验或wilcoxon秩序和检验&#xff0c;具体的的使用场景如下 离散变量-卡方检验-适用条件 四格表&#xff1a; 所有的理…

常用的几种API获取ip地理位置的使用方法

最近公司让做一个用户登录、付费的时候记录操作人的地理位置。 搜了很多帖子&#xff0c;一开始用的淘宝的api&#xff0c;但是用了一段时间发现&#xff0c;这个api当获取的次数多了之后&#xff0c;就报404了&#xff0c;导致很多记录没有记录地址&#xff0c;虽然淘宝这个ap…

IP属地信息哪里来的?手把手教你实现通过IP查询属地信息

本文主要讲解IP查询属地信息的实现方法&#xff0c;以及基于Spring Boot实现IP属地信息查询项目。 〇、前言 近日&#xff0c;多个网络公众平台纷纷公开显示用户的IP属地&#xff0c;并且用户无法开启或关闭此功能。 用户的IP信息&#xff0c;平台是怎么知道的&#xff1f; …

php 精准定位到街道,ip地址查询精确到街道_ip查询详细地址带地图

ip地址查询精确的位置方法,我们知道,QQ能够查询到i地址对于的用户的位置,但是有时候因为运营商等原因导致 2.查询非移动网络3G/4G的IP地址;这是因为移动3G/4G网络下所使用的公网IP属于多人共用可以定位到街道级别。 IP定位工具(精准到.下载地址:http://pan.baidu.com/s/1o7…

IP地理位置定位技术原理是什么

IP地理位置定位技术的原理是基于IP地址的网络通信原理和基础上的。它利用IP地址所包含的一些信息&#xff0c;如网络前缀和地址段&#xff0c;以及ISP的IP地址归属地数据库&#xff0c;来推测IP地址所对应的地理位置。 具体来说&#xff0c;IP地址是由32位二进制数字组成的&…

Golang — 根据IP获取地理位置信息

Golang — 根据IP获取地理位置信息 1 介绍1.1 ip2region1.2 geoip2-golang1.3 总结 2 使用2.1 ip2region2.2 geoip2-golang 1 介绍 1 ip2region 2 geoip2-golang 1.1 ip2region ip2region 是一个离线IP地址定位库和IP定位数据管理框架&#xff0c;10微秒级别的查询效率&…

python通过ip获取地理位置等ip信息

作者讲话&#xff1a;本人是一个菜鸟勿喷本文章仅供娱乐。 ps&#xff1a;以后可以线下挑战了&#xff0c;直接顺着网线找到你&#xff01;哈哈哈 查询IP数据网站 使用结果1 ‘http://freeapi.ipip.net/ip’ 中文网站 使用结果2 ‘http://ip-api.com/json/ip’ 外国网站 实…

如何利用IP地址确定地理位置

近年来&#xff0c;基于IP地址的网络应用层出不穷&#xff0c;主要包括定向广告、社交网络、网络安全、网络服务性能优化、用户位置画像等。 互联网用户的物理位置对于很多不同类型的应用是有不同的用处的。以搜索引擎为首等应用通常会使用用户的位置来自定义对用户请求的响应。…

python根据IP查询地理位置

实现了输入ip地址返回该ip对应的信息。 如图&#xff1a;解释如下&#xff1a; 打开百度&#xff0c;输入ip打开调试界面&#xff0c;点击图中3号位置过滤在图中4号框位置输入想要查询的ip&#xff0c;然后点查询依次点击图中5、6&#xff0c;找到timestamp字段&#xff0c;粘…

教你如何使用ip地址进行高精度定位

IP这个概念大部分人都很熟悉了&#xff0c;这里IP的意思不是个人标签&#xff0c;而是IP地址&#xff08;英语&#xff1a;Internet Protocol Address&#xff09;是一种在Internet上的给主机编址的方式&#xff0c;也称为网际协议地址。IP地址是IP协议提供的一种统一的地址格式…