统计学知识梳理(三)假设检验

article/2025/6/17 12:03:03

1、假设检验的步骤:

第1步:确定零假设和备选假设 零假设( H 0 H_{0} H0): 备选假设( H 1 H_{1} H1):

第2步:证据是什么?(计算p值) 在零假设成立的前提下,从总体中随机抽样得到一个样本,并计算这个样本发生的可能性有多大(P值)。

第3步:判断标准是什么?(显著性水平) 假设检验常用的判断标准是5%,在假设检验里叫做“显著水平”,用符号α,

第4步: 做出结论 如果,P值 < α 说明小概率事件发生了,则拒绝 H 0 H_{0} H0。否则接受 H 1 H_{1} H1

例题:
在这里插入图片描述
分析:

第1步:确定零假设和备选假设

零假设 H 0 H_{0} H0:药物无效,即 μ = 1.2 s \mu=1.2s μ=1.2s
备选假设 H 1 H_{1} H1:药物有效,即 μ ≠ 1.2 s \mu \neq 1.2s μ=1.2s

第2步:计算p值

在假设 H 0 H_{0} H0正确的前提下,计算出样本均值 x ‾ = 1.05 \overline{x}=1.05 x=1.05、标准差 S=0.5 这一结果的概率P。

抽样分布如图:
在这里插入图片描述
计算出抽样分布的均值 μ x = μ = 1.2 s \mu_{\mathrm{x}}=\mu=1.2 \mathrm{s} μx=μ=1.2s,

标准差 σ x ‾ = σ 100 ≈ S 100 = 0.5 10 = 0.05 \sigma_{\overline{x}}=\frac{\sigma}{\sqrt{100}} \approx \frac{S}{\sqrt{100}}=\frac{0.5}{10}=0.05 σx=100 σ100 S=100.5=0.05

计算1.05秒离抽样分布均值有多少个标准差远,也就是 z z z 值:

z = 1.2 − 1.05 0.05 = 3 z=\frac{1.2-1.05}{0.05}=3 z=0.051.21.05=3
根据经验法则,3个标准差内的概率是99.7%,求出P值为1-99.7 %=0.3 %,P=0.3%。

第3步:显著性水平

显著性水平取5%。

第4步: 做出结论

如果 H 0 H_{0} H0成立,只有不到0.3%的几率得到抽样结果,P值小于 α \alpha α, 因此结果更倾向于拒绝 H 0 H_{0} H0假设,支持 H 1 H_{1} H1假设,即药物有效果。

2、单侧检验和双侧检验

在这个例题中,我们只是检验药物是否存在效果,不管是正效果还是反效果都认为是有效,这称为双侧检验
将备选假设 H 1 H_{1} H1 改为用药降低反应时间,就变成了单侧检验

3、z统计量和t统计量
z值代表离均值有多少个标准差远,公式可以写成:

z = x ‾ − μ x ‾ σ n z=\frac{\overline{x}-\mu_{\overline{x}}}{\frac{\sigma}{\sqrt{n}}} z=n σxμx

但一般情况下总体标准差 σ \sigma σ 通常是未知的,当样本容量n>30时,可以用样本标准差S作为估计值,这时是符合正态分布的:

z = x ‾ − μ x ‾ S n z=\frac{\overline{x}-\mu_{\overline{x}}}{\frac{S}{\sqrt{n}}} z=n Sxμx
但如果样本容量n<30时,就不服从正态分布了,服从t分布:

t = x ‾ − μ x ‾ S n t=\frac{\overline{x}-\mu \overline{x}}{\frac{S}{\sqrt{n}}} t=n Sxμx

对应的查t值表就可以了。

4、第一类错误

第一类错误:原假设是正确的,却拒绝了原假设。(错杀好人)
第二类错误:原假设是错误的,却没有拒绝原假设。(放走坏人)

5、大样本伯努利占比假设检验

我们要检验一个假设,即超过30%美国家庭拥有互联网接入,显著性水平5%。我们采集了150个家庭作为样本,结果57家拥有接入。
分析:

第1步:确定零假设和备选假设

零假设 H 0 H_{0} H0:美国家庭网络接入<=30%
备选假设 H 1 H_{1} H1:美国家庭网络接入>30%

第2步:计算p值

我们要根据零假设得到一个总体中的占比值,在这个假设下,看150户中有57户接入网络的概率是多少?如果该概率小于5%,我们就拒绝零假设,承认备择假设。
样本均值:57/150=0.38
样本标准差:S=0.38*0.62

假设 P H 0 = 0.3 P_{H_{0}}=0.3 PH0=0.3
零假设下,总体均值为0.3,总体标准差: σ H 0 = 0.3 × 0.7 = 0.21 \sigma_{H_{0}}=\sqrt{0.3 \times 0.7}=\sqrt{0.21} σH0=0.3×0.7 =0.21

样本抽样分布:多次二项分布抽样 np>5时(p为小于1的数,np大于5 表示n的值比较大,表示这是一个大样本),该样本抽样分布满足正态分布。零假设下,np= 150*0.3 >5 ,我们认为零假设下的抽样分布满足正太分布。
所以抽样分布均值 μ \mu μ=0.3,

抽样分布标准差 σ p = σ H o 150 = 0.037 \sigma_{p}=\frac{\sigma_{H o}}{\sqrt{150}}=0.037 σp=150 σHo=0.037

求样本均值与 抽样分布均值之间的标准差数,即z值:
z = 0.38 − 0.3 0.037 = 2.14 z=\frac{0.38-0.3}{0.037}=2.14 z=0.0370.380.3=2.14
查询Z分布表 5%的概率为1.65个标准差。而2.41 > 1.65 即 零假设下,样本均值距总体均值的距离大于5%的概率下的标准差距离,也就是样本均值落入小于5%概率下的均值分布,拒绝零假设。

6、随机变量之差的方差

结论一:随机变量之差的均值等于均值之差: μ X − Y = μ X − μ Y \mu_{X-Y}=\mu_{X}-\mu_{Y} μXY=μXμY

结论二:两独立随机变量之差的方差等于两个随机变量分别的方差之和: σ X − Y 2 = σ X 2 + b Y 2 \sigma_{X-Y}^{2}=\sigma_{X}^{2}+b_{Y}^{2} σXY2=σX2+bY2

7、总体占比的比较

选举中,我想知道男人和女人都给某些候选人的占比是否有显著不同?
男性中 投给某候选人的占比为p1,不投给这个候选人的占比为1-p1. 投给此候选人为1,不投给此候选人为0.
女性中 投给这个候选人的占比为p2,不投给这个候选人的占比为1-p2. 投给此候选人为1,不投给此候选人为0.

这两个都是伯努利分布。

男:均值=p1,方差=p1*(1-p1)

女:均值=p2,方差=p2*(1-p2)

所求:p1 和 p2 是否有显著差异?也就是 p1 - p2的分布。

我们希望求出一个95%的置信区间,为此我们调查了1000个男性 和 1000个女性投票者。

样本男:642投了此候选人,记为1 358未投此候选人,记为0. p1 = 0.642 方差=0.6420.358
样本女:591投了此候选人,记为1 409未投此候选人,记为0. p2 = 0.591 方差=0.5910.409

由于样本容量大,所以随机抽样分布接近正态分布:

随机抽样均值分布男 总体均值=样本均值=0.642 总体方差=方差=0.6420.358/1000(大容量样本下 我们用样本方差估计总体方差)
随机抽样均值分布女 总体均值=样本均值=0.591 总体方差=方差=0.5910.409/1000(大容量样本下 我们用样本方差估计总体方差)

随机抽样均值差分布 分布均值=0.642-0.591=0.051 方差=0.6420.358/1000 + 0.5910.409/1000=0.022X0.022
差值分布95%的置信区间 查表可知 z=1.96 ,d=1.96X0.022=0.043

所以 有95%机率均总体占比之差落在样本占比之差左右0.043范围内 即:p1-p2的95%置信区间是[0.008,0.094]

假设检验:
零假设:投票男女占比无差别 即总体差值 p1-p2 = 0
备择假设:投票男女占比有差别 即总体差值 p1-p2 != 0
使用显著性水平5%进行检验

零假设下:总体差值分布的均值为0,样本差值=0.051,求出0.051距离0有几个标准差?

查Z表可知:正态分布下,2.5%的z值=1.96。如果0.051距离0的标准差数>1.96,说明样本概率小于5%,这样就可以拒绝零假设。

零假设下:p1=p2,方差有更好的估计值,即 方差=2p(1-p)/1000 p=(642+591)/2000 则标准差=0.0217
0.051/0.0217=2.35

2.35>1.96,所以我们拒绝零假设。


http://chatgpt.dhexx.cn/article/f55sLPws.shtml

相关文章

re2-2020-11-01(Google regrex)库编译

google的正规表达式库&#xff0c;也应该是非常好用的。 PCRE尽量用静态库的。 看一下测试例子&#xff1a; 。。。 通过。 多谢&#xff0c;亲爱的美美。

Windows 下正则表达式库 re2 在 C++ 和 Python 中的编译和使用

相信平时在工作或学习中需要处理大量正则表达式的同志们对 google 大名鼎鼎的 re2 模块一定不陌生,但之前在网上进行搜索时,很多人说无法在 windows 系统使用该模块。本文简述了 windows 系统下 re2 模块在 C++ 和 Python 中的使用。现以 64bit 为例,将其编译过程介绍如下,…

[SWPUCTF 2021 新生赛]re2

题目链接&#xff1a;下载链接 查壳后发现无壳&#xff0c;用IDA打开&#xff0c;按f5看伪代码。 首先给了str2字符串数组&#xff0c;然后‘printf(&Format)‘&#xff0c;点击Format可以知道是让你输入flag,所以str即flag。v7为str长度&#xff0c;for循环对str进行遍历…

攻防世界逆向高手题之re2-cpp-is-awesome

攻防世界逆向高手题之re2-cpp-is-awesome 继续开启全栈梦想之逆向之旅~ 这题是攻防世界逆向高手题的re2-cpp-is-awesome 下载附件&#xff0c;照例扔入exeinfope中查看信息&#xff1a; 64位ELF文件&#xff0c;无壳&#xff0c;运行一下查看主要显示字符串&#xff1a; …

ISCC之Re2

硬核rust逆向 首先去学了一天rust。。。我TMD IDA打开&#xff0c;跟踪主函数 看一下伪代码&#xff0c;发现有一串密文 跟进去发现一串数据&#xff0c;猜测有可能是flag的加密数据&#xff0c;于是回头去分析算法 发现一个关键点 if ( v16 v24 ) break; v2 ((*(_DWORD *)(v…

xctf攻防世界 REVERSE 高手进阶区 re2-cpp-is-awesome

0x01. 进入环境&#xff0c;下载附件 题目给出的是一个无后缀文件&#xff0c;我们将其下载。先看看是否有套壳&#xff0c;发现没有套壳。那么接下来就老套路了 0x02. 问题分析 我们使用IDA Pro打开文件&#xff0c;找到main函数&#xff0c;反编译文件&#xff0c;得到代码…

【比赛writeup】2023省赛-Reverse-Re2

2023省赛-Reverse-Re2 一、概要 1、标题&#xff1a;Re2 2、关键字&#xff1a;换表BASE64 3、比赛&#xff1a;2023省赛 4、工具&#xff1a;IDAx64、python 二、开始 1、题目分析 逆向的题目&#xff0c;找到关键字符串&#xff0c;找到关键函数&#xff0c;分析函数逻辑…

RE2:Simple and Effective Text Matching with Richer Alignment Features

原文链接&#xff1a;https://aclanthology.org/P19-1465.pdf 2019 ACL 介绍 问题 作者认为之前文本匹配模型中序列对齐部分&#xff0c;过于复杂。只有单个inter-sequence alignment层的模型&#xff0c;常会引入外部信息&#xff08;例如语法特征&#xff09;作为额外输入&am…

【NLP】文本匹配——Simple and Effective Text Matching with Richer Alignment Features阅读与总结(RE2)

背景 前文已经介绍了【NLP】文本匹配——Enhanced LSTM for Natural Language Inference&#xff0c;其实2017年发表的&#xff0c;文中使用了两个LSTM进行特征提取&#xff0c;总的来说参数多&#xff0c;速度慢&#xff0c;还不能并行处理。今天我们再来看看阿里巴巴和南京大…

Re2:读论文 CS-GNN Measuring and Improving the Use of Graph Information in Graph Neural Networks

诸神缄默不语-个人CSDN博文目录 论文下载地址&#xff1a;https://openreview.net/attachment?idrkeIIkHKvS&nameoriginal_pdf 代码&#xff1a;yifan-h/CS-GNN: Measuring and Improving the Use of Graph Information in Graph Neural Networks 论文引用方式&#xf…

ctfshow re2

打开附件如下 勒索病毒我去上网查了一下&#xff0c;发现是通过加密数据&#xff0c;所以这个题可能和加密有关&#xff0c;除了勒索病毒还有一个enflag.txt打开如下 先不管这个 第一步查壳这个exe程序 无壳。 第二步用ida32位打开这个 shiftf12查看字符 有个充值成功&#xf…

CTFShow re2 (RC4

参考&#xff1a;CTFSHOW re2 本文&#xff1a;跟着大佬的博客一步一步做CTFShow re2的记录 IDA分析 有个比较函数 re一下 s "DH~mqqvqxB^||zllJq~jkwpmvez{" s1 for i in s:s1 chr(ord(i) ^ 0x1f) print(s1)得到 再四处看看 跟进sub_401028 四个sub点进去看看…

2023年天津市逆向re2.exe解析-比较难(超详细)

2023年天津市逆向re2.exe解析(较难) 1.拖进IDA里进行分析2.动态调试3.编写EXP脚本获取FLAG4.获得FLAG1.拖进IDA里进行分析 进入主程序查看伪代码 发现一个循环,根据行为初步判定为遍历输入的字符并对其ascii^7进行加密 初步判断sub_1400ab4ec为比较输入和flag的函数 跟进u…

RE2..

RE2 Simple and Effective Text Matching with Richer Alignment Features Simple and Effective Text Matching with Richer Alignment Features 论文提出了一种快速且高效的文本匹配模型&#xff0c;建议保留三个可用于序列间对齐的关键特征&#xff1a;原始点对齐特征、先前…

RE2正则表达式引擎资料

2019独角兽企业重金招聘Python工程师标准>>> 官网RE2&#xff0c;C正则表达式库实战《自动机理论 语言和计算导论》 转载于:https://my.oschina.net/letiantian/blog/280743

Go与Re2正则

Golang支持Re2正则标准&#xff08;实际上并不支持全部&#xff0c;只是Re2语法的子集&#xff09;&#xff0c;本文介绍一些Golang正则支持语法的解释。 1、Regex Flags 1、贪婪和非贪婪&#xff1a; 正则匹配的时候一个个字符向后找。贪婪就是即使已经匹配了还会尝试向后找…

【文本匹配】之 RE2论文详解

RE2 - Simple and Effective Text Matching with Richer Alignment Features 这篇论文来自阿里&#xff0c;19年的ACL论文。《Simple and Effective Text Matching with Richer Alignment Features》&#xff1a;https://arxiv.org/abs/1908.00300 Intro 很多深层网络只拥有…

文本匹配、文本相似度模型之RE2

简单有效的文本匹配&#xff0c;具有更丰富的对齐功能 github: https://github.com/daiyizheng/shortTextMatch/blob/master/src/DL_model/classic_models/models/RE2.py 本文作者提出了一种快速、强神经网络的通用文本匹配方法。保持序列间对齐可用的三个关键特征:原始点方向…

RE2,C++正则表达式库实战

RE2简介 RE2是,一个高效、原则性的正则表达式库&#xff0c;由Rob Pike和Russ Cox两位来自google的大牛用C实现。他俩同时也是Go语言的主导者。Go语言中的regexp正则表达式包&#xff0c;也是RE2的Go实现。 RE2是&#xff0c;一个快速、安全&#xff0c;线程友好&#xff0c;PC…

DB9接口定义

注意上表是公头的引脚定义&#xff0c;公头与母头的引脚编号是轴对称的&#xff0c;因此将公头和母头连接时是相同序号的引脚相连接。 作为串口使用时要注意&#xff0c;公头的2号是RXD&#xff0c;因而母头的2号是TXD&#xff0c;公头的3号是TXD&#xff0c;因而母头的3号是RX…