统计学⑤——假设验证

article/2025/10/14 12:49:56

统计学系列目录(文末有大奖赠送
统计学①——概率论基础及业务实战
统计学②——概率分布(几何,二项,泊松,正态分布)
统计学③——总体与样本
统计学④——置信区间

一、什么是假设验证?

当你从广告中,从别人口中,从新闻上等得到一个结论时,你要判断这个结论是否可信,假设验证就是这样一种判断是否值得可信的方法。

比如市面上很繁荣的IT培训,包你在三个月找到工作,这怎么验证真伪呢?先假设这句话是真的,再去选择一些参加过培训的人的,看找到工作的人有多少?如果都找到了那就值得信,但是由于各种各样的因素不太可能谁都找到,我们允许有一定的误差,假如5%,那就超过95%的都找到了,那也值得信。如果只有很少的人找到,我们就足以推翻这个结论,得到相反的结论。

二、假设验证的步骤有哪些?

1、设定原假设——参加培训的人90%都能找到工作,换成数字就是成功找到工作的比例P=90%
2、作好备择假设——成功找到工作的比例P<90%,这个叫单侧检验,根据实际情况可以选择单侧或双侧
3、设定检验统计量——成功找到工作的比例P,P服从二项分布,当满足特定条件时,二项分布可近似为正态分布,就可以通过标准化为N(0,1)分布获得概率分布
4、设定拒绝域——是指当样本的统计量的概率处于某个范围时,就可以拒绝原假设,一般以5%,也叫显著性水平
5、抽取样本——简单随机,分层,分群,系统抽样等尽量保证样本无偏
6、根据样本计算统计量并判断是否接受原假设——比如统计量为P=87%,没有落入拒绝哉,那就没有足够的证据推翻原假设,那就说明参加这个培训的人确实90%都能找到工作(虽然实际是不可能的,举个例子不要当真,哈哈)

三、假设验证常用的统计量

1、均值
统计量为μ,如果总体为正态分布,则不管大小样本,均值符合正太分布
如果总体是非正太分布,大样本可以近似为正态分布,小样本可以近似于T分布
2、比例
统计量P,如二中所说,在样本和总体比例满足:np>5且np(1-p)>5时, 比例可近似于正太分布
3、卡方
验证实际频数与预期频数是否一致,统计量为χ2,中文名就卡方(下文会解释),卡方服从卡方分布

四、卡方检验

1、卡方分布是什么?
在这里插入图片描述
假设随机变量X符合卡方分布,则概率分布曲线为:
在这里插入图片描述
n越大,曲线越趋向于对称,可以通过差表获得概率,这里要注意一点,概率表中是以自由度来查找概率,自由度 = 组数-限制数
两大性质:
在这里插入图片描述
主要用于:
① 检验实际概率是否符合特定概率分布
② 检验两变量是否具有相关性

2、卡方检验是什么?
卡方检验是实际频数与预期频数是否存在差别的度量χ2,χ2越小,说明观察频数与期望频数相差越小。
在这里插入图片描述
其中O是实际频数,E是理论频数

3、假设检验的步骤
与均值,比例假设检验步骤相同


本人互联网数据分析师,目前已出Excel,SQL,Pandas,Matplotlib,Seaborn,机器学习,统计学,个性推荐,关联算法,工作总结系列。


微信搜索并关注 " 数据小斑马" 公众号,回复“统计”可以免费获取下方深入浅出统计学、统计学原理、赤裸裸的统计学9本统计学入门到精通必备经典教材
在这里插入图片描述


http://chatgpt.dhexx.cn/article/HfgcYXvW.shtml

相关文章

统计基础(四)假设检验

Hypothesis Testing 1.中心极限定理Central Limit Theorem1.1 X ˉ \bar{X} Xˉ的抽样分布1.2 p ^ \hat{p} p^​的抽样分布1.3 二项的正态逼近 2.假设检验概念2.1 零假设与备则假设2.2 如何制定决策规则 3.假设性检验步骤3.1假设检验框架3.2术语定义3.3 proportion test步骤3…

连续性概率

提示&#xff1a;写完文章后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 欧拉常数连续型随机变数与概率密度函数正态分布标准正态分步检验t检验t假设 在我们将离散型数据的数值放大到无限&#xff0c;也就是讨论所谓的极限时&#xff0c; …

概率统计:离散分布和连续分布

1. 几种分布分类 (1) 离散分布&#xff1a;  伯努利分布&#xff08;零一分布&#xff0c;两点分布&#xff09;&#xff0c;二项分布&#xff0c;几何分布&#xff0c;泊松分布&#xff08;Poisson分布&#xff09; (2) 连续分布&#xff1a;  指数分布&#xff0c;正态分…

【概率论】随机试验、随机变量、离散型/连续型随机变量

1. 随机试验 满足以下3个条件的试验可以称为随机试验&#xff1a; 相同条件下可重复试验结果明确可知且不只一个试验前不知道哪个结果会发生 例如&#xff1a;我们平时做的抛硬币、掷骰子试验都是随机试验。以抛硬币试验为例&#xff1a;①该试验可以重复进行多次&#xff1…

连续型随机变量

连续型随机变量&#xff1a;continuous random variables 即在一定区间内变量取值有无限个&#xff0c;或数值无法一一列举出来 如下面的例子 概率密度函数&#xff08;probability density function, pdf&#xff09;: 在数学理论中&#xff0c;一个连续型随机变量的概率密度…

概率论基础 —— 3.离散型、连续型概率模型,及其概率密度与概率分布函数

在前面的文章里&#xff0c;已经带大伙了解了概率论的概率事件类型&#xff0c;以及针对某些事件的发生概率&#xff0c;以及针对全部场景的某事件的发生概率等基本知识。不过对于统计学专业来说&#xff0c;或者实际应用来说&#xff0c;接触最多的还是离散型和连续型概率&…

概率论的离散型随机变量和连续型随机变量

借鉴大佬的 下面附上网址 https://blog.csdn.net/ckk727/article/details/103435150 随机变量 随机变量是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。 它是由于随机而获得的非确定值&#xff0c;是概率中的一个基本概念。 在经济活动中&#xff0c;随机变量是某…

计量经济学 联合假设检验 F统计量

考虑这样一个问题&#xff0c;现在你拥有1个被解释变量y和4个解释变量&#xff0c;如何判断x3,x4这2个变量是没有必要的&#xff1f; 或者换个说法&#xff0c;你现在有x1&#xff0c;x2这2个解释变量&#xff0c;突然你在寻找数据时&#xff0c;发现了另外2个变量x3&#xff0…

概率的性质——连续性

概率的连续性如下定义&#xff1a; 我们可以用韦恩图把他们表示出来&#xff0c;便于理解&#xff1a; 图1 对应性质&#xff08;1&#xff09; 图2 对应性质&#xff08;2&#xff09; 从图1中我们可以看出&#xff0c;集合单调不增&#xff0c;打个比方&#xff0c;此集合…

连续and离散系统的描述

系统的描述 系统的分类系统的框图表示系统的特性和分析方法时域离散系统 把最好的分享给大家&#xff0c;大家一起努力&#xff01; 系统的分类 连续系统与离散系统&#xff1a;输入和输出均为连续时间信号的系统称为连续时间系统&#xff1b;输入和输出均为离散时间信号的系统…

统计学:离散型和连续型随机变量的概率分布

主要随机变量一览表 随机变量概率分布均值方差一般离散型变量 p(x)的表、公式或者图 ∑xxp(x) ∑x(x−μ)2p(x) 二项分布 p(x)Cxnpxqn−x (x0,1,2,3⋅⋅⋅,n) np npq 泊松分布 p(x)λxe−λx! (x0,1,2,⋅⋅⋅) λ λ 超几何分布 p(x)CxrCn−xN−rCnN nrN r(N−r)n(N−n)N2(N−…

随机变量-离散-连续-假设检验方法

一组随机样本数据需要进行分析处理时&#xff0c;往往需要用到假设检验&#xff0c;对于离散变量discrete多用卡方检验&#xff0c;连续变量continuous用t检验或wilcoxon秩序和检验&#xff0c;具体的的使用场景如下 离散变量-卡方检验-适用条件 四格表&#xff1a; 所有的理…

常用的几种API获取ip地理位置的使用方法

最近公司让做一个用户登录、付费的时候记录操作人的地理位置。 搜了很多帖子&#xff0c;一开始用的淘宝的api&#xff0c;但是用了一段时间发现&#xff0c;这个api当获取的次数多了之后&#xff0c;就报404了&#xff0c;导致很多记录没有记录地址&#xff0c;虽然淘宝这个ap…

IP属地信息哪里来的?手把手教你实现通过IP查询属地信息

本文主要讲解IP查询属地信息的实现方法&#xff0c;以及基于Spring Boot实现IP属地信息查询项目。 〇、前言 近日&#xff0c;多个网络公众平台纷纷公开显示用户的IP属地&#xff0c;并且用户无法开启或关闭此功能。 用户的IP信息&#xff0c;平台是怎么知道的&#xff1f; …

php 精准定位到街道,ip地址查询精确到街道_ip查询详细地址带地图

ip地址查询精确的位置方法,我们知道,QQ能够查询到i地址对于的用户的位置,但是有时候因为运营商等原因导致 2.查询非移动网络3G/4G的IP地址;这是因为移动3G/4G网络下所使用的公网IP属于多人共用可以定位到街道级别。 IP定位工具(精准到.下载地址:http://pan.baidu.com/s/1o7…

IP地理位置定位技术原理是什么

IP地理位置定位技术的原理是基于IP地址的网络通信原理和基础上的。它利用IP地址所包含的一些信息&#xff0c;如网络前缀和地址段&#xff0c;以及ISP的IP地址归属地数据库&#xff0c;来推测IP地址所对应的地理位置。 具体来说&#xff0c;IP地址是由32位二进制数字组成的&…

Golang — 根据IP获取地理位置信息

Golang — 根据IP获取地理位置信息 1 介绍1.1 ip2region1.2 geoip2-golang1.3 总结 2 使用2.1 ip2region2.2 geoip2-golang 1 介绍 1 ip2region 2 geoip2-golang 1.1 ip2region ip2region 是一个离线IP地址定位库和IP定位数据管理框架&#xff0c;10微秒级别的查询效率&…

python通过ip获取地理位置等ip信息

作者讲话&#xff1a;本人是一个菜鸟勿喷本文章仅供娱乐。 ps&#xff1a;以后可以线下挑战了&#xff0c;直接顺着网线找到你&#xff01;哈哈哈 查询IP数据网站 使用结果1 ‘http://freeapi.ipip.net/ip’ 中文网站 使用结果2 ‘http://ip-api.com/json/ip’ 外国网站 实…

如何利用IP地址确定地理位置

近年来&#xff0c;基于IP地址的网络应用层出不穷&#xff0c;主要包括定向广告、社交网络、网络安全、网络服务性能优化、用户位置画像等。 互联网用户的物理位置对于很多不同类型的应用是有不同的用处的。以搜索引擎为首等应用通常会使用用户的位置来自定义对用户请求的响应。…

python根据IP查询地理位置

实现了输入ip地址返回该ip对应的信息。 如图&#xff1a;解释如下&#xff1a; 打开百度&#xff0c;输入ip打开调试界面&#xff0c;点击图中3号位置过滤在图中4号框位置输入想要查询的ip&#xff0c;然后点查询依次点击图中5、6&#xff0c;找到timestamp字段&#xff0c;粘…