你们要的最小样本量计算来了。

article/2025/3/15 9:02:23

总第179篇/张俊红

这一篇我们讲讲统计中的最小样本量计算。大家先想想为什么叫最小样本量,而不是最大或者直接叫样本量计算呢?

这是因为最小样本量这个概念主要用在抽样统计中,抽样统计为了研究某一事物的情况而从整体中抽取部分样本来进行研究,并用抽取的样本来代替整体的情况。比如要研究中学生的平均身高,你不太可能把全国的中学生身高都量一遍,然后求出一个平均值。比较简单的方法就是从全国中学生群体中抽取一部分,然后用这一部分同学的平均身高代替全国中学生的平均身高。

既然是用抽样样本的平均身高代替整体的平均身高,我们就需要考虑一个问题,就是抽出来的样本能不能代表整体。假设全国有1000万名中学生,你只抽了100个同学,想用这100位同学的平均身高代替这1000万同学的平均身高,很明显是不太合理的。那我们应该最少抽取多少样本才能够代表整体呢?这个最少抽取样本就是最小样本量,表示最少需要这么多样本量,当然也可以比这多,抽样样本越多结果越具有代表性。但是由于现实中尽可能多的样本很难获取,又为了保证抽样结果足够具有代表性,所以我们一般选择最小样本量。那这个最小样本量怎么确定呢?就是我们这一篇重点要讲的内容。

在讲最小样本量之前,我们先讲一下另一个概念,统计功效,即power值。这个在之前的文章中也提过,我们再提一下。

在假设检验中如果计算出来的P值小于等于显著性水平α,则拒绝零假设,否则接受原假设。在这个决策的过程中容易犯两种错误:第一类错误(I型错误)叫做弃真错误,通俗一点就是漏诊,就是本来是生病了(假设是正确的),但是你没有检测出来,所以给拒绝掉了;第二类错误(II型错误)是取伪错误,通俗一点就是误诊,就是本来没病(假设是错误的),结果你诊断说生病了(假设是正确的),所以就把假设给接受了。

最终判断H0本来正确H0本来错误
拒绝H0假设犯I型错误正确
接受H0假设正确犯II错误

下图中左边的分布图为H0对应的分布,右边的分布图为H1对应的分布,α为一型错误值,β为二型错误值。I型错误的值一般为0.05,II型错误的值一般为0.1或0.2,而power = 1 - β,表示H1分布下判断正确的把握是多少,即你有多大把握能够正确的拒绝掉H0假设。

(图片来源知乎@邱宗满)

上图中H1分布下对应的整体面积减去图中紫色部分的面积就是power的大小,具体计算公式如下:

Φ表示求z值对应的累计概率,即正态分布中的面积,Δ是两组样本均值之差, σ为各组样本标准差,n为样本数。

在一般AB实验中,我们假设AB两组是同质的,且样本量是一致的,所以有σ1 = σ2,n1 = n2,将上面的power公式进行转换最后可以得到如下关于样本量公式:

需要注意的是不同检验满足的分布是不一样的,对应的power公式也是不一样,而最小样本量公式也是从power来的,所以不同检验方式对应的最小样本量公式也是不一样的。我们本篇是以满足正态分布的Z检验为例。

你还可以看:

聊聊置信度与置信区间

统计学的假设检验


http://chatgpt.dhexx.cn/article/HSrc6Eii.shtml

相关文章

问卷分析预调查之确定样本容量

在问卷预调查,不仅能够检验出不符合的题项,也能确定调查所需要的样本容量,根据以下公式可以确定 公式介绍:n 表示样本数量, Z 表示置信水平, σ 表示样本总量中某一特定属性样本的比例(比如说在…

如何确定抽样的样本数量

总体为9200人,预设的整体置信度为95%,最大容许误差为正负5%,求样本容量 网上搜到的第一个有价值的内容如下: 题目 某公司对60000人中的吸烟比例做调查,置信度为95%的情况下,若要使误差保持在4%以内,需要的最小样本容量是 这里并…

样本容量的确定

• 样本容量: 样本中个体的数目或组成抽样总体的单位数。 • 必要样本容量 : 亦称必要样本单位数,是指满足调查目的要求的情况下,至少需要选择的样本单位数。 一、估计总体均值时样本容量的确定 1.重复抽样 一旦确定了置信水平&…

Topic 5. 样本量确定及分割

每次做方案设计的时候,都会涉及到一个尖锐的问题,客户会问我得用多少的样本量才能发文章,这个嘛,事情从理论上回答还是有依据的,但是从实际出发永远都是 “理想很丰满,现实很骨感!” 。不过还是…

参数估计-两个参数总体区间估计、样本量确定(三)

2019独角兽企业重金招聘Python工程师标准>>> 一、两个总体均值之差的区间估计 1、大样本估计 两个总体为正态分布,或两个总体不服正态分布但两个样本都为大样本,根据抽样分布知识可知 两个样本均值只差 服从期望为(μ1-μ2)、方差为( )的正态分布,转化为标准…

ABtest如何确定样本量?

如何计算样本量 商业分析的面试,很少会让面试者直接默写公式并进行计算。为啥?一,面试官八成自己也不记得公式。二,真实工作都是用网上的计算器,一键呵成,无需手算。 网上随手找的的sample size计算器 那么…

Topic 5. SCI 文章之样本量确定及分割

**每次做方案设计的时候,都会涉及到一个尖锐的问题,客户会问我得用多少的样本量才能发文章,这个嘛,事情从理论上回答还是有依据的,但是从实际出发永远都是 “理想很丰满,现实很骨感!” 。不过还…

AB实验样本量确定

文章目录 1. 统计功效与关键概念2. Z检验样本量确定2.1 统计功效公式推导2.2 样本量计算公式2.3 求解样本量 3. 卡方检验样本量确定3.1 求解样本量 4. 简要总结Reference 在数据分析过程中, 一个完整的闭环是从数据中得到洞察,根据洞察得到某种假设&…

临床试验中样本量确定的统计学考虑

样本量确定(sample size determination),又称样本量估计(sample size estimation),是指为满足统计的准确性和可靠性(I类错误的控制和检验效能的保证)计算出所需的样本量,它是临床试验设计中一个极为重要的环节,直接关系到研究结论…

在前端中的缓存

http缓存 http缓存基本认识 http缓存分为强缓存和协商缓存 1、浏览器在加载资源时,先根据这个资源的一些http header判断它是否命中强缓存,强缓存如果命中,浏览器直接从自己的缓存中读取资源,不会发请求到服务器。比如某个css文…

前端缓存方案

前端几种本地缓存机制_蜗牛小前的博客-CSDN博客_前端本地缓存在漫长的前端开发过程中,我们常用的几种本地缓存机制:Cookie,LocalStorge,SessionStorge 1.Cookie的特点1)cookie的大小受限制,cookie大小被限制在4KB,不能…

【前端】深入浅出缓存原理

缓存的基本原理 对于前端来说,缓存主要分为浏览器缓存(比如 localStorage、sessionStorage、cookie等等)以及http缓存,也是本文主要讲述的。 当然叫法也不一样,比如客户端缓存大概包括浏览器缓存和http缓存 所谓htt…

前端浏览器缓存机制

目录 1 缓存定义及其优点2 强缓存2.1 expires 和 Cache-Control 3 协商缓存4 浏览器缓存位置 1 缓存定义及其优点 什么是缓存? 当我们第一次访问网站的时候,电脑会把网站上的图片和数据下载到电脑上,当我们再次访问的时候,网站就会…

前端缓存机制

目录 前言 目的 缓存过程分析 强制缓存(强缓存) 强制缓存的缓存规则 浏览器的缓存存放在哪里 协商缓存 更新缓存 合理应用缓存 前言 对于浏览器缓存,每个前端开发者应该都不会陌生,同时它也是我们在日常开发中存在的一个…

前端缓存【web缓存】

前端缓存--http缓存 web缓存http缓存定义优点缺点http缓存类型 强缓存Expires实现的强缓存Cache-control实现的强缓存 协商缓存last-modified实现的协商缓存ETag实现的协商缓存缺点 设置缓存文件缓存(html、js、css、png)总结 web缓存 web缓存主要指:浏…

前端缓存(HTTP缓存、浏览器缓存)浅析

前端缓存 文章目录 前端缓存缓存分类1、http缓存(1)强缓存(本地缓存)启发式缓存 (2)协商缓存(弱缓存) 2、浏览器缓存 其他响应头和请求头参数刷新正常重新加载硬性重新加载清空缓存并硬性重新加载 调试缓存 缓存分类 1、http缓存 …

前端缓存最佳实践

点击上方“前端开发博客”,选择“设为星标” 回复“2”加入前端群 作者:黑金团队https://juejin.cn/post/6844903737538920462 前言 缓存,这是一个老生常谈的话题,也常被作为前端面试的一个知识点。本文,重点在与探讨在…

技术点:前端缓存分类及使用

前端缓存 什么是 web 缓存(前端缓存) web 缓存主要指的是两部分:浏览器缓存和 http 缓存 浏览器缓存:比如,localStorage,sessionStorage,cookie 等等。这些功能主要用于缓存一些必要的数据,比如用户信息。比如需要携…

前端缓存详解

目录 前言 一、按缓存位置分类 HTTP状态码及区别 几种状态的执行顺序 Memory Cache Disk Cache Service Worker 请求网络 二、HTTP 缓存 HTTP 缓存分类 强缓存原理 协商缓存原理 更新和废弃缓存 三、缓存小结 四、缓存的优点 五、浏览器缓存策略 五、缓存的应…

一文!彻底弄懂前端缓存

前端缓存 前端缓存,这是一个老生常谈的话题,也常被作为前端面试的一个知识点。今天我们再来总结一下。 分类 前端缓存分为强缓存和协商缓存两种。 强缓存 强缓存主要使用Expires、Cache-Control 两个头字段,两者同时存在Cache-Control 优先级…