最小样本量计算

article/2025/10/24 18:26:36

总第179篇/张俊红

这一篇我们讲讲统计中的最小样本量计算。大家先想想为什么叫最小样本量,而不是最大或者直接叫样本量计算呢?

这是因为最小样本量这个概念主要用在抽样统计中,抽样统计为了研究某一事物的情况而从整体中抽取部分样本来进行研究,并用抽取的样本来代替整体的情况。比如要研究中学生的平均身高,你不太可能把全国的中学生身高都量一遍,然后求出一个平均值。比较简单的方法就是从全国中学生群体中抽取一部分,然后用这一部分同学的平均身高代替全国中学生的平均身高。

既然是用抽样样本的平均身高代替整体的平均身高,我们就需要考虑一个问题,就是抽出来的样本能不能代表整体。假设全国有1000万名中学生,你只抽了100个同学,想用这100位同学的平均身高代替这1000万同学的平均身高,很明显是不太合理的。那我们应该最少抽取多少样本才能够代表整体呢?这个最少抽取样本就是最小样本量,表示最少需要这么多样本量,当然也可以比这多,抽样样本越多结果越具有代表性。但是由于现实中尽可能多的样本很难获取,又为了保证抽样结果足够具有代表性,所以我们一般选择最小样本量。那这个最小样本量怎么确定呢?就是我们这一篇重点要讲的内容。

在讲最小样本量之前,我们先讲一下另一个概念,统计功效,即power值。这个在之前的文章中也提过,我们再提一下。

在假设检验中如果计算出来的P值小于等于显著性水平α,则拒绝零假设,否则接受原假设。在这个决策的过程中容易犯两种错误:第一类错误(I型错误)叫做弃真错误,通俗一点就是漏诊,就是本来是生病了(假设是正确的),但是你没有检测出来,所以给拒绝掉了;第二类错误(II型错误)是取伪错误,通俗一点就是误诊,就是本来没病(假设是错误的),结果你诊断说生病了(假设是正确的),所以就把假设给接受了。

最终判断H0本来正确H0本来错误
拒绝H0假设犯I型错误正确
接受H0假设正确犯II错误

下图中左边的分布图为H0对应的分布,右边的分布图为H1对应的分布,α为一型错误值,β为二型错误值。I型错误的值一般为0.05,II型错误的值一般为0.1或0.2,而power = 1 - β,表示H1分布下判断正确的把握是多少,即你有多大把握能够正确的拒绝掉H0假设。

(图片来源知乎@邱宗满)

上图中H1分布下对应的整体面积减去图中紫色部分的面积就是power的大小,具体计算公式如下:

Φ表示求z值对应的累计概率,即正态分布中的面积,Δ是两组样本均值之差, σ为各组样本标准差,n为样本数。

在一般AB实验中,我们假设AB两组是同质的,且样本量是一致的,所以有σ1 = σ2,n1 = n2,将上面的power公式进行转换最后可以得到如下关于样本量公式:

需要注意的是不同检验满足的分布是不一样的,对应的power公式也是不一样,而最小样本量公式也是从power来的,所以不同检验方式对应的最小样本量公式也是不一样的。我们本篇是以满足正态分布的Z检验为例。

你还可以看:

聊聊置信度与置信区间

统计学的假设检验


http://chatgpt.dhexx.cn/article/hmbUIVx4.shtml

相关文章

小样本算法库LibFewShot

小样本学习算法库 LibFewShot包含了 17 个 2017 年到 2020 年具有代表性的小样本学习算法,为小样本学习领域中算法对比采用统一框架、统一设置、实现公平对比等提供便利。 论文链接:https://arxiv.org/abs/2109.04898 Github 链接:https://g…

小样本学习之半监督的小样本分类

本次介绍的论文: 2018 - ICLR - 《Meta-Learning for Semi-Supervised Few-ShotClassification》 在上篇博客中介绍了原型网络,一种基于度量的小样本分类方法,核心思想便是在一个嵌入空间中将所有同类的样本拉到较近的位置,然后通过距离度量的方式来判断一个样本x属于哪一…

小样本学习之原型网络

本次介绍的论文 《Prototypical Networks for Few-shot Learning》 原型网络是解决小样本分类问题的一个比较实用且效果还不错的方法,这篇论文是在2016年NIPS上的一篇论文《Matching Networks for One Shot Learning》的基础上,进行了改进后而来的,改进后的方法简单且实用。…

小样本学习研究综述

小样本学习方法分类 基于模型微调的小样本学习方法基于数据增强的小样本学习基于无标签数据的方法基于数据合成的方法基于特征增强的方法 基于迁移学习的小样本学习基于度量学习的方法基于元学习的方法基于图神经网络的方法 展望 小样本学习目标:从少量样本中学习到…

小样本语义分割

小样本学习旨在通过极少的样本来完成新类的识别,在深度学习中,如果类别有充足的标注样本,深度模型可以从海量的数据分布中抽取到准确的类别表达,随着标注数据量的减少,数据将不能涵盖类别的完整分布,深度模…

小样本深度学习图像识别

深度学习方法极度依赖大规模标注数据, 这一缺陷极大地限制了深度学习方法在实际图像识别任务中的应用。 因此我们提出了小样本的图像识别 小样本图像识别任务需要机器学习模型在少量标注数据上进行训练和学习, 目前经常研究的问题为N-way K-shot形式, 即问题包括N种数据, 每种数…

小样本训练方法

在机器学习模型训练中,往往希望训练得到得模型具有很好的泛化能力,得到一个在训练集上表现很好的模型。为了达到这个目的,应该从训练样本中尽可能学出适用于所有潜在样本的“普遍规律”。然而,学得“太好”很可能出现过拟合现象。…

小样本学习综述

原文链接:https://mp.weixin.qq.com/s/-73CC3JqnM7wxEqIWCejWQ 问题定义 人类非常擅长通过极少量的样本识别一个新物体,比如小孩子只需要书中的一些图片就可以认识什么是“斑马”,什么是“犀牛”。在人类的快速学习能力的启发下,研…

小样本学习概述

前言 小样本学习(Few-Shot Learning)是近几年兴起的一个研究领域,小样本学习旨在解决在数据有限的机器学习任务。 小样本学习存在的意义? 近些年,以深度卷积神经网络为代表的深度学习方法在各类机器学习任务上取得了…

【少样本】学习综述:小样本学习研究综述

点击下面卡片,关注我呀,每天给你送来AI技术干货! 来源:知乎—Jy的炼丹炉 地址:https://zhuanlan.zhihu.com/p/389781532(侵删) 随着大数据时代的到来,深度学习模型已经在图像分类、文本分类等任务中取得了先进成果。但…

小样本学习

机器学习就是从数据中学习,从而使完成任务的表现越来越好。小样本学习是具有有限监督数据的机器学习。类似的,其他的机器学习定义也都是在机器学习定义的基础上加上不同的限制条件衍生出来。例如,弱监督学习是强调在不完整、不准确、有噪声、…

小样本(少样本)目标检测概述(few-shot object detection)

文章目录 一、小样本目标检测 vs 少样本目标检测二、小样本目标检测简介三、小样本目标检测的方法四、小样本目标检测现有的问题五、参考资料 一、小样本目标检测 vs 少样本目标检测 首先必须要分辨这两个概念。如果光看名字,我们可能会单纯的认为小样本就是代检测…

【学习笔记】小样本学习(Few-shot Learning)

参考视频:https://www.youtube.com/watch?vUkQ2FVpDxHg 文章目录 基本概念孪生网络(Siamese Network)Pretraining and Fine TuningFew-shot常用数据集参考资料 基本概念 小样本学习(few-shot learning)是什么&#x…

localStorage与location的用法

1、localStorage 是h5提供的客户端存储数据的新方法: 之前,这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储,因为它们由每个对服务器的请求来传递,这使得 cookie 速度很慢而且效率也不高。 设置存储时localStorage.s…

Locality-sensitive hashing

Locality-sensitive hashing (LSH) reduces the dimensionality of high-dimensional data. LSH hashes input items so that similar items map to the same “buckets” with high probability (the number of buckets being much smaller than the universe of possible inp…

localStorage 简介

localStorage是全局的公共对象 浏览器关闭了后不丢失,是永久存在的。(runoob.com上Window localStorage 属性里的笔记很清晰) // localStorage.user"sky"; console.log(localStorage.user);能够看出,存储过localStora…

localStroage

一、什么是localStroage、sessionStroage 在HTML5中,新加入了一个localStorage特性,这个特性主要是用来作为本地存储来使用的,解决了cookie存储空间不足的问题(cookie中每条cookie的存储空间为4k),localStorage中一般浏览器支持的…

localstorage用法

一、什么是localStorage、sessionStorage 在HTML5中,新加入了一个localStorage特性,这个特性主要是用来作为本地存储来使用的,解决了cookie存储空间不足的问题(cookie中每条cookie的存储空间为4k),localStorage中一般浏览器支持的…

Locality Sensitive Hashing

今天介绍Locality Sensitive Hashing(LSH)。不同以往,这次我先放参考文献,因为本文都是基于这些参考文献的个人理解和消化,强烈推荐先看我的再去看参考文献,以便能更好的理解参考文献。 文章目录 ReferencesIntroductionChalleng…

thread_local

一、介绍 thread_local这个关键字的是C11之后的产物,主要适用的场景是:本线程这个生命周期里面修改和读取,不会与别的线程相互影响。 在C中全局变量和static变量一般都是针对与整个进程里面共享的,一旦声明之后,所有的…