ABtest如何确定样本量?

article/2025/3/16 11:53:33

如何计算样本量

商业分析的面试,很少会让面试者直接默写公式并进行计算。为啥?一,面试官八成自己也不记得公式。二,真实工作都是用网上的计算器,一键呵成,无需手算。

网上随手找的的sample size计算器

那么,我们现在来看看这个计算器的正确使用方法。

这个计算器需要4个输入。有了这四个输入,就一定能够算出所需样本量。这四个输入分别是:

  • Statistical power
  • Significance level
  • Baseline rate
  • Minimum detectable effect

我们看看每个输入是什么意思。

Statistical Power和Significance Level

要搞清这两个概念,我们应该先简短回顾一下A/B实验的基本知识。

首先,A/B测试包含两个假设:

  • 原假设(Null hypothesis, 也叫H0):我们希望通过实验结果推翻的假设。在我们的例子里面,原假设可以表述为“红色按钮和绿色按钮的点击率一样”。
  • 备择假设(Alternative hypothesis, 也叫H1):我们希望通过实验结果验证的假设。在我们的例子里面,可以表述为“红色按钮和绿色按钮的点击率不同”。

A/B测试的本质,就是通过实验数据做出判断:H0到底正不正确?

如果我们找到每一个用户做产品调查,我们可以统计出一个真实的、无偏差的关于绿色按钮是否有效的结论。我们把这个结论叫做ground truth。

把通过实验数据得出的结论和ground truth进行比较,一共会出现4种情况:

情况1:点击率无区别(H0正确),你却说有区别。

由于判断错了,我们把这类错误叫做第一类错误(Type I error),我们把第一类错误出现的概率用α表示。这个α,就是Significance Level。

在商业背景下,第一类错误意味着新的产品对业务其实没有提升,我们却错误的认为有提升。这样的决定,不仅浪费了公司的资源,而且部分人得到了不应得的奖励。

在非商业背景下,第一类错误往往更加可怕。比如好人被判刑进监狱,健康人被误诊送去化疗。

所以,在做A/B测试的时候,我们希望第一类错误越低越好。实际操作中,我们把α人为定一个上限,一般是5%。也就是说,在做实验的时候,我们都会保证第一类错误出现的概率永远不超过5%。

情况2:点击率无区别(H0正确),你说没区别。

判断正确!但好像没啥可说的...

情况3:点击率有区别(H1正确),你说有区别。

判断正确。我们把做出这类正确判断的概率叫做Statistical Power

要记得,我们的做实验的根本目的是为了检测出红色按钮和绿色按钮的点击率差别。如果power低,证明即使新产品真的有效果,实验也不能检测出来。换句话说,我们的实验无卵用。

极端情况,假设power=50%。这意味着如果绿按钮真的提升了点击率,实验只能有50%概率检测出来。领导们知道了是要拍桌子的...

情况4:点击率有区别(H1正确),你说没区别。

我们的判断又错了。这类错误叫做第二类错误(Type II error),用β表示。根据条件概率的定义,可以计算出β = 1 - power。

总结一下,对于我们的实验:

  • 第一类错误α不超过5%。也就是说,Significance Level = 5%
  • 第二类错误β不超过20%。也就是说,Statistical Power = 1 -β = 80%

对两类错误上限的选取(α是5%,β是20%),我们可以了解到A/B实验的重要理念:宁肯砍掉4个好的产品,也不应该让1个不好的产品上线。

Baseline Rate

这个看的是在实验开始之前,对照组本身的表现情况。在我们的实验里,baseline就是红色按钮的历史点击率。从直观上我们可以这么理解baseline:

  • 当baseline很大(接近1)或者很小(接近0)的时候,实验更容易检测出差别(power变大),如果保持power不变,那么所需要的样本数量变小。举个例子,假设红色按钮的点击率是0%。那么,哪怕绿色按钮只有一个用户点击,相对于对照组来说也是挺大的提升。所以即便是微小的变化,实验也会更容易地检测出来。
  • 同理,当baseline居中(在0.5附近徘徊)的时候,实验的power会变小。

在工作中,这个参数完全是历史数据决定的。在我们的实验中,我们假定,实验开始之前的历史点击率是15%。所以Baseline Rate=15%

Minimum Detectable Effect

顾名思义,这个参数衡量了我们对实验的判断精确度的最低要求。

  • 参数越大(比如10%),说明我们期望实验能够检测出10%的差别即可。检测这么大的差别当然比较容易(power变大),所以保持power不变的情况下,所需要的样本量会变小。
  • 参数越小(比如1%),说明我们希望实验可以有能力检测出1%的细微差别。检测细微的差别当然更加困难(power变小),所以如果要保持power不变的话,需要的样本量会增加。

在工作中,这个参数的选定往往需要和业务方一起拍板。在我们的实验中,我们选定Minimum Detectable Effect=5%。这意味着,如果绿色按钮真的提高了点击率5个百分点以上,我们希望实验能够有足够把握检测出这个差别。如果低于5个百分点,我们会觉得这个差别对产品的改进意义不大(可能是因为点击率不是核心指标),能不能检测出来也就无所谓了。

给计算器填数

好了,我们现在把4个数字分别填入计算器。

结果表明,跑我们这个实验,实验组对照组各需要大约36k用户,也就是总共72k。

一般的互联网产品比如Facebook,这个样本量就是个零头(FB日活15亿,72K个用户可以忽略不计 )。所以,这就是为什么互联网公司可以几百个实验同时跑,同时保证了每个实验都有足够的样本量。

总结

通过使用样本量计算器,我们知道了决定样本量的4个参数、以及这4个参数对样本量的影响方式。只要能够理解并在面试中讲清这个道理,我们是不需要死记公式的。

文章来源:https://blog.csdn.net/qq_38134556/article/details/123857717
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://chatgpt.dhexx.cn/article/1dpEcjtl.shtml

相关文章

Topic 5. SCI 文章之样本量确定及分割

**每次做方案设计的时候,都会涉及到一个尖锐的问题,客户会问我得用多少的样本量才能发文章,这个嘛,事情从理论上回答还是有依据的,但是从实际出发永远都是 “理想很丰满,现实很骨感!” 。不过还…

AB实验样本量确定

文章目录 1. 统计功效与关键概念2. Z检验样本量确定2.1 统计功效公式推导2.2 样本量计算公式2.3 求解样本量 3. 卡方检验样本量确定3.1 求解样本量 4. 简要总结Reference 在数据分析过程中, 一个完整的闭环是从数据中得到洞察,根据洞察得到某种假设&…

临床试验中样本量确定的统计学考虑

样本量确定(sample size determination),又称样本量估计(sample size estimation),是指为满足统计的准确性和可靠性(I类错误的控制和检验效能的保证)计算出所需的样本量,它是临床试验设计中一个极为重要的环节,直接关系到研究结论…

在前端中的缓存

http缓存 http缓存基本认识 http缓存分为强缓存和协商缓存 1、浏览器在加载资源时,先根据这个资源的一些http header判断它是否命中强缓存,强缓存如果命中,浏览器直接从自己的缓存中读取资源,不会发请求到服务器。比如某个css文…

前端缓存方案

前端几种本地缓存机制_蜗牛小前的博客-CSDN博客_前端本地缓存在漫长的前端开发过程中,我们常用的几种本地缓存机制:Cookie,LocalStorge,SessionStorge 1.Cookie的特点1)cookie的大小受限制,cookie大小被限制在4KB,不能…

【前端】深入浅出缓存原理

缓存的基本原理 对于前端来说,缓存主要分为浏览器缓存(比如 localStorage、sessionStorage、cookie等等)以及http缓存,也是本文主要讲述的。 当然叫法也不一样,比如客户端缓存大概包括浏览器缓存和http缓存 所谓htt…

前端浏览器缓存机制

目录 1 缓存定义及其优点2 强缓存2.1 expires 和 Cache-Control 3 协商缓存4 浏览器缓存位置 1 缓存定义及其优点 什么是缓存? 当我们第一次访问网站的时候,电脑会把网站上的图片和数据下载到电脑上,当我们再次访问的时候,网站就会…

前端缓存机制

目录 前言 目的 缓存过程分析 强制缓存(强缓存) 强制缓存的缓存规则 浏览器的缓存存放在哪里 协商缓存 更新缓存 合理应用缓存 前言 对于浏览器缓存,每个前端开发者应该都不会陌生,同时它也是我们在日常开发中存在的一个…

前端缓存【web缓存】

前端缓存--http缓存 web缓存http缓存定义优点缺点http缓存类型 强缓存Expires实现的强缓存Cache-control实现的强缓存 协商缓存last-modified实现的协商缓存ETag实现的协商缓存缺点 设置缓存文件缓存(html、js、css、png)总结 web缓存 web缓存主要指:浏…

前端缓存(HTTP缓存、浏览器缓存)浅析

前端缓存 文章目录 前端缓存缓存分类1、http缓存(1)强缓存(本地缓存)启发式缓存 (2)协商缓存(弱缓存) 2、浏览器缓存 其他响应头和请求头参数刷新正常重新加载硬性重新加载清空缓存并硬性重新加载 调试缓存 缓存分类 1、http缓存 …

前端缓存最佳实践

点击上方“前端开发博客”,选择“设为星标” 回复“2”加入前端群 作者:黑金团队https://juejin.cn/post/6844903737538920462 前言 缓存,这是一个老生常谈的话题,也常被作为前端面试的一个知识点。本文,重点在与探讨在…

技术点:前端缓存分类及使用

前端缓存 什么是 web 缓存(前端缓存) web 缓存主要指的是两部分:浏览器缓存和 http 缓存 浏览器缓存:比如,localStorage,sessionStorage,cookie 等等。这些功能主要用于缓存一些必要的数据,比如用户信息。比如需要携…

前端缓存详解

目录 前言 一、按缓存位置分类 HTTP状态码及区别 几种状态的执行顺序 Memory Cache Disk Cache Service Worker 请求网络 二、HTTP 缓存 HTTP 缓存分类 强缓存原理 协商缓存原理 更新和废弃缓存 三、缓存小结 四、缓存的优点 五、浏览器缓存策略 五、缓存的应…

一文!彻底弄懂前端缓存

前端缓存 前端缓存,这是一个老生常谈的话题,也常被作为前端面试的一个知识点。今天我们再来总结一下。 分类 前端缓存分为强缓存和协商缓存两种。 强缓存 强缓存主要使用Expires、Cache-Control 两个头字段,两者同时存在Cache-Control 优先级…

【前端页面缓存技术方案】

前端页面缓存技术方案 关于页面缓存数据的纯前端技术方案背景项目存在的现有方案思考🤔其他技术调研react-activationreact-router-cache-route 结论 关于页面缓存数据的纯前端技术方案 背景 为了优化用户的体验,可能会遇到这样的需求:在列…

前端常用缓存技术

http://www.cnblogs.com/belove8013/p/8134067.html 今天刚上班就听到群里的几位大佬在讨论所开发的系统需要重复的登录的恶心之处,听各位大佬争辩的同时,想到了自己以前整理过的缓存技术,算是比较全面的,当然了只是帮助自己理解的…

我的网站心得之缓存技术(前端篇)

在前端面试中,storage是面试官经常问的问题,我先问你几个问题,如果你回答不上来,那么你应该阅读一下:知道storage吗?storage存储的数据类型有什么?sessionStorage的生命周期?你都用l…

中高级前端工程师都需要熟悉的技能--前端缓存

前言 web缓存是高级前端工程师必修技能。是我们变成大牛过程中绕不开的知识点。 文章会尽量用通俗易懂的言语来细说web缓存的概念和用处。 本期文章的大纲是 什么是web缓存(前端缓存) 缓存可以解决什么问题?他的缺点是什么? …

ovo svm_反思我在OVO担任远程产品设计实习生的时间

ovo svm In a quiet bedroom accompanied only by the low humming of my laptop fan, I sat before a Google Hangouts meeting, and got to know my colleagues for the first time, unaware of the joy of a ride that was waiting for me at OVO Design. 在一个安静的卧室里…

反思最近这些时日的荒废

为什么80%的码农都做不了架构师?>>> 算是一时兴起,最近lol排位已经将自己的折磨的不成人样。闲了这么久,是时候找份工作了。最近一直没敢跟家里人打电话,实在不知道该说些什么,一开口便是谎言。是否自己真的…