数据分析——AB实验

article/2025/5/13 13:31:30

( 一 ) AB实验概念

AB实验通俗讲就是在线上可以切出一部分用户(降低风险),完全随机的分成两组或多组(确保人群一致),一组保持现有的方案叫对照组,另外一组使用改进的方案叫实验组,使用统计的方法对两组之间指标差异进行分析,评估是否符合预期的一种方法。

( 二 ) AB实验中你必须知道的

1. 原理:

AB实验的基本原理是“控制变量法”。

AB实验利用控制变量法的思想,保证各个产品方案针对同质人群(特征分布相同)、同一时间进行实验,确保除方案变量外其他变量一致,从而判断指标差异是方案不同造成的,从而选择优胜版本全流量上线,实现数据增长。

假设检验的基本思想是“小概率事件”。

假设检验是用来判断样本与样本,样本与总体之间的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。常用的假设检验方法有Z检验、T检验、卡方检验、F检验等。

2. 概念:

假设检验:先对总体的参数提出某种假设,然后利用样本的信息判断假设是否成立的过程。

显著性水平:表示为α,是一个概率值,原假设为真时,拒绝原假设的概率,常取值为0.05、0.01、0.10。

置信区间:一般我们用中括号[a,b]表示样本估计总体平均值误差范围的区间。a、b的具体数值取决于你对于"该区间包含总体均值"这一结果的可信程度,因此[a,b]被称为置信区间。

置信度/置信水平:表示为1-α,一般来说,选定某一个置信区间,我们的目的是为了让"ab之间包含总体平均值"的结果有一特定的概率,这个概率就是所谓的置信水平。表明了区间估计的可靠性。例如我们最常用的95%置信水平,就是说做100次抽样,有95次的置信区间包含了总体均值。

(如何通俗地解释置信区间和置信水平)

p值:是一个概率值,如果原假设为真,p值是抽样分布中大于或小于样本统计量的概率。一般通过查t分布表得出。左检验时,p值为曲线上方小于等于检验统计量部分的面积,右检验时,p值为曲线上方大于等于检验统计量部分的面积。

p与α的关系:p<α说明小概率事件发生了,则拒绝H0,否则接受H0。

原假设与备择假设:待检验的假设又叫原假设(零假设),一般表示为H0,原假设一般表示两者没有显著性差异。与原假设进行对比的叫备择假设,表示为H1。一般在比较的时候,主要有等于、大于、小于。

检验统计量:即计算检验的统计量。根据给定的显著性水平,查表得出相应的临界值。再将检验统计量的值与该显著性水平的临界值进行比较,得出是否拒绝原假设的结论。

检验结果:单侧,若p值>α,不拒绝H0,若p值<α,拒绝H0;双侧,若p值>1/2α,不拒绝H0,若p值<1/2α,拒绝H0。

3. 两类错误

在假设检验过程中,我们可能会犯两种错误,第一次类错误(弃真)和第二类错误(取伪)。

弃真:当假设H0正确时,小概率事件也有可能发生,此时我们会拒绝假设H0。

取伪:当假设H0不正确,但一次抽样检验未发生不合理结果时,这时我们会接受H0。

在统计学中,我们用显著性水平α来衡量犯第一类错误的概率,统计功效β来衡量犯第二类错误的概率

理论上,自然希望犯这两类错误的概率都很小。当样本容量n固定时,α、β不能同时都小,即α变小时,β就变大;而β变小时,α就变大。一般只有当样本容量n增大时,才有可能使两者变小。

在实际应用中,一般原则是:控制犯第一类错误的概率,即给定α,然后通过增大样本容量n来减小β。这种着重对第一类错误的概率α加以控制的假设检验称为显著性检验。

4. 统计功效

统计功效(statistical power)是指, 在假设检验中, 拒绝原假设后, 接受正确的替换假设的概率。我们知道,在假设检验中有α错误和β错误。α错误是弃真错误, β错误是取伪错误。取伪错误是指, 原假设为假,样本观测值没有落在拒绝域中,从而接受原假设的概率,即在原假设为假的情况下接受原假设的概率。由此可知, 统计功效等于1-β。

统计功效在AB实验的应用

一般来说当显著性水平在5%以下,统计功效在80%(或90%)以上,即β在0.2(或0.1)以下时,我们会认为实验结论是相对可信的。

但在AB实验中,我们经常会遇到这样的场景,实验组相对对照组在指标上有一定的提高,但差距是不显著的,这个时候作为分析师我们可能需要做的一个决策是继续扩大流量让实验再开一段时间,还是把实验停掉换个思路再开启新的实验?

在这个场景下,统计功效就可以辅助我们去做这个决策,如果经过测算统计功效已经达到了80%以上,即已经有80%的把握能检验出策略实际上有效的情况下提升仍然不显著,那么可能是策略确实没有用,需要再尝试一个新的策略,但如果发现统计功效不足80%,接下来我们可能需要考虑再把实验开久一些或者再扩大一些流量,观察是否有置信的可能。

(三)AB实验过程

1.提出猜想,设定原假设H0与备择假设H1。

H0:样本与总体或样本与样本间的差异是由抽样误差引起的
H1:样本与总体或样本与样本间存在本质差异

2.计算样本量。

样本量在线计算工具-卡方检验
Baseline conversion rate:填入实验前估测到的转化率,可以通过旧数据统计作为估算。
Minimum Detectable Effect:填入希望观测到的最小效果。填入实验的预期。
Statistical power:1 - 假阴性概率。实验效果真实有效时,能被正确发现的概率。
Significance level:假阳性概率。实验实际没有效果时,被错误发现的概率。

分流:uid+hash因子计算md5取模,根据结果判断是落在哪个实验分桶里。

3. 构造统计量,根据样本计算相关数值。

由样本观察值按相应的公式计算出统计量的大小,如X2值、t值等。

4. 确定显著性水平,进行数据检验。

根据资料的类型和特点,可分别选用z/u检验、t检验、f检验、卡方检验等。
在这里插入图片描述
确定p值。根据统计量的大小及其分布确定检验假设成立的可能性p的大小, p值的大小一般通过查t分布表得出。

5. 得出结论。

若p>α,结论为按α所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;
如果p≤α,结论为按所取α水准显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。

( 四 )做ABtest时需要考虑的问题

1. 人群是否同质

设计合理的分流算法,确保分流到每个方案的都是同一特征分布的人群是AB实验结论可信的前提。

2. 实验是否同时

进行对比的各个实验版本一定要同时开启实验,实验过程中不能随意修改每个版本的流量,否则也会产生一些问题。

3. 是否需要AA实验

AA实验指的是实验中的各个方案都是一致的,目的是为了测试埋点、分流、实验统计的正确性,增加AB实验的实验结论可信度。

设命题1:如果实验的埋点、分流和统计都没有问题,那么AA实验中各个方案的数据表现一定一致。
则逆否命题2:如果AA实验中各个方案的数据表现存在显著差异,则实验的埋点、分流和统计至少一项有问题。

严格意义上讲AA实验的通过并不能证明上述三项(埋点、分流、统计)绝对没有问题,但是AA实验不通过一定能证明上述三项至少一项存在问题。

4. 实验结果是否反转

假如一个实验在线上第一天,方案A比方案B效果好,但并不代表第二天、第三天仍是这个结果。用户进入到新方案中,可能是因为好奇而表现的更加活跃,但随着时间推移,逐渐趋于冷静,数据可能回到本该有的水平,如果过早容易得出错误的结论。

另外一方面,如果实验样本量太少,实验结果的随机性也会比较强,随着实验天数增加,结果也可能出现反转。

参考链接:

数据应用系列(1)-ab测试

实例推荐:

推荐算法改版前的AB测试 实验设计

python独立双样本t检验: AB测试

数据分析|如何做一个ABtest测验

应用学习:

A/B实验设计——样本量选择

什么是 A/B 测试?


http://chatgpt.dhexx.cn/article/BWvhELyu.shtml

相关文章

D型触发器仿真结果分析

1. 1bitD型触发器verilog 程序 2.RTL等效电路图 3.仿真结果 当CLK上升沿的时候&#xff0c;q值变化&#xff0c;就是此时此刻d的数值&#xff08;高低电平&#xff09;&#xff0c;当上升沿发生在高电平区间&#xff0c;q值就是高电平&#xff1b;当上升沿发生在低电平区间&am…

python实验总结与分析_Python实验报告二

安徽工程大学Python程序设计 班级:物流192 姓名:唐家豪 学号:3190505234 成绩: 日期:2020/3/5 指导老师:修宇 【实验名称】:顺序结构程序设计 【实验目的】 (1)掌握数据的输入输出的方法; (2)熟悉顺序结构程序中语句的执行过程; (3)掌握顺序结构程序…

疲劳测试分析软件,直接使用材料疲劳试验数据进行疲劳分析

疲劳计算需要三个输入&#xff1a;有限元应力/应变的计算结果&#xff0c;材料的疲劳数据&#xff0c;一般是S-N曲线或者E-N曲线。第三个是载荷谱。材料的疲劳数据&#xff0c;通常都是在MSC Fatigue软件自带的材料数据库中找个相同或相近的材料&#xff0c;材料库没有的材料&a…

一阶电路暂态响应的结果分析。_阻尼比测试方法及谐响应分析

谐响应分析中,阻尼比的确定是关键问题,工程中阻尼比经常是估计值,导致分析结果跟实际不符。阻尼对模态频率的影响很小,阻尼的主要作用是压低共振处的幅值,如果阻尼取为0的话,共振处的峰值会相当大,理论上是无穷大。目前阻尼问题研究的不是很透彻,并没有很多的理论支持,…

一阶电路暂态响应的结果分析。_电路之暂态分析

电路之 暂态分析 为什么会出现暂态? 学习了前面直流电路和交流电路的内容,我们似乎觉得这已经覆盖了电路可能存在的各种情况。陌生如电容、电感这种元件,只要将它们插在直流电路里,便是一个断路,一个短路,无比简单。可事实真的如此吗?当直流电路中只有电阻时,我们可以认…

python实验总结与分析_Python实验报告七

安徽工程大学 Python程序设计 实验报告 班级 物流191 姓名倪绍磊学号3190505131 成绩 日期 2020.5.28 指导老师修宇 【实验名称】实验七 组合数据类型 【实验目的】 熟悉通过序列索引迭代执行循环;掌握元组、列表与字典的系列操作函数及相关方法 【实验条件】 PC机或者…

ospf 实验详细分析

Ospf实验 R1-3为区域0&#xff0c;R3到R4为区域1&#xff0c;其中R3的环回也在区域0 R1&#xff0c;2也有环回&#xff0c;R1-3 R3为DR设备&#xff0c;没有BDR R4环回地址已固定&#xff0c;其他所有网段使用192.168.1.0/24进行合理分配 R4环回不能宣告&#xff0c;全网可…

slam结果分析

ubuntu18使用evo工具&#xff1a; 可参考的链接 官方描述 1、安装 1&#xff09;依赖项 sudo apt-get install tcl-dev tk-dev python3-tk2&#xff09;pip安装 sudo pip install evo --upgrade --no-binary evo2、使用&#xff08;主要指kitti&#xff09; 根据地面真实数据…

判别分析在SPSS上的实现与结果分析——基于SPSS实验报告

实验目的 通过本次实验学习判别分析在SPSS软件中的具体操作方法&#xff0c;依据变量的各个特征来对变量进行分组&#xff0c;与聚类分析不同的是判别分析对于类别是已知的。 实验步骤及过程&#xff1a; 首先对14组数据做聚类分析&#xff0c;通过快速聚类法分为3类作为判别…

YOLOv5训练结果分析

本文的目的是帮助理解每次训练后&#xff0c;在runs/train文件夹下出现的一系列文件&#xff0c;并探索如何评估准确率以及模型的好坏。 一.混淆矩阵—confusion_matrix.png 毕设跑的train有混淆矩阵&#xff0c;但是有点扯&#xff0c;需要跑一下鸟类的验证一下(待验证) 1.概…

【科研分享】Matplotlib 绘制热力图(heatmap)进行实验结果分析

Matplotlib 绘制热力图&#xff08;heatmap&#xff09;进行实验结果分析 写论文的时候又碰到了新的需求&#xff0c;为了呈现实验结果&#xff0c;这次需要做一个分析两个超参的图&#xff0c;搜了半天发现还是热力图最合适&#xff0c;但是在各处看了很多篇文章发现讲的要么不…

实验结果分析

为了说明本文所提出基于深度学习的SIR模型方法的性能&#xff0c;我们比较了闭集合(Close-set Dataset)数据和开集合(Open-set Dataset)数据两种情景下的已确诊Covid19病例的数量的预测值。模型的闭集合数据内拟合是模型估计潜在参数的有效性的重要指标&#xff0c;而开集合数据…

主成分分析在SPSS上的实现与结果分析——基于SPSS实验报告

实验目的 通过本次实验学习主成分分析在SPSS软件中的具体操作方法&#xff0c;更深入了解主成分分析法的基本思想&#xff0c;通过SPSS的实现将理论运用于实践当中&#xff0c;增强我们的动手能力并且会运用主成分分析的方法来处理数据实现我们的需求。 实验步骤及过程&#x…

03 数字图像技术——频域滤波实验结果与分析——python

04 数字图像技术——图像特征提取之实验结果与分析 03 数字图像技术——频域滤波实验结果与分析 02 数字图像技术——颜色空间转换与颜色空间分割实验结果与分析 01 数字图像基本操作——图像采样、量化、算术运算、点运算实验结果及分析 一、实验目的 1&#xff0e;了解图像…

将两张图片合并成一个PDF,不收费

如何来实现将两张图片合并成一个PDF? 我试过WPS金山、Adobe、万兴等等PDF软件&#xff0c;他们NND都是要收费&#xff01; 咱也不是钱多到大水飘过来的&#xff0c;这里给出最简单的方式&#xff0c;用Windows自带的打印功能&#xff0c;就能实现&#xff01; 最重要的是&…

pdf转高清图片

很多人在java中遇到ppt/pdf转图片的时候&#xff0c;有些插图图片转不了或者是转出来的图片不清晰&#xff0c;也都是使用的官方jar包。有些是需要引用到icepdf插件的&#xff0c;这里不细说了&#xff0c;直接放一段稍微简单一点的代码供参考&#xff1a; package test;impor…

锐化pdf文件(图片形式)

目录 前言 正文 1、使用PDF Shaper Pro拆分pdf 2、使用ComicEnhancerPro处理拆分好的图片 3、使用PDF Shaper Pro合并图片为pdf 前言 最近复习考研数学&#xff0c;然后买书真的是死贵死贵&#xff0c;第一次把网上找到的pdf打印出来后发现非常的不清晰&#xff0c;然后开…

利用C#实现Pdf转图片

这周碰到一个需求&#xff0c;由于公司系统框架的原因&#xff0c;不能直接显示第三方回传回来的pdf(说明一下&#xff0c;第三方回传的pdf是带上了签章信息(即在pdf中加入了签名图片))&#xff0c;需要把pdf转成图片进行显示&#xff0c;但在做的过程中踩了不少雷。最后使用第…

7个值得拥有收藏的免费在线 PDF转图片转换器

PDF 格式在文档演示和交换中无处不在。但是PDF转图片的必要性也在于很多情况。这里我想提几点。 收件人可能没有打开您发送的 PDF 的应用程序&#xff0c;但可以使用系统提供的程序查看图像。图像在浏览器中的显示速度比 PDF 快&#xff0c;因为图像可以流式传输&#xff0c;但…

图片批量合成PDF方法

目录 方法&#xff1a;操作多图合成一个PDF图片文件夹合成PDF批量对每个文件夹中图片合成PDF 如何获取软件 方法&#xff1a; 下载FreePic2Pdf软件&#xff0c;按下面方法操作 操作 多图合成一个PDF 打开FreePic2Pdf.exe软件点击下图1&#xff0c;选择图片添加进来点击下图…