直观理解Beta分布

article/2025/10/15 14:18:00

原作者:DavidRobinson    原文链接:http://varianceexplained.org/statistics/beta_distribution_and_baseball/

像正态分布、二项分布和均匀分布这样的一些分布,在统计学习当中往往会结合一些现实世界中的实际应用来解释,因此对于统计学的初学者来说也很容易清晰地理解这些分布。但是我发现Beta分布就很少会用这样可以凭直觉感知的方法来解释它的用处在哪里,而且Beta分布经常会和一些复杂的概念一起出现,比如共轭先验和“顺序统计量”。我对此感到羞愧,因为Beta分布背后的直观感受非常酷。

简而言之,Beta分布可以理解为它表示概率的概率分布——也就是在我们不知道一件事的概率是多少的时候,它能表示一个概率的所有可能值。下面这个例子是我最喜欢的解释:

懂棒球的人都会对棒球的安打率(击球率)很熟悉,简单来说就是他击中球的次数除以出手次数(译者表示自己不懂棒球,暂且这样解释,欢迎懂棒球的朋友指正),所以说击球率应该是一个01之间的数。通常认为平均的击球率是0.266,如果能达到0.300就非常棒了。

想象一下有一个棒球运动员,我们想要预测他这个赛季的击球率。你可能会说,我们就用他到目前为止的击球率就可以了。但如果是在赛季初做出的预测,结果会非常差!如果一个运动员刚出手一次就击中了,那他的击球率就是1.000了,如果他这次没有击中那击球率就是0.000。就算出手次数达到56次,他也很可能非常幸运地拿到1.000的击球率,或者非常不幸地得到一个0。无论是这两种情况中的哪一种都远远算不上对该运动员本赛季表现的很好的预测。

为什么用前几次击球的结果来预测最终的击球率就不好呢?当一个运动员的第一次出手没有击中的情况下,为什么没人预测他整个赛季一次都不会击中呢?因为我们有先前的期望,我们了解以往的情况,在一个赛季当中,大多数的击球率都是在0.2150.360之间浮动的,只有极少数的情况下会出现极端的高或低的结果。我们都知道,假如一个运动员在最开始的几次失手,这可能意味着他最终的击球率会稍稍低于平均水平,但是不会偏离这个范围太远。

给定了这个击球率的问题,它可以用一个二项分布来表示(击球成功或失败)。用来表示这些先前的期望(统计学中叫先验概率)的最好的方法是Beta分布,就是说在我们看到这个运动员第一次挥棒以前,我们就能大致推测他的击球率是多少。Beta分布的定义域是(0,1),和概率的区间一样,所以我们已经知道我们的方向是对的,但是想让这个分布恰当地解决这个问题到这里还远远不够。

译注:这里稍微补充一点,使用Beta分布是因为Beta分布是二项分布的共轭先验分布,关于Beta-Binomial共轭,意思就是,数据符合二项分布的时候,参数的先验分布和后验分布都能保持Beta分布的形式,这种形式不变的好处是,我们能够在先验分布中赋予参数很明确的物理意义,这个物理意义可以延续到后验分布中进行解释,同时从先验变换到后验过程中从数据中补充的知识也容易有物理解释。(此处参考:http://cos.name/2013/01/lda-math-beta-dirichlet/

我们预期这个运动员一个赛季的击球率大约是0.27,但在0.210.35之间都是合理的。这种情况可以用一个参数α=81 β=219Beta分布来表示:


我出于以下两个原因选择了这两个参数:

1.      平均数(期望)是α/(α+β)=81/(81+219)=0.270

2.      从图中你就可以看出来,这个分布几乎全部分布在(0.2,0.35)这个范围之间,也就是击球率的合理范围。

(关于参数的选取,参考:http://stats.stackexchange.com/questions/47916/bayesian-batting-average-prior/47921#47921

在这个Beta分布密度图中,x轴代表的是他的击球率。因此请注意在这个实例当中,不仅y轴是概率(或者更准确地说是概率密度),x轴也是(击球率就是一次击球击中的概率)。这个Beta分布表示了一个概率的概率分布。

译注:这里有个小问题,概率跟概率密度的概念不等同,y轴代表的是概率密度。由于本文最初发表于http://stats.stackexchange.com/a/47782/8373,作为一个提问的答案。从原文评论来看作者是为了对应提问者的问题的表述(现在已经修改)才说y轴和x轴都表示概率。

但是为什么Beta分布会如此合理呢?想象一下如果这个运动员击中一次,他在本赛季的记录就是击中一次,出手一次。我们就需要更新我们的概率——我们想要将整个曲线稍稍移动一点来反映我们刚刚得到的信息。其中的数学原理可以参考这里,结果很简单。新的Beta分布如下:

Beta (α0+击中的次数,β0+未击中的次数)

其中α0  β0是初始参数,即81219。因此在上述情况下,α增加1β不变,也就是我们新的Beta分布为Beta(81+1,219)。让我们和之前的图像做个比较:


可以看到几乎没什么变化,这点改变几乎是用眼睛看不到的,这是因为一次击中代表不了什么。

然而,随着这个运动员在本赛季击中次数增加,这条曲线就会不断偏移调整来拟合新的信息,并且当我们的信息越多,基于实际情况调整后的曲线就会越窄。假设到赛季中期,运动员已经出手300次,其中100次击中。新的分布就是Beta(81+100,219+200)


可以看到,跟以前相比,曲线现在变得更“瘦”了,并且向右(更高的击中率)移动了,我们对于该运动员的集中率有了更好的感受。

我们最感兴趣的结果之一就是Beta分布的期望,也就是你最新的估计。复习一下,Beta分布的期望值是α/(α+β)。因此,在300次出手击中100次的情况下,新的Beta分布的期望值就是(82+100)/(82+100+219+200)=0.303,比单纯计算概率来估计击球率的方法100/(100+200)=0.333要低,但是比赛季初所做的预测0.270高了。其实这种方法相当于先赋予一个运动员击中和未击中的次数——也就是让他以81次击中和219次未击中的数据来作为该赛季的初始数据。

可以看到,Beta分布是表示概率的概率分布的最佳方式——我们可能无法提前知道一件事的概率,但是我们可以做一些合理的猜测。


该文章发布于20141220


http://chatgpt.dhexx.cn/article/VejVaNfc.shtml

相关文章

贝塔分布例子(转)

古语有云,“学好数理化,走遍天下都不怕。” 人工智能时代尤其如此。 比如,写上几句基础的数学概念,天上就能掉下一个工作来……这是真事。 学概率的时候,我们会反复来理解什么是正态分布,什么是均匀分布&am…

小孩都看得懂的贝塔分布

全文共 1897 字,22 幅图, 预计阅读时间 10 分钟。 本文是「小孩都看得懂」系列的第十五篇,本系列的特点是内容不长,碎片时间完全可以看完,但我背后付出的心血却不少。喜欢就好! 小孩都看得懂的神经网络小孩…

beta分布介绍

相信大家学过统计学的都对 正态分布 二项分布 均匀分布 等等很熟悉了,但是却鲜少有人去介绍beta分布的。 用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能…

泊松过程、伽马分布、贝塔分布及狄利克雷分布

泊松过程、伽马分布、贝塔分布及狄利克雷分布 1.泊松过程1.1Poisson过程的定义1.2Poisson过程的应用 2.伽马分布2.1伽马分布的定义2.2伽马分布的性质2.3伽马分布与其他分布的关系 3.贝塔分布3.1贝塔分布的定义3.2贝塔分布的图形3.3贝塔分布的应用 4.狄利克雷分布4.1狄利克雷分布…

贝叶斯分析——分布之分布(beta分布)

转自:http://blog.sciencenet.cn/blog-677221-1049350.html 贝叶斯与逆概率问题 对于“白球黑球”的概率问题。概率问题可以正向计算,也能反推回去。 (1)盒子里有10个球,黑白两种颜色,如果我们知道10个球中5白5黑&a…

Beta分布(Beta Distribution)

定义: beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小。 举一个简单的例子,熟悉棒球运动的都知道有一个指标就是棒球击球率(batting average),就是…

推导Beta分布公式

Beta分布可以用于拟合各种不同的分布,网上各种资料对于Beta分布的原理着墨较多,却少有推导Beta分布公式的,所以,推导Beta分布公式如下: 设一组随机变量 ,将这n个随机变量排序后得到顺序统计量 &#xff0c…

Beta 分布

Beta 函数 B ( α , β ) ≜ ∫ 0 1 x α − 1 ( 1 − x ) β − 1 d x \Beta(\alpha, \beta) \triangleq \int_0^1 x^{\alpha-1}(1-x)^{\beta-1}dx B(α,β)≜∫01​xα−1(1−x)β−1dx 其中 α , β > 0 \alpha, \beta > 0 α,β>0 Beta 函数与 Gamma 函数 B ( α…

如何理解beta分布?

相信大家学过统计学的都对 正态分布 二项分布 均匀分布 等等很熟悉了,但是却鲜少有人去介绍beta分布的。 用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可…

原创 | 一文读懂正态分布与贝塔分布

本文约2300字,建议阅读5分钟 本文通过案例介绍了正态分布和贝塔分布的概念。 正态分布 正态分布,是一种非常常见的连续概率分布,其也叫做常态分布(normal distribution),或者根据其前期的研究贡献者之一高斯的名字来称…

带你理解beta分布

#beta分布介绍 相信大家学过统计学的都对 正态分布 二项分布 均匀分布 等等很熟悉了,但是却鲜少有人去介绍beta分布的。 用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所…

深入理解什么是Beta分布

例一 Beta分布是一种描述概率的概率分布,这句话可能有些绕口,看一个例子: 以抛硬币为例,如果硬币是均匀的,并且正面朝上的概率记为p(p0.5),那么每一次抛硬币都可以看做是一次伯努利…

贝塔分布(beta分布)及Python实现——计算机视觉修炼之路(二)

beta分布 贝塔分布( Beta Distribution ) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布,是指一组定义在(0,1)区间的连续概率分布。其概率密度函数为&…

Beta分布(概率的概率)

目录 1.前言 2.定义 3.Beat分布的概率密度函数(PDF): 4.Beat分布的累积密度函数(CDF): 1.前言 伯努利试验(同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验…

伽马分布与 贝塔分布

伽马函数 称 为伽马函数,其中参数 ,伽马函数具有如下性质: ,n为自然数;或写作 余元公式:对于 ,有 与贝塔函数 的关系 : 对于 ;伽马函数是严格凹函数。x足够大时,可以用Stirling 公式来计算Gam…

贝塔、伽马分布

最近开始自学PRML,为此又补了概率论中的一些知识点。 相较于古典概率通过各种估计手段来确定参数的分布,贝叶斯学派则是使用后验概率来确定,为了方便计算后验概率,引入共轭先验分布来方便计算,这是后话了。 那么一些…

贝塔分布

B e t a Beta Beta分布 众所周知,当一个随机变量 Y Y Y的密度函数如下所示时,称这个变量 Y Y Y满足 B e t a ( a , b ) Beta(a,b) Beta(a,b)分布: f ( y ) y a − 1 ( 1 − y ) b − 1 ∫ 0 1 y a − 1 ( 1 − y ) b − 1 d y y a − 1 (…

数据科学分布——Beta分布

Beta分布 概念参数影响数量比例 随机产生数据概率密度函数累积概率密度函数 概念 贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布&#…

Beta分布及其应用

贝塔分布(Beta Distribution)是一个连续的概率分布,它只有两个参数。它最重要的应用是为某项实验的成功概率建模。在本篇博客中,我们使用Beta分布作为描述。 原文地址:http://www.datalearner.com/blog/1051505532393…

机器学习中的数学——常用概率分布(十):贝塔分布(Beta分布)

分类目录:《机器学习中的数学》总目录 相关文章: 常用概率分布(一):伯努利分布(Bernoulli分布) 常用概率分布(二):范畴分布(Multinoulli分布&am…