贝塔分布例子(转)

article/2025/10/15 15:17:05

 

古语有云,“学好数理化,走遍天下都不怕。”

 

人工智能时代尤其如此。

 

比如,写上几句基础的数学概念,天上就能掉下一个工作来……这是真事。

 

学概率的时候,我们会反复来理解什么是正态分布,什么是均匀分布,什么是二项分布,什么是贝塔分布……不知在座的各位是否还能记起当时做过的习题?是否还能通俗地讲解一下这些概念?

 

在Stack Overflow,有位学机器学习的同学理解不了贝塔分布,希望有人能帮他解答下。刚好,正在学生物信息学博士的David Robinson现身说法,用一个有关棒球运动的统计数据来解释这个概念。这位博士纯粹是为了消磨时间,觉得好玩。

 

不过,Stack Overflow数据科学团队的Jason Punyon读完David Robinson的解答后,觉得解释很赞,他在内部会议上突发奇想:

 

 

哇!咱们干脆雇了这哥们儿吧。”

 

于是,一份公开的邀请不期而至:我们十分期待你能拜访一下Stack Overflow。

 

 

在好奇心的驱使下,原本打算博士毕业后研究计算生物学的David Robinson,鬼使神差地拜访了这家科技公司。一次拜访、几周面试,Stack Overflow提供给他一个无法拒绝的工作机会,David Robinson从计算生物学博士变成了一个数据科学家。

 

你一定特别好奇,这到底是个怎样的问题,直接就让这位博士拿到了数据科学家的offer?David Robinson的解释到底又有多精彩?现在我们让来看看这个问题。

 

 

 

 

首先声明,我并不是统计学家,只是一名软件工程师。我所掌握的大部分统计学知识都来自于自学,因此对于一些别人觉得很简单的概念,我可能会觉得很难理解。因此我希望答案能尽量通俗易懂,少一些专业名词而多一些形象解释。

 

我之前试图想弄清楚贝塔分布(beta distribution)的本质——它能用于做什么以及如何解释它的应用场景?

 

例如,当我们谈正态分布时,可以将它描述成火车的到达时间:大多数情况下火车正点到站,有时候会早1分钟或者迟1分钟,但是早20分钟或者迟20分钟的情况则非常罕见;均匀分布可以描述为彩票中奖的机会事件;二项分布可以描述成抛硬币事件等等。那么,贝塔分布有这样的直观解释吗?

 

例如 α=.99,β=.5,贝塔分布B(α,β)如下图所示(使用R生成):

 

 

 

那么这个图代表什么意思?Y轴是一个概率密度,那么X轴呢?

 

答案可以基于这个例子来解释,或者任何其他的也行。我将感激不尽。

 

David Robinson 解释如下:

 

简而言之,贝塔分布可以看作是一个概率的分布,也就是说,当我们不知道一个东西的具体概率是多少时,它给出了所有概率出现的可能性大小。下面结合一个应用场景来理解:

 

熟悉棒球运动的都知道一个指标就是棒球击球率(batting average-http://en.wikipedia.org/wiki/Batting_average%22),就是用一个运动员击中的球数除以总的击球数(因此它是一个0到1之间的百分比)。我们一般认为0.266是一个平均的击球水平,而如果击球率达到0.3就会被认为非常优秀了。

 

假设有一个棒球运动员,现在我们想预测他整个赛季的棒球击球率如何。你可能就会直接计算他目前的棒球击球率,用击中数除以击球数,但这在赛季开始阶段时是很不合理的!假如这个运动员就打了一次,还中了,那么他的击球率就是100%,如果他没中,那么就是0%。甚至打5、6次的时候,也可能运气爆棚全中击球率100%,或者运气很糟击球率0%。无论如何,基于这些来做预测是不合理的。

 

那么,为什么用前几次击中来预测整个赛季击球率不合理呢?当运动员首次击球没中时,为什么没人认为他整个赛季都会一次不中?因为我们有先验期望。根据历史信息,我们知道击球率一般会在0.215到0.36之间。如果一个运动员一开始打了几次没中,那么我们知道他可能最终成绩会比平均稍微差一点,但是一般不可能会偏离上述区间。

 

对于这个击球率问题,我们可以用二项分布(https://en.wikipedia.org/wiki/Binomial_distribution)表示(一系列的成功或失败事件),一个最好的方法来表示这些先验期望(统计中称为先验(prior))就是贝塔分布,这表示在运动员打球之前,我们就对他的击球率有了一个大概范围的预测。贝塔分布的定义域为(0, 1),与概率是一样的。我们下面继续解释为什么贝塔分布用在这个任务上是合理的。

 

假设我们预计运动员整个赛季的击球率大概是0.27左右,范围大概是在0.21到0.35之间。那么用贝塔分布来表示,我们可以取参数 α==81,β==219。

 

curve(dbeta(x, 81, 219))

 

 

之所以取这两个参数,原因如下:

 

  • 贝塔分布的均值 

     

 

 

  • 从上图中可以看出,这个分布主要落在(0.2, 0.35)之间,这是从经验得到的合理范围。

 

你问在贝塔分布的密度图上x轴代表什么,在这里,x轴代表运动员的击球率。注意到在这个例子里,不仅y轴是代表概率(确切说是概率密度),x轴也是(击球率是击中次数的概率分布)。因此贝塔分布可以看作一个概率的分布。

 

接下来解释为什么贝塔分布适合这个例子。假设运动员一次击中,那么现在他本赛季的记录是“1次打中;1次打击”。那么我们更新我们的概率分布,让概率曲线做一些移动来反应我们的新信息。这里涉及一些数学上的证明(点此查看-https://en.wikipedia.org/wiki/Conjugate_prior#Example),但是结论非常简单。新的贝塔分布为:

 

 

其中 α0和β0是初始参数,在这里是81和219。所以,在这个例子里,增加了1(击中了一次),没有增加(没有失误)。因此新的贝塔分布为Beta(81+1,219),如下图:

 

 

curve(dbeta(x, 82, 219))

 

 

 

可以看到这个分布与原来相比并没有什么肉眼可见的变化,这是因为仅一次击中球并不能太说明什么问题。

 

然而,随着整个赛季运动员逐渐进行比赛,这个曲线也会逐渐移动以匹配最新的数据。由于我们拥有了更多的数据,因此曲线(击球率范围)会逐渐变窄。假设赛季过半时,运动员一共打了300次,其中击中100次。那么新的贝塔分布是Beta(81+100,219+200),如下图:

 

 

curve(dbeta(x, 81+100, 219+200))

 

 

可以看出,曲线现在更尖而且往右移动了(击球率更高),由此我们对于运动员的击球率有了更好的了解。

 

根据新的贝塔分布,我们得到的期望值通常也是我们的新的估计。贝塔分布的期望值计算公式是。因此新的贝塔分布的期望值为,注意到这个值比直接预估要低,但是比赛季开始时的预计要高

 

你可能已经注意到了,这个公式就相当于给运动员的击中次数添加了“初始值”,相当于在赛季开始前,运动员已经有81次击中219次不中的记录。

 

因此,在我们事先不知道概率是什么但又有一些合理的猜测时,贝塔分布能够很好地表示为一个概率的分布。

 

就这样,靠着一道数学题,就拿到了数据科学家的职位。做机器学习,你的数学准备好吗?

 

 

 

 

转自:https://mp.weixin.qq.com/s/ZEoxYPgenFgzHuNnI2IieQ


http://chatgpt.dhexx.cn/article/kEK7dSld.shtml

相关文章

小孩都看得懂的贝塔分布

全文共 1897 字,22 幅图, 预计阅读时间 10 分钟。 本文是「小孩都看得懂」系列的第十五篇,本系列的特点是内容不长,碎片时间完全可以看完,但我背后付出的心血却不少。喜欢就好! 小孩都看得懂的神经网络小孩…

beta分布介绍

相信大家学过统计学的都对 正态分布 二项分布 均匀分布 等等很熟悉了,但是却鲜少有人去介绍beta分布的。 用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能…

泊松过程、伽马分布、贝塔分布及狄利克雷分布

泊松过程、伽马分布、贝塔分布及狄利克雷分布 1.泊松过程1.1Poisson过程的定义1.2Poisson过程的应用 2.伽马分布2.1伽马分布的定义2.2伽马分布的性质2.3伽马分布与其他分布的关系 3.贝塔分布3.1贝塔分布的定义3.2贝塔分布的图形3.3贝塔分布的应用 4.狄利克雷分布4.1狄利克雷分布…

贝叶斯分析——分布之分布(beta分布)

转自:http://blog.sciencenet.cn/blog-677221-1049350.html 贝叶斯与逆概率问题 对于“白球黑球”的概率问题。概率问题可以正向计算,也能反推回去。 (1)盒子里有10个球,黑白两种颜色,如果我们知道10个球中5白5黑&a…

Beta分布(Beta Distribution)

定义: beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小。 举一个简单的例子,熟悉棒球运动的都知道有一个指标就是棒球击球率(batting average),就是…

推导Beta分布公式

Beta分布可以用于拟合各种不同的分布,网上各种资料对于Beta分布的原理着墨较多,却少有推导Beta分布公式的,所以,推导Beta分布公式如下: 设一组随机变量 ,将这n个随机变量排序后得到顺序统计量 &#xff0c…

Beta 分布

Beta 函数 B ( α , β ) ≜ ∫ 0 1 x α − 1 ( 1 − x ) β − 1 d x \Beta(\alpha, \beta) \triangleq \int_0^1 x^{\alpha-1}(1-x)^{\beta-1}dx B(α,β)≜∫01​xα−1(1−x)β−1dx 其中 α , β > 0 \alpha, \beta > 0 α,β>0 Beta 函数与 Gamma 函数 B ( α…

如何理解beta分布?

相信大家学过统计学的都对 正态分布 二项分布 均匀分布 等等很熟悉了,但是却鲜少有人去介绍beta分布的。 用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可…

原创 | 一文读懂正态分布与贝塔分布

本文约2300字,建议阅读5分钟 本文通过案例介绍了正态分布和贝塔分布的概念。 正态分布 正态分布,是一种非常常见的连续概率分布,其也叫做常态分布(normal distribution),或者根据其前期的研究贡献者之一高斯的名字来称…

带你理解beta分布

#beta分布介绍 相信大家学过统计学的都对 正态分布 二项分布 均匀分布 等等很熟悉了,但是却鲜少有人去介绍beta分布的。 用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所…

深入理解什么是Beta分布

例一 Beta分布是一种描述概率的概率分布,这句话可能有些绕口,看一个例子: 以抛硬币为例,如果硬币是均匀的,并且正面朝上的概率记为p(p0.5),那么每一次抛硬币都可以看做是一次伯努利…

贝塔分布(beta分布)及Python实现——计算机视觉修炼之路(二)

beta分布 贝塔分布( Beta Distribution ) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布,是指一组定义在(0,1)区间的连续概率分布。其概率密度函数为&…

Beta分布(概率的概率)

目录 1.前言 2.定义 3.Beat分布的概率密度函数(PDF): 4.Beat分布的累积密度函数(CDF): 1.前言 伯努利试验(同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验…

伽马分布与 贝塔分布

伽马函数 称 为伽马函数,其中参数 ,伽马函数具有如下性质: ,n为自然数;或写作 余元公式:对于 ,有 与贝塔函数 的关系 : 对于 ;伽马函数是严格凹函数。x足够大时,可以用Stirling 公式来计算Gam…

贝塔、伽马分布

最近开始自学PRML,为此又补了概率论中的一些知识点。 相较于古典概率通过各种估计手段来确定参数的分布,贝叶斯学派则是使用后验概率来确定,为了方便计算后验概率,引入共轭先验分布来方便计算,这是后话了。 那么一些…

贝塔分布

B e t a Beta Beta分布 众所周知,当一个随机变量 Y Y Y的密度函数如下所示时,称这个变量 Y Y Y满足 B e t a ( a , b ) Beta(a,b) Beta(a,b)分布: f ( y ) y a − 1 ( 1 − y ) b − 1 ∫ 0 1 y a − 1 ( 1 − y ) b − 1 d y y a − 1 (…

数据科学分布——Beta分布

Beta分布 概念参数影响数量比例 随机产生数据概率密度函数累积概率密度函数 概念 贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布&#…

Beta分布及其应用

贝塔分布(Beta Distribution)是一个连续的概率分布,它只有两个参数。它最重要的应用是为某项实验的成功概率建模。在本篇博客中,我们使用Beta分布作为描述。 原文地址:http://www.datalearner.com/blog/1051505532393…

机器学习中的数学——常用概率分布(十):贝塔分布(Beta分布)

分类目录:《机器学习中的数学》总目录 相关文章: 常用概率分布(一):伯努利分布(Bernoulli分布) 常用概率分布(二):范畴分布(Multinoulli分布&am…

NLPIR分词系统的使用

前身是2000年发布的ICTCLAS,2009年更为现名。张华平博士打造。 Java课设做自动问答系统,用到了,所以记录一下使用方法,网上方法可能有点老,所以自己发现没有那么复杂。 https://github.com/NLPIR-team/NLPIR 上下载源…