原创 | 一文读懂正态分布与贝塔分布

article/2025/10/15 16:42:52

本文约2300字,建议阅读5分钟

本文通过案例介绍了正态分布和贝塔分布的概念。

正态分布

正态分布,是一种非常常见的连续概率分布,其也叫做常态分布(normal distribution),或者根据其前期的研究贡献者之一高斯的名字来称呼,高斯分布(Gaussian distribution)。正态分布是自然科学与行为科学中的定量现象的一个方便模型。

各种各样的心理学测试结果和物理现象的观测值,比如光子计数等都被发现近似地服从正态分布。甚至生活中很多现象的表征结果也符合正态分布的分布规律。尽管这些现象的根本原因经常是未知的,甚至被采样的样本的原始群体分布并不服从正态分布,但这个变量的采样分布均值仍会近似服从正态分布。

正态分布的概率密度函数呈左右对称的钟形,其具体表达式为:

因为正态分布是如此的常见而这个式子是如此的奇怪,我们打算重温高斯当年的推导过程,但部分细节不会那么严谨的证明,只是带领大家看看高斯当年的思路是如何的。

首先,高斯事先假定了如下条件,才得到了正态分布的连续密度函数。

即: 误差分布导出的极大似然估计 = 算术平均值

这里我们把全部过程用直白的语言复述一遍。

设某物理量真值为   , 而这里我们由于误差等原因,没办法测量得到真值,所以只能对 进行一系列的观测,打算从这些观测值来推断真值。设 为n次独立的观测测量值。站在上帝视角,我们知道每次测量的误差为 ,假设误差 的概率密度函数为   , 如果我们有办法求得   的一般形式,就求得了正态分布(实际上是观测误差的概率分布)的密度分布函数。所以我们的最终目的就是求    的解析表达式。

这些测量值们的联合概率为 个误差的联合概率,记为

我们应该让    取最大值。为求极大似然估计,令

整理后可以得到

别忘了,我们是要从上面的式子想办法求   。令   ,

由于高斯假设真值 在极大似然下就等于算术平均值   ,把解代入上式,可以得到

(1)式中取   , 有

由于此时有   , 并且   是任意都可能取到的,由此得到

因此   是一个奇函数。

(1)式中再取   , 并且要求   , 则有   , 并且

所以得到

注意到这里 是任意实数。

我们换一种角度来看,就是

这也是个大名鼎鼎的方程,叫做柯西函数方程。容易证明在有理数范围内可以得到唯一连续通解,当然也容易证明(这个真不太容易)在实数域内也有相同形式的唯一通解。

这个解就是

我们知道 , 从而进一步可以求解出

由于 是概率密度函数, 在所有实数域内积分为1,且大于0。因此这里我们把 换成 。结合这些边界条件,可以进一步得到

所以我们得到了

至此,测量误差分布的概率密度函数推导结束。

贝塔分布

贝塔分布,beta分布,简单来说,就是一个事件出现的概率的概率密度分布。

举个例子,篮球比赛的三分命中率是衡量篮球后卫运动员很重要的一个指标。通过过去的历史经验,我们知道运动员的三分命中率很难超过40%。假如老张是一个优秀老练的篮球后卫,其过去历史的三分命中率是35%,总投数为10000次,命中次为3500次。请问他在新赛季刚开始的时候,得到了一次三分投球机会,请问他这次投中的概率服从什么分布呢?

我们必须清楚,这个概率一定不是确定的,而是服从某种分布。这个概率密度分布函数应该在0.35处最大,沿两边逐渐递减。

这个概率就服从beta分布。确切的说,是服从

还有个运动员小张,而小张很年轻也很优秀,他的历史三分命中率也是35%,但是总投数为1000次,命中次数为350次。请问他在新赛季首投三分,命中概率的分布和老张一样吗?

明显不一样!虽然他们的历史投球命中率都是35%,但是我们直觉认为老张比小张更靠谱,老张首投命中的概率密度分布应该在0.35附近高于小张的。事实上,我们可以迅速借助python的scipy库中内置的beta统计方法。

from scipy import statsimport matplotlib.pyplot as pltimport numpy as np
x = np.linspace(0,0.7,1000)plt.plot(x,stats.beta.pdf(x,a=350,b=650),c='b',label='350/1000')plt.plot(x,stats.beta.pdf(x,a=3500,b=6500),c='g',label='3500/10000')plt.legend()plt.show()

我们来看一下图像。

的确如此。那么beta分布的具体表达式是什么呢?

beta分布的表达式有两个参数 ,

公式是:

写成这样的式子很好理解,就是分子(命中 次且没命中 次的概率)除以分母(出现命中 次且没命中 次所有命中率出现的概率总和)。

而结合伽马函数    和贝塔函数,这种写法可以进一步简化:

关于伽马函数和贝塔函数,这里我们不做赘述。


需要指出的是,看起来beta分布的概率密度函数和高斯分布的曲线很像,实则不然。

再举个例子,假如老张的孙子也想做做运动员,老张煞有介事的统计了小小张的历史三分投数,为5投1中。问他下一次投球,也就是第六次投球,命中的概率的分布是怎样的?如果过去是5投2中,5投3中,和5投4中呢?

可以看到,beta分布的PDF和高斯分布的曲线形状差别可大了。

作者:贾恩东

编辑:王菁

校对:林亦霖

数据派研究部介绍

数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享实践项目规划,又各具特色:

算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;

调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;

系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;

自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;

制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;

数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;

网络爬虫组:爬取网络信息,配合其他各组开发创意项目。

点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”加入组织~


http://chatgpt.dhexx.cn/article/37amEWlq.shtml

相关文章

带你理解beta分布

#beta分布介绍 相信大家学过统计学的都对 正态分布 二项分布 均匀分布 等等很熟悉了,但是却鲜少有人去介绍beta分布的。 用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所…

深入理解什么是Beta分布

例一 Beta分布是一种描述概率的概率分布,这句话可能有些绕口,看一个例子: 以抛硬币为例,如果硬币是均匀的,并且正面朝上的概率记为p(p0.5),那么每一次抛硬币都可以看做是一次伯努利…

贝塔分布(beta分布)及Python实现——计算机视觉修炼之路(二)

beta分布 贝塔分布( Beta Distribution ) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布,是指一组定义在(0,1)区间的连续概率分布。其概率密度函数为&…

Beta分布(概率的概率)

目录 1.前言 2.定义 3.Beat分布的概率密度函数(PDF): 4.Beat分布的累积密度函数(CDF): 1.前言 伯努利试验(同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验…

伽马分布与 贝塔分布

伽马函数 称 为伽马函数,其中参数 ,伽马函数具有如下性质: ,n为自然数;或写作 余元公式:对于 ,有 与贝塔函数 的关系 : 对于 ;伽马函数是严格凹函数。x足够大时,可以用Stirling 公式来计算Gam…

贝塔、伽马分布

最近开始自学PRML,为此又补了概率论中的一些知识点。 相较于古典概率通过各种估计手段来确定参数的分布,贝叶斯学派则是使用后验概率来确定,为了方便计算后验概率,引入共轭先验分布来方便计算,这是后话了。 那么一些…

贝塔分布

B e t a Beta Beta分布 众所周知,当一个随机变量 Y Y Y的密度函数如下所示时,称这个变量 Y Y Y满足 B e t a ( a , b ) Beta(a,b) Beta(a,b)分布: f ( y ) y a − 1 ( 1 − y ) b − 1 ∫ 0 1 y a − 1 ( 1 − y ) b − 1 d y y a − 1 (…

数据科学分布——Beta分布

Beta分布 概念参数影响数量比例 随机产生数据概率密度函数累积概率密度函数 概念 贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布&#…

Beta分布及其应用

贝塔分布(Beta Distribution)是一个连续的概率分布,它只有两个参数。它最重要的应用是为某项实验的成功概率建模。在本篇博客中,我们使用Beta分布作为描述。 原文地址:http://www.datalearner.com/blog/1051505532393…

机器学习中的数学——常用概率分布(十):贝塔分布(Beta分布)

分类目录:《机器学习中的数学》总目录 相关文章: 常用概率分布(一):伯努利分布(Bernoulli分布) 常用概率分布(二):范畴分布(Multinoulli分布&am…

NLPIR分词系统的使用

前身是2000年发布的ICTCLAS,2009年更为现名。张华平博士打造。 Java课设做自动问答系统,用到了,所以记录一下使用方法,网上方法可能有点老,所以自己发现没有那么复杂。 https://github.com/NLPIR-team/NLPIR 上下载源…

分词系统

ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是该版的Free版开放了源代码,为我们很多初学者提供了宝贵的学习材料。 但有一点不完美的是,该源代码没有配套的文档,阅读起来可能有…

中科院分词ICTCLAS汉语分词系统简单配置

汉语分词一直来说都是进行文本分析的瓶颈,这里介绍一个汉语分词系统ICTCLAS,全球很受欢迎的汉语分词开源系统,曾获得首界国际分词大赛综合排名第一,国家973评测第一名;支持词典,多级词性标注,支…

智能语言-中科院分词系统ICTCLAS(NLPIR)

智能语言的处理中,第一个步骤就是分词。一个句子处理的第一步就是分词了,目前而言中文分词中效果最好的就是中科院分词系统。在2014版本以及之前称为ICTCLAS,之后的版本都更名为NLPIR。 我给出一个最简单的使用教程,能够帮助新手…

NLPIR(北理工张华平版中文分词系统)的SDK(C++)调用方法

一、本文内容简介 关于中文分词的基本概念关于NLPIR(北理工张华平版中文分词系统)的基本情况具体SDK模块(C版)的组装方法 二、具体内容 1. 中文分词的基本概念 中文分词是自然语言处理的一个分支,自然语言即人们在日常生活中使用的语言,包含书面语,口…

哈工大中文分词系统LTP(pyltp)学习笔记

一、LTP简介 介绍:语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术。经过 哈工大社会计算与信息检索研究中心 11 年的持续研发和推广,LTP已经成为国内外最具影响力的中文…

比较热门好用的开源中文分词软件系统有哪些?

在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务&…

中科院分词系统整理笔记

NLPIR简介 一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。可以使用该软件对自己的数据进行处理。 NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统,从2009年开始&…

NLPIR汉语分词系统

灵玖软件:www.lingjoin.com 应各位ICTCLAS用户的要求,张华平博士正式发布ICTCLAS2013 版本,为了与以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检索共享平台,从本版本开始,系统名称调整为NLPIR汉…

使用NLPIR汉语分词系统进行分词

今天尝试了用张华平博士打造的汉语分词系统进行分词测试,遇到了一些问题,最终还是分词成功,首先感谢NLPIR提供的源码及资料,现将使用过程中遇到的问题及解决方法分享出来,仅供参考。 NLPIR提供了多种开发接口&#xf…