Beta分布及其应用

article/2025/10/15 19:26:32

贝塔分布(Beta Distribution)是一个连续的概率分布,它只有两个参数。它最重要的应用是为某项实验的成功概率建模。在本篇博客中,我们使用Beta分布作为描述。

原文地址:http://www.datalearner.com/blog/1051505532393058

一、Beta分布的定义及其简介

Beta分布是一个定义在[0,1]区间上的连续概率分布族,它有两个正值参数,称为形状参数,一般用 α β 表示。在贝叶斯推断中,Beta分布是Bernoulli、二项分布、负二项分布和几何分布的共轭先验分布。Beta分布的概率密度函数形式如下:

这里的 Γ 表示gamma函数。
Beta分布的均值是:

αα+β

方差是:

αβ(α+β)2(α+β+1)

下面我们看一下Beta分布的图形:
beta分布的R语言实例
  首先,我们可以画一个beta分布的概率密度函数。

set.seed(1)
x<-seq(0,1,length.out=10000)
plot(0,0,main='probability density function',xlim=c(0,1),ylim=c(0,2.5),ylab='PDF')
lines(x,dbeta(x,0.5,0.5),col='red')
lines(x,dbeta(x,1,2),col='green')
lines(x,dbeta(x,2,2),col='pink')
lines(x,dbeta(x,2,5),col='orange')
lines(x,dbeta(x,1,3),col='blue')
lines(x,dbeta(x,5,1),col='black')
legend('top',legend=c('α=0.5,β=0.5','α=1,β=2','α=2,β=2','α=2,β=5','α=1,β=3','α=5,β=1'),col=c('red','green','pink','orange','blue','black'),lwd=1)



  我们再来画一个beta分布的累计概率密度函数

set.seed(1)
x<-seq(0,1,length.out=10000)
plot(0,0,main='cumulative distribution function',xlim=c(0,1),ylim=c(0,1),ylab='PDF')
lines(x,pbeta(x,0.5,0.5),col='red')
lines(x,pbeta(x,1,2),col='green')
lines(x,pbeta(x,2,2),col='pink')
lines(x,pbeta(x,2,5),col='orange')
lines(x,pbeta(x,1,3),col='blue')
lines(x,pbeta(x,5,1),col='black')
legend('topleft',legend=c('α=0.5,β=0.5','α=1,β=2','α=2,β=2','α=2,β=5','α=1,β=3','α=5,β=1'),col=c('red','green','pink','orange','blue','black'),lwd=1)



从Beta分布的概率密度函数的图形我们可以看出,Beta分布有很多种形状,但都是在0-1区间内,因此Beta分布可以描述各种0-1区间内的形状(事件)。因此,它特别适合为某件事发生或者成功的概率建模。同时,当 α=1 β=1 的时候,它就是一个均匀分布。

下面我们使用三个例子来描述Beta分布的应用。

二、为实验成功概率建模(为棒球运动员的击球率建模)

Statlect网站上给出了一个简单的解释。假设一个概率实验只有两种结果,一个是成功,概率是 X ,另一个是失败,概率为(1X)。其中, X 的值我们是不知道的,但是它所有可能的情况也是等概率的。如果我们对X的不确定性用一种方式描述,那么,可以认为 X 是一个来自于[0,1]区间的均匀分布的样本。这是很合理的,因为 X 只可能是[0,1]之间的某个值。同时,我们对 X 也一无所知,认为它是[0,1]之间任何一个可能的值。这些都与 [0,1] 均匀分布的性质契合。现在,假设我们做了 n 次独立重复的实验,我们观察到k次成功, nk 次失败。这时候我们就可以使用这些实验结果来修订之前的假设了。换句话说,我们就要计算 X 的条件概率,其条件是我们观察到的成功次数和失败次数。这里计算的结果就是Beta分布了。在这里,在总共n次实验, k 次成功的条件下,X的条件概率是一个Beta分布,其参数是 k+1 nk+1

在Cross Validated的问题:What is the intuition behind beta distribution?中,David Robinson给出了另外一个关于击中棒球的例子。在棒球运动中,有个叫平均击球率的概念。就是用一个运动员击中棒球的次数除以他总的击球数量。一般情况下,棒球运动员的击球概率在 0.266 左右。高于这个值就是不错的运动员了。假设我们要预测一个运动员在某个赛季的击球率,我们可以使用已有的数据计算。但是在赛季刚开始的时候,他击球次数少,因此无法准确预测。比如他只打了一次球,那击球率就是1或者0,这个显然是不对的,我们也不会这么预测。因为我们都有一个先验期望。即根据历史情况,我们认为一个运动员大概的击球率应当是在0.215到0.360之间。因此,当一个运动员在赛季开始就被三振出局,那么我们可以预期这个运动员的击球率可能会略低于平均值,但他不可能是0。那么,在这个运动员的例子中,关于在赛季开始的击球情况,可以使用二项式分布表示,也就是一系列击球成功和失败的实验(假设之间相互独立)。同时,我们也会给这个数据一个先验期望(即统计中的先验知识),这个先验的分布一般就是Beta分布。这里的Beta分布就是用来修正我们观测到的运动员的击球率的(简单来说就是即便开始这个运动员被三振出局了,我们也只会预测他的击球率可能低于平均水平,但不会是0)。

Beta分布作为先验

图1 Beta分布作为先验

如上图1所示,我们使用Beta分布作为先验来解决这个问题。这个图是这个问题的概率图模型,假设该用户的击球率的分布是一个参数为 θ 的分布(这里 θ 既表示一个分布,也是这个分布的参数。因为在概率图模型中,我们经常使用某个分布的参数来代替说明某个模型),也就是说 θ 是用户击球成功的概率。假设,到目前为止,用户在这个赛季总共打了 n 次球,击中的次数是x,这是一个二项式分布,即 p(y|θ)=Binomial(x;n,θ) 。我们的目标就是推导 θ 分布的形式并估算这个参数的值。这就变成了在贝叶斯推断中的求后验概率的问题了:

p(θ|y,α,β)=p(y|θ)p(θ|α,β)p(y)

在这里,分母 p(y) 是数据结果,也就是常数。分子第一个项是二项式分布,即 p(y|θ)=θx(1θ)(nx) ,分子的第二项是Beta分布的结果了。详细结果后面再说。在这里,最后我们会发现 θ 也是一个Beta分布。其结果为 Beta(α+x,β+(nx))

比如,假设所有的运动员击球率在0.27左右,范围一般是0.21到0.35之间。这个可以用参数 α=81 β=219 的Beta分布表示,即 Beta(81,219) 。为什么参数取这两个值呢?因为这两个参数的Beta分布的均值是0.27,主要的区间是[0.2,0.35]。假设某个用户击球300次,成功100次,那么,根据计算的结果,用户的击球率的分布应当是 Beta(181,419) ,其概率大约是均值0.303,要比平均水平略高。

从上面这两个例子中我们可以看出,对于某个事件发生的可能的概率,当我们只有一些大概的了解,但无法知道确切的概率的时候,可以使用Beta分布表示这个概率分布。也就是说,Beta分布是用来为某些具有一定范围的事情建模的,例如0-1之间的概率。

三、为顺序统计量建模

假设有个机器可以随机产生[0,1]之间的随机数,机器运行10次,第7大的数是什么,偏离不超过0.01?这个问题的数学化表达如下:

  1.

X_1,X_2,...,X_nUniform(0,1),i.i.d.

  2.将这n个随机变量排序得到顺序统计量
X_(1),X_(2),...,X_(n)

  3.问
X_(k)
的分布是什么?

  我们可以假设计算

X_k
落在
[x,x+Δx]
区间上的概率:
P(xXkx+Δx)=?

  我们将区间分成三个部分
[0,x),[x,x+Δx],(x+Δx,1]
。假设只有1个数落在区间
[x,x+Δx]
内,那么该事件可以表示:
E={X1[x,x+Δx],Xi[0,x)],Xj(x+Δx,1]}

  其中,
i=2,...,k,j=k+1,...,n



  从而有:

P(E)=i=1nP(xi)=xk1(1xΔx)nkΔx=xk1(1x)nkΔx+o(Δx)

  其中
o(Δx)
表示
Δx
的高阶无穷小。根据推断,落在
[x,x+Δx]
区间的事件超过一个,则对应的事件概率就是
o(Δx)
。进而我们可以得到
X_k
的概率密度为:
f(x)=limΔx0P(xXkx+Δx)Δx

=n!(k1)!(nk)!xk1(1x)nk

=Γ(n+1)Γ(k)Γ(nk+1)xk1(1x)nk

=Γ(α+β)Γ(α)Γ(β)xα1(1x)β1

  上式即为一般意义上的beta分布。具体的推导过程可以参见《LDA数学八卦》。

四、旧货商服务质量推断

假设亚马逊上有三家旧货商,其评价结果分别如下:

商家一:85193个评论,94%的正向
商家二:20785个评论,98%的正向
商家三:840个评论,99%的正向

那么这三个商家中,哪一家的服务质量最好呢?假设这三家的服务质量分别是 θX θY θZ 。假设我们对三家旧货商的信息一无所知,那么这些参数的先验可以认为是一个均匀分布,也可以等同于 beta(1,1) 。根据之前的知识,我们知道,最终这三家旧货商的服务质量应当服从三个不同参数的Beta分布,即 beta(80082,5113) beta(20370,417) beta(833,9) (把正向的和负向的评论书算出来,分别加1就是参数了,参考上面公式)。注意,当Beta分布的参数很大的时候,我们可以使用相同均值和方差的正态分布代替这个beta分布。因此,最终这三家供货商,商家3的服务质量的标准差是0.003,是最大的。其他两家的标准差比这个还小。因此,我们可以认为这三家供货商的服务质量都高度聚焦于他们的均值。因此,从第一个或第二个分布中抽取的样本不太可能比第三个样本的值高。也就是说前两个服务商不太可能质量比第三个高。

参考1:https://stats.stackexchange.com/questions/47771/what-is-the-intuition-behind-beta-distribution
参考2:https://www.johndcook.com/blog/2011/09/27/bayesian-amazon/#comments
参考3:https://en.wikipedia.org/wiki/Beta_distribution
参考4:《LDA数学八卦》


http://chatgpt.dhexx.cn/article/QPAJ7UsZ.shtml

相关文章

机器学习中的数学——常用概率分布(十):贝塔分布(Beta分布)

分类目录&#xff1a;《机器学习中的数学》总目录 相关文章&#xff1a; 常用概率分布&#xff08;一&#xff09;&#xff1a;伯努利分布&#xff08;Bernoulli分布&#xff09; 常用概率分布&#xff08;二&#xff09;&#xff1a;范畴分布&#xff08;Multinoulli分布&am…

NLPIR分词系统的使用

前身是2000年发布的ICTCLAS&#xff0c;2009年更为现名。张华平博士打造。 Java课设做自动问答系统&#xff0c;用到了&#xff0c;所以记录一下使用方法&#xff0c;网上方法可能有点老&#xff0c;所以自己发现没有那么复杂。 https://github.com/NLPIR-team/NLPIR 上下载源…

分词系统

ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统&#xff0c;难能可贵的是该版的Free版开放了源代码&#xff0c;为我们很多初学者提供了宝贵的学习材料。 但有一点不完美的是&#xff0c;该源代码没有配套的文档&#xff0c;阅读起来可能有…

中科院分词ICTCLAS汉语分词系统简单配置

汉语分词一直来说都是进行文本分析的瓶颈&#xff0c;这里介绍一个汉语分词系统ICTCLAS&#xff0c;全球很受欢迎的汉语分词开源系统&#xff0c;曾获得首界国际分词大赛综合排名第一&#xff0c;国家973评测第一名&#xff1b;支持词典&#xff0c;多级词性标注&#xff0c;支…

智能语言-中科院分词系统ICTCLAS(NLPIR)

智能语言的处理中&#xff0c;第一个步骤就是分词。一个句子处理的第一步就是分词了&#xff0c;目前而言中文分词中效果最好的就是中科院分词系统。在2014版本以及之前称为ICTCLAS&#xff0c;之后的版本都更名为NLPIR。 我给出一个最简单的使用教程&#xff0c;能够帮助新手…

NLPIR(北理工张华平版中文分词系统)的SDK(C++)调用方法

一、本文内容简介 关于中文分词的基本概念关于NLPIR(北理工张华平版中文分词系统)的基本情况具体SDK模块(C版)的组装方法 二、具体内容 1. 中文分词的基本概念 中文分词是自然语言处理的一个分支,自然语言即人们在日常生活中使用的语言&#xff0c;包含书面语&#xff0c;口…

哈工大中文分词系统LTP(pyltp)学习笔记

一、LTP简介 介绍&#xff1a;语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术。经过 哈工大社会计算与信息检索研究中心 11 年的持续研发和推广&#xff0c;LTP已经成为国内外最具影响力的中文…

比较热门好用的开源中文分词软件系统有哪些?

在逐渐步入DT&#xff08;Data Technology&#xff09;时代的今天&#xff0c;自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说&#xff0c;并没有类似英文空格的边界标志。而理解句子所包含的词语&#xff0c;则是理解汉语语句的第一步。汉语自动分词的任务&…

中科院分词系统整理笔记

NLPIR简介 一套专门针对原始文本集进行处理和加工的软件&#xff0c;提供了中间件处理效果的可视化展示&#xff0c;也可以作为小规模数据的处理加工工具。可以使用该软件对自己的数据进行处理。 NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统&#xff0c;从2009年开始&…

NLPIR汉语分词系统

灵玖软件&#xff1a;www.lingjoin.com 应各位ICTCLAS用户的要求&#xff0c;张华平博士正式发布ICTCLAS2013 版本&#xff0c;为了与以前工作进行大的区隔&#xff0c;并推广NLPIR自然语言处理与信息检索共享平台&#xff0c;从本版本开始&#xff0c;系统名称调整为NLPIR汉…

使用NLPIR汉语分词系统进行分词

今天尝试了用张华平博士打造的汉语分词系统进行分词测试&#xff0c;遇到了一些问题&#xff0c;最终还是分词成功&#xff0c;首先感谢NLPIR提供的源码及资料&#xff0c;现将使用过程中遇到的问题及解决方法分享出来&#xff0c;仅供参考。 NLPIR提供了多种开发接口&#xf…

php中文分词nlp,几种常见的PHP中文分词系统

因为要做毕业设计&#xff0c;可能需要相关知识&#xff0c;所以在此总结一下常见的中文分词系统。 1)HTTPCWS – 基于HTTP协议的开源中文分词系统 张宴的作品&#xff0c;基于ICTCLAS 3.0 共享版&#xff0c;分词精度98.45%。可以采用HTTP方式调用借口。 2)SCWS – 简易中文分…

基于Java实现的中文分词系统

资源下载地址&#xff1a;https://download.csdn.net/download/sheziqiong/85941192 资源下载地址&#xff1a;https://download.csdn.net/download/sheziqiong/85941192 目录 1.问题描述 2.相关工作 3.系统框架和算法设计 3.1系统整体框架 3.2基于HMM模型分词算法设计 3…

基于Python的汉语分词系统

资源下载地址&#xff1a;https://download.csdn.net/download/sheziqiong/86776599 资源下载地址&#xff1a;https://download.csdn.net/download/sheziqiong/86776599 汉语分词系统 目录 汉语分词系统 1 摘要 1 1 绪论 1 2 相关信息 1 2.1 实验目标 1 2.2 编程语言与环境 2 …

ICTCLAS分词系统研究(一)

ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是该版的Free版开放了源代码,为我们很多初学者提供了宝贵的学习材料。 但有一点不完美的是,该源代码没有配套的文档,阅读起来可能有一定的障碍,尤其是对C/C++不熟的人来说.本…

自然语言处理——分词系统(正向最大匹配法)

算法分析 正向最大匹配法&#xff0c;对于输入的一段文本从左至右、以贪心的方式切分出当前位置上长度最大的词。正向最大匹配法是基于词典的分词方法&#xff0c;其分词原理是:单词的颗粒度越大&#xff0c;所能表示的含义越确切。该算法主要分两个步骤: 该算法主要分为两个步…

LTE学习-信道均衡(ZF)

前面学习了信道估计和插值&#xff0c;现在说说信道均衡&#xff0c;信道均衡的作用就是根据信道估计和插值的结果尽可能恢复发射数据。信道均衡技术主要有两种&#xff0c;迫零(ZF)均衡和最小均方误差(MMSE)均衡&#xff0c;实际上还有一个最大似然(ML)均衡&#xff0c;但计算…

解调去载波后均衡信道与实际信道的关系

关注公号【逆向通信猿】更精彩!!! 通常,信号经过调制后发送,会经过信道作用,示意图可以表示为 其中 x ( t ) x(t) x(t)为基带信号, e

WLAN信道利用率

WLAN空口/信道利用率监控大致如下 参数 说明 Ctl channel 主信道号 Channel Band 信道带宽 Ext Channel-11N产品支持 辅信道类型(Bellow/Above) Bellow:辅信道向下绑定 Above:辅信道向上绑定 CtlBusy(%) 主信道利用率 TxBusy(%) 发送帧利用率 RxBusy(%) 接收帧利用…

第7章:OFDM 信道估计与均衡(1)

第7章&#xff08;1&#xff09;内容如下&#xff1a; 一、OFDM相关书籍二、OFDM基本原理三、OFDM经过高斯白噪声信道的误码率分析三、总结 本人最近搞懂了OFDM的一些知识&#xff0c;便给本章取名为第7章——OFDM信道估计、均衡。本文所有代码下载地址是&#xff1a;123kevin4…