贝塔分布

article/2025/10/15 19:23:30

B e t a Beta Beta分布

众所周知,当一个随机变量 Y Y Y的密度函数如下所示时,称这个变量 Y Y Y满足 B e t a ( a , b ) Beta(a,b) Beta(a,b)分布:
f ( y ) = y a − 1 ( 1 − y ) b − 1 ∫ 0 1 y a − 1 ( 1 − y ) b − 1 d y = y a − 1 ( 1 − y ) b − 1 B ( a , b ) f(y)=\frac{y^{a-1}(1-y)^{b-1}}{\int_0^1{y^{a-1}(1-y)^{b-1}dy}}=\frac{y^{a-1}(1-y)^{b-1}}{B(a,b)} f(y)=01ya1(1y)b1dyya1(1y)b1=B(a,b)ya1(1y)b1
其中: B ( a , b ) = ∫ 0 1 y a − 1 ( 1 − y ) b − 1 d y B(a,b)={\int_0^1{y^{a-1}(1-y)^{b-1}dy}} B(a,b)=01ya1(1y)b1dy B e t a Beta Beta函数。

然而,令人困惑不解的是,这个 B e t a ( a , b ) Beta(a,b) Beta(a,b)分布中的参数 a , b a,b a,b到底是什么含义?而对于满足这个分布的变量 Y Y Y,它又有着什么实际意义?接下来我所要阐明的就是这个问题,更好的理解所谓 B e t a ( a , b ) Beta(a,b) Beta(a,b)分布。

1.二项分布

首先,从随机变量 Y Y Y的密度函数 y a − 1 ( 1 − y ) b − 1 ∫ 0 1 y a − 1 ( 1 − y ) b − 1 d y \frac{y^{a-1}(1-y)^{b-1}}{\int_0^1{y^{a-1}(1-y)^{b-1}dy}} 01ya1(1y)b1dyya1(1y)b1我们可以看出,分母部分是分子部分的从0到1的积分,证明这个 Y Y Y的取值范围是[0,1],那么我们这时候会不会自然而然地想到,这个 Y Y Y很有可能代表的就是一个概率呢?

从这个角度出发,是不是看着 y a − 1 ( 1 − y ) b − 1 {y^{a-1}(1-y)^{b-1}} ya1(1y)b1也觉得有点眼熟呢?没错,对于一个服从于二项分布 B ( n , p ) B(n,p) B(n,p)的随机变量 ξ \xi ξ,它的分布列为 P ( ξ = k ) = C n k p k ( 1 − p ) n − k P(\xi=k)=C_n^kp^k(1-p)^{n-k} P(ξ=k)=Cnkpk(1p)nk,这与服从于 B e t a Beta Beta分布的 Y Y Y的密度函数 f ( y ) f(y) f(y)中的 y a − 1 ( 1 − y ) b − 1 {y^{a-1}(1-y)^{b-1}} ya1(1y)b1有着异曲同工之妙!那么 B e t a Beta Beta分布与二项分布之间是否存在着什么联系?

2.贝叶斯

上面已经说过,对于一个服从于二项分布 B ( n , p ) B(n,p) B(n,p)的随机变量 ξ \xi ξ,它的分布列为 P ( ξ = k ) = C n k p k ( 1 − p ) n − k P(\xi=k)=C_n^kp^k(1-p)^{n-k} P(ξ=k)=Cnkpk(1p)nk二项分布 B ( n , p ) B(n,p) B(n,p)是独立重复 n n n次伯努利实验,每次事件发生的概率都为 p p p,所以 ξ \xi ξ实质上是在已经确定参数 p p p的条件下,事件发生的次数之和,所以分布列 P ( ξ = k ) P(\xi=k) P(ξ=k)也可以记为: P ( ξ = k ∣ p ) = C n k p k ( 1 − p ) n − k P(\xi=k|p)=C_n^kp^k(1-p)^{n-k} P(ξ=kp)=Cnkpk(1p)nk可以看出,这是一个条件概率

熟悉贝叶斯思想与原理的朋友都知道,在贝叶斯公式中,后验概率可以由先验概率和条件概率一同得到: P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) ∑ j = 1 m P ( A ∣ B j ) P ( B j ) P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^mP(A|B_j)P(B_j)} P(BiA)=j=1mP(ABj)P(Bj)P(ABi)P(Bi)在已经知道参数先验分布信息与样本信息的情况下,我们也可以应用贝叶斯公式得到参数的后验分布信息: π ( θ ∣ x ) = L ( x ∣ θ ) π ( θ ) ∫ Θ L ( x ∣ θ ) π ( θ ) d θ \pi(\theta|x)=\frac{L(x|\theta)\pi(\theta)}{\int_\Theta L(x|\theta)\pi(\theta)d\theta} π(θx)=ΘL(xθ)π(θ)dθL(xθ)π(θ)这里, θ \theta θ表示需要估计的未知参数, x x x表示样本信息, π ( θ ) \pi(\theta) π(θ)表示 θ \theta θ的先验密度函数, L ( x ∣ θ ) L(x|\theta) L(xθ)表示 x x x关于 θ \theta θ的条件密度函数, Θ \Theta Θ表示参数 θ \theta θ的取值空间。

在这里,我们可能会奇怪,为什么 x x x关于 θ \theta θ的条件密度函数要用 L ( x ∣ θ ) L(x|\theta) L(xθ)表示,这是因为在我们使用极大似然法进行参数估计的时候,已知样本信息 x x x,需要选择合适的参数 θ \theta θ使发生样本所代表事件的概率最大,所以 L ( x ∣ θ ) L(x|\theta) L(xθ)在这里是一个似然函数

假设随机变量 X X X服从二项分布 B ( n , θ ) B(n,\theta) B(n,θ),那么似然函数:
L ( x ∣ θ ) = P ( X = x ∣ θ ) = C n x θ x ( 1 − θ ) n − x L(x|\theta)=P(X=x|\theta)=C_n^x\theta^x(1-\theta)^{n-x} L(xθ)=P(X=xθ)=Cnxθx(1θ)nx如果我们对参数 θ \theta θ一无所知,那么对 θ \theta θ的先验分布 π ( θ ) \pi(\theta) π(θ)可以做如下均匀分布的假设,假设
θ \theta θ~ U ( 0 , 1 ) U(0,1) U(0,1),这个假设也称为贝叶斯假设 π ( θ ) = 1 ( 0 &lt; θ &lt; 1 ) \pi(\theta)=1~~~(0&lt;\theta&lt;1) π(θ)=1   (0<θ<1) = 0 ( e l s e ) =0~~~(else) =0   (else)由以上似然函数和参数的先验分布可以得出参数的后验分布: π ( θ ∣ x ) = L ( x ∣ θ ) π ( θ ) ∫ Θ L ( x ∣ θ ) π ( θ ) d θ \pi(\theta|x)=\frac{L(x|\theta)\pi(\theta)}{\int_\Theta L(x|\theta)\pi(\theta)d\theta} π(θx)=ΘL(xθ)π(θ)dθL(xθ)π(θ) = C n x θ x ( 1 − θ ) n − x ∫ 0 1 C n x θ x ( 1 − θ ) n − x d θ ~~~~~~~~~~~~~~~~~~~~=\frac{C_n^x\theta^x(1-\theta)^{n-x}}{\int_0^1C_n^x\theta^x(1-\theta)^{n-x}d\theta}                     =01Cnxθx(1θ)nxdθCnxθx(1θ)nx = θ x ( 1 − θ ) n − x ∫ 0 1 θ x ( 1 − θ ) n − x d θ ~~~~~~~~~~~~~~~=\frac{\theta^x(1-\theta)^{n-x}}{\int_0^1\theta^x(1-\theta)^{n-x}d\theta}                =01θx(1θ)nxdθθx(1θ)nx = θ ( x + 1 ) − 1 ( 1 − θ ) ( n − x + 1 ) − 1 B ( x + 1 , n − x + 1 ) ~~~~~~~~~~~~~~~~~~~~~~~~~=\frac{\theta^{(x+1)-1}(1-\theta)^{(n-x+1)-1}}{B(x+1,n-x+1)}                          =B(x+1,nx+1)θ(x+1)1(1θ)(nx+1)1
显然有: θ ∣ x \theta|x θx ~ B e t a ( x + 1 , n − x + 1 ) Beta(x+1,n-x+1) Beta(x+1,nx+1)
π ( θ ∣ x ) = θ ( x + 1 ) − 1 ( 1 − θ ) ( n − x + 1 ) − 1 B ( x + 1 , n − x + 1 ) \pi(\theta|x)=\frac{\theta^{(x+1)-1}(1-\theta)^{(n-x+1)-1}}{B(x+1,n-x+1)} π(θx)=B(x+1,nx+1)θ(x+1)1(1θ)(nx+1)1

再回到刚开始的服从于贝塔分布的随机变量 Y Y Y进行比对:

~~~~~~~~~~~~~~~~~~~~~~~~~~~                             Y Y Y~ B e t a ( a , b ) Beta(a,b) Beta(a,b)
f ( y ) = y a − 1 ( 1 − y ) b − 1 ∫ 0 1 y a − 1 ( 1 − y ) b − 1 d y = y a − 1 ( 1 − y ) b − 1 B ( a , b ) f(y)=\frac{y^{a-1}(1-y)^{b-1}}{\int_0^1{y^{a-1}(1-y)^{b-1}dy}}=\frac{y^{a-1}(1-y)^{b-1}}{B(a,b)} f(y)=01ya1(1y)b1dyya1(1y)b1=B(a,b)ya1(1y)b1

我们可以看出,贝塔分布里的参数 a a a就相当于参数估计中的 x + 1 x+1 x+1;贝塔分布里的参数 b b b就相当于 n − x + 1 n-x+1 nx+1

3.参数意义

上面我们假设随机变量 X X X服从二项分布 B ( n , θ ) B(n,\theta) B(n,θ),现在我们给这个二项分布赋予一个实际意义:假设今年武汉一共出生了 n n n个婴儿, θ \theta θ为出生婴儿性别为女的概率,那么 X X X就是武汉今年所出生女婴的总数,经统计,武汉今年一共出生了 x x x个女婴。按照经典的统计思想,可以用频率估计概率,那么女婴出生的概率 θ ^ = x n \hat{\theta}=\frac{x}{n} θ^=nx
但根据贝叶斯的观点, θ \theta θ存在着一个分布,密度函数是 π ( θ ∣ x ) = θ ( x + 1 ) − 1 ( 1 − θ ) ( n − x + 1 ) − 1 B ( x + 1 , n − x + 1 ) \pi(\theta|x)=\frac{\theta^{(x+1)-1}(1-\theta)^{(n-x+1)-1}}{B(x+1,n-x+1)} π(θx)=B(x+1,nx+1)θ(x+1)1(1θ)(nx+1)1,我们可以看一下这个分布到底是怎样的。
分别取 n = 100 , x = 45 n=100,x=45 n=100,x=45 ( a = 46 , b = 56 a=46,b=56 a=46,b=56),以及 n = 100 , x = 65 n=100,x=65 n=100,x=65 ( a = 66 , b = 36 a=66,b=36 a=66b=36),画出的密度函数如下图所示:
在这里插入图片描述

p=ggplot(data.frame(x=c(0,1)),aes(x=x))+
stat_function(fun=dbeta,args=list(shape1=46,shape2=56),geom="area",fill="blue",alpha=0.3,colour="blue")+
stat_function(fun=dbeta,args=list(shape1=66,shape2=36),geom="area",fill="red",alpha=0.3,colour="red")+
annotate("text",x=0.45,y=8.1,label="n=100,x=45")+
annotate("text",x=0.65,y=8.5,label="n=100,x=65")+
labs(x="theta",y="density")
p_remove_bg=p+theme_bw()          
p_remove_bg

正如我们所看到的,横坐标值所代表的是女婴出生率,纵坐标代表的是密度函数,红色和蓝色所代表的随机变量分别服从 B e t a ( 46 , 56 ) Beta(46,56) Beta(46,56) B e t a ( 66 , 36 ) Beta(66,36) Beta(66,36),从分布上来看,红色所代表的女婴出生率要高于蓝色所代表的女婴出生率。至此,服从贝塔分布的随机变量的意义,以及贝塔分布中的参数的实际意义得到了一定的解释。

4. B e t a Beta Beta分布

上面我们假设 n = 100 , x = 45 n=100,x=45 n=100,x=45很明显不符合实际,因为武汉每年出生的婴儿量是很大的,如果我们扩大样本量,那么参数 θ \theta θ的后验分布会不会有所变化呢?我们将 n n n调整为10000, x x x调整为4500, ( a = 4501 , b = 5501 ) (a=4501,b=5501) (a=4501,b=5501)

在这里插入图片描述

很明显可以看出,扩大样本量时,参数估计的众数基本不变(即密度函数最大的点所对应的值),而方差缩小了很多,所以扩大样本量可以使估计更为精确。

5.共轭先验分布

回顾一下,随机变量 X X X~ B ( n , θ ) B(n,\theta) B(n,θ) , 参数的先验信息为: θ \theta θ~ U ( 0 , 1 ) U(0,1) U(0,1),给出样本信息 x x x,那么参数的后验分布为 θ ∣ x \theta|x θx~ B e t a ( x + 1 , n − x + 1 ) Beta(x+1,n-x+1) Beta(x+1,nx+1)

当随机变量 Y Y Y~ B e t a ( 1 , 1 ) Beta(1,1) Beta(1,1)时, B e t a Beta Beta分布退化为均匀分布, Y Y Y~ U ( 0 , 1 ) U(0,1) U(0,1)

所以参数 θ \theta θ的分布实质上是由先验的 θ \theta θ~ B e t a ( 1 , 1 ) Beta(1,1) Beta(1,1) 变为后验的 θ ∣ x \theta|x θx~ B e t a ( x + 1 , n − x + 1 ) Beta(x+1,n-x+1) Beta(x+1,nx+1) π ( θ ) \pi(\theta) π(θ) π ( θ ∣ x ) \pi(\theta|x) π(θx)属于同一分布族。我们称该 B e t a Beta Beta分布族为 θ \theta θ共轭先验分布族

结论: 对于服从二项分布 B ( n , θ ) B(n,\theta) B(n,θ)的随机变量 X X X而言, 样本信息为 x x x,假设 θ \theta θ的先验分布满足 θ \theta θ~ B e t a ( a , b ) Beta(a,b) Beta(a,b), 经过简单的推导可得, θ \theta θ的后验分布满足
θ ∣ x \theta|x θx~ B e t a ( x + a , n − x + b ) Beta(x+a,n-x+b) Beta(x+a,nx+b)


http://chatgpt.dhexx.cn/article/PyAlS9L7.shtml

相关文章

数据科学分布——Beta分布

Beta分布 概念参数影响数量比例 随机产生数据概率密度函数累积概率密度函数 概念 贝塔分布&#xff08;Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数&#xff0c;在机器学习和数理统计学中有重要应用。在概率论中&#xff0c;贝塔分布&#…

Beta分布及其应用

贝塔分布&#xff08;Beta Distribution&#xff09;是一个连续的概率分布&#xff0c;它只有两个参数。它最重要的应用是为某项实验的成功概率建模。在本篇博客中&#xff0c;我们使用Beta分布作为描述。 原文地址&#xff1a;http://www.datalearner.com/blog/1051505532393…

机器学习中的数学——常用概率分布(十):贝塔分布(Beta分布)

分类目录&#xff1a;《机器学习中的数学》总目录 相关文章&#xff1a; 常用概率分布&#xff08;一&#xff09;&#xff1a;伯努利分布&#xff08;Bernoulli分布&#xff09; 常用概率分布&#xff08;二&#xff09;&#xff1a;范畴分布&#xff08;Multinoulli分布&am…

NLPIR分词系统的使用

前身是2000年发布的ICTCLAS&#xff0c;2009年更为现名。张华平博士打造。 Java课设做自动问答系统&#xff0c;用到了&#xff0c;所以记录一下使用方法&#xff0c;网上方法可能有点老&#xff0c;所以自己发现没有那么复杂。 https://github.com/NLPIR-team/NLPIR 上下载源…

分词系统

ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统&#xff0c;难能可贵的是该版的Free版开放了源代码&#xff0c;为我们很多初学者提供了宝贵的学习材料。 但有一点不完美的是&#xff0c;该源代码没有配套的文档&#xff0c;阅读起来可能有…

中科院分词ICTCLAS汉语分词系统简单配置

汉语分词一直来说都是进行文本分析的瓶颈&#xff0c;这里介绍一个汉语分词系统ICTCLAS&#xff0c;全球很受欢迎的汉语分词开源系统&#xff0c;曾获得首界国际分词大赛综合排名第一&#xff0c;国家973评测第一名&#xff1b;支持词典&#xff0c;多级词性标注&#xff0c;支…

智能语言-中科院分词系统ICTCLAS(NLPIR)

智能语言的处理中&#xff0c;第一个步骤就是分词。一个句子处理的第一步就是分词了&#xff0c;目前而言中文分词中效果最好的就是中科院分词系统。在2014版本以及之前称为ICTCLAS&#xff0c;之后的版本都更名为NLPIR。 我给出一个最简单的使用教程&#xff0c;能够帮助新手…

NLPIR(北理工张华平版中文分词系统)的SDK(C++)调用方法

一、本文内容简介 关于中文分词的基本概念关于NLPIR(北理工张华平版中文分词系统)的基本情况具体SDK模块(C版)的组装方法 二、具体内容 1. 中文分词的基本概念 中文分词是自然语言处理的一个分支,自然语言即人们在日常生活中使用的语言&#xff0c;包含书面语&#xff0c;口…

哈工大中文分词系统LTP(pyltp)学习笔记

一、LTP简介 介绍&#xff1a;语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术。经过 哈工大社会计算与信息检索研究中心 11 年的持续研发和推广&#xff0c;LTP已经成为国内外最具影响力的中文…

比较热门好用的开源中文分词软件系统有哪些?

在逐渐步入DT&#xff08;Data Technology&#xff09;时代的今天&#xff0c;自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说&#xff0c;并没有类似英文空格的边界标志。而理解句子所包含的词语&#xff0c;则是理解汉语语句的第一步。汉语自动分词的任务&…

中科院分词系统整理笔记

NLPIR简介 一套专门针对原始文本集进行处理和加工的软件&#xff0c;提供了中间件处理效果的可视化展示&#xff0c;也可以作为小规模数据的处理加工工具。可以使用该软件对自己的数据进行处理。 NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统&#xff0c;从2009年开始&…

NLPIR汉语分词系统

灵玖软件&#xff1a;www.lingjoin.com 应各位ICTCLAS用户的要求&#xff0c;张华平博士正式发布ICTCLAS2013 版本&#xff0c;为了与以前工作进行大的区隔&#xff0c;并推广NLPIR自然语言处理与信息检索共享平台&#xff0c;从本版本开始&#xff0c;系统名称调整为NLPIR汉…

使用NLPIR汉语分词系统进行分词

今天尝试了用张华平博士打造的汉语分词系统进行分词测试&#xff0c;遇到了一些问题&#xff0c;最终还是分词成功&#xff0c;首先感谢NLPIR提供的源码及资料&#xff0c;现将使用过程中遇到的问题及解决方法分享出来&#xff0c;仅供参考。 NLPIR提供了多种开发接口&#xf…

php中文分词nlp,几种常见的PHP中文分词系统

因为要做毕业设计&#xff0c;可能需要相关知识&#xff0c;所以在此总结一下常见的中文分词系统。 1)HTTPCWS – 基于HTTP协议的开源中文分词系统 张宴的作品&#xff0c;基于ICTCLAS 3.0 共享版&#xff0c;分词精度98.45%。可以采用HTTP方式调用借口。 2)SCWS – 简易中文分…

基于Java实现的中文分词系统

资源下载地址&#xff1a;https://download.csdn.net/download/sheziqiong/85941192 资源下载地址&#xff1a;https://download.csdn.net/download/sheziqiong/85941192 目录 1.问题描述 2.相关工作 3.系统框架和算法设计 3.1系统整体框架 3.2基于HMM模型分词算法设计 3…

基于Python的汉语分词系统

资源下载地址&#xff1a;https://download.csdn.net/download/sheziqiong/86776599 资源下载地址&#xff1a;https://download.csdn.net/download/sheziqiong/86776599 汉语分词系统 目录 汉语分词系统 1 摘要 1 1 绪论 1 2 相关信息 1 2.1 实验目标 1 2.2 编程语言与环境 2 …

ICTCLAS分词系统研究(一)

ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是该版的Free版开放了源代码,为我们很多初学者提供了宝贵的学习材料。 但有一点不完美的是,该源代码没有配套的文档,阅读起来可能有一定的障碍,尤其是对C/C++不熟的人来说.本…

自然语言处理——分词系统(正向最大匹配法)

算法分析 正向最大匹配法&#xff0c;对于输入的一段文本从左至右、以贪心的方式切分出当前位置上长度最大的词。正向最大匹配法是基于词典的分词方法&#xff0c;其分词原理是:单词的颗粒度越大&#xff0c;所能表示的含义越确切。该算法主要分两个步骤: 该算法主要分为两个步…

LTE学习-信道均衡(ZF)

前面学习了信道估计和插值&#xff0c;现在说说信道均衡&#xff0c;信道均衡的作用就是根据信道估计和插值的结果尽可能恢复发射数据。信道均衡技术主要有两种&#xff0c;迫零(ZF)均衡和最小均方误差(MMSE)均衡&#xff0c;实际上还有一个最大似然(ML)均衡&#xff0c;但计算…

解调去载波后均衡信道与实际信道的关系

关注公号【逆向通信猿】更精彩!!! 通常,信号经过调制后发送,会经过信道作用,示意图可以表示为 其中 x ( t ) x(t) x(t)为基带信号, e