概率分布汇总

article/2025/8/30 2:57:46

概率分布、总体分布、抽样分布,一开始很容易搞混,还以为是同一个理论,不同的概念,毕竟都是分布,又都是统计学里面的概率。今天就来理解理解这个东西吧。

概率分布是指随机变量的各取值与该取值对应的概率之间呈现的规律。这里,随机变量具体指什么是根据我们提供的数据的变化而变化的。当我们需要得到数据总体的取值分布时,随机变量表征的就是数据总体,此时,概率分布就是总体分布。在抽样时,我们对数据总体做n次抽样,每次抽m个数据作为样本,每次抽样后,计算样本的均值或者方差等,n次抽样得到的n各均值的函数表征就是当下的随机变量,根据这个随机变量得到的概率分布就是抽样分布。因此,概率分布是一个更为广泛的概念,而总体分布、抽样分布是概率分布的特殊应用。

概率分布挺神奇的,也很复杂。各种不同的分布,中心极限定理,各种分布之间的转换,...,感觉都是大学问。今天呢,先罗列目前收集到的常见的分布。后续再一个个啃。


1.伯努利分布

伯努利分布也就是二项式分布,个人总结为“抛硬币”分布。

每周学一点统计学——概率分布大汇总

 

在伯努利试验中,只有两个事件:A和B,我们可以把抛硬币抛出“花”定为A,它的概率为p;抛出“币值”定为B,它的概率为q,事件A和B是互斥的,且p+q=1。随机变量X表示在n次试验中,事件A发生了x次,这样一来,X的取值范围为[0,n]之间的整数。该分布的函数

每周学一点统计学——概率分布大汇总

伯努利分布概率函数

2.正态分布

“钟形”曲线,是概率分布中特别重要的分布,也是应用最广泛的概率分布,由高斯最先在天文学研究中应用,后来成为中心极限定理中其他分布的渐进目标。它的重要统计量,均值u和标准差sigma。它的概率密度函数为

每周学一点统计学——概率分布大汇总

正态分布概率密度函数

分布的累积概率函数为

每周学一点统计学——概率分布大汇总

正态分布概率累积函数

当期望为0,标准差为1时,就是标准正态分布了。

3.泊松分布、指数分布和韦伯分布

3.1. 泊松分布

泊松分布是与世间和速度相关的分布,其随机变量X表示的在一段时间内,事件发生的次数,例如,每个月,某个航班晚点的次数。泊松分布中的随机变量不是毫无证据乱估计的,它带了一个先验参数lambda,这个参数表示以往的先验数据中该事件在单位时间内的平均发生率,如,根据前2年的数据统计出,某航班每月平均晚点次数为8次,lambda=8,那么我们可以通过泊松分布计算当月晚点x次的概率。

泊松分布的概率函数:

每周学一点统计学——概率分布大汇总

泊松分布概率函数

3.2 指数分布

和泊松分布一样与世间相关的分布还有指数分布和韦伯分布。泊松分布所使用的速率参数lambda是直接为事件频数,而指数分布更多表征那些不常发生的事件,如故障,交通事故,发生频数很低,用指数分布就更合适。指数分布如下

每周学一点统计学——概率分布大汇总

指数分布概率函数

3.3 韦伯分布

泊松分布和指数分布都不考虑时间在周期内发生变化,这种用于处理事件比较固定或者改变更长很长的事件是没有问题的。但是,有些事件会随着时间变化而改变,韦伯分布引入形状参数beta允许事件发生率变化和比例参数eta表示事件的生命周期特征。概率函数为

每周学一点统计学——概率分布大汇总

weibull分布概率函数

4.多项分布

伯努利分布是二项分布,事件只有两个,但是,实际上很多问题都不会只有两个事件。类比于伯努利分布,最简单的例子如掷骰子,可能掷出的点数有1,2,3,4,5,6,就有6个事件。我们可以设定1-6个随机变量,每个随机变量表示n次投掷后,某个点数被投掷出来的次数。例如,1点被投中的次数为X1, 2点被投中的次数为X2,3点被投中的次数为X3,......6个随机变量的概率和为1。这6个随机变量的概率分布就是一个多项分布。

每周学一点统计学——概率分布大汇总

 

多项分布的概率函数为

每周学一点统计学——概率分布大汇总

 

在投掷单个骰子中,k=6。

5.均匀分布

每周学一点统计学——概率分布大汇总

 

均匀分布是一定范围内,随机变量各取值的概率相等。个人理解,就是一个袋子里面有n颗球,每个球的大小、材料、制作工艺都是完全一样的,不同的是印了不同编号,这些球被随机打乱。然后有个人伸一只手进去摸一个,摸中每个球的机会可以看做是均等的,这n颗球的编号就是随机变量,随机变量的概率是均等的,也就是均匀分布。

每周学一点统计学——概率分布大汇总

均分分布的概率密度函数

每周学一点统计学——概率分布大汇总

均匀分布的概率函数

6.柯西分布

这个分布完全没研究过,暂时也不知道到底可以干啥,或者是从哪里来的,先列在这儿,后续再啃。

每周学一点统计学——概率分布大汇总

柯西分布概率密度函数

其中,a是超参数,当a为1的时候是个特例,估计就和标准正态分布一样吧。


7.贝塔分布及其涉及到的函数以及相关分布

7.1 伽玛函数和贝塔函数

贝塔分布涉及到两个函数——伽马函数和贝塔函数,其中伽玛函数是接下来的好几个分布都会用到的。

伽玛函数是欧拉在解决哥德巴赫提出的一个问题时导出来的,它长这样子

每周学一点统计学——概率分布大汇总

伽玛函数

这个积分并不复杂,从公式上很容易看出它所具有的特性

每周学一点统计学——概率分布大汇总

 

经过证明(证明过程暂时没搞懂)可以等到

每周学一点统计学——概率分布大汇总

 

这个公式是贝塔函数用伽玛函数表示的重要基石。首先,贝塔函数

每周学一点统计学——概率分布大汇总

贝塔函数

贝塔函数可以由伽玛函数很优雅的表示出来。

7.2 伽玛分布

伽玛分布是一种连续分布,他包含两个参数,alpha和beta,其随机变量x表示等到第alpha件事发生需要等到多长时间。和泊松分布系列是不是有点异曲同工?其中,alpha是形状参数,感觉和韦伯分布中的形状参数有点关联,beta是尺度参数,和韦伯参数中的eta比例参数关联。

每周学一点统计学——概率分布大汇总

伽玛分布概率密度函数

样子长得和泊松分布有点像,但是泊松分布随机变量的取值是正整数,而伽玛分布的取值是正实数,一个离散一个连续。

到这里,想提一下分布间不算特点的特点,二项分布、泊松系列分布、以及这里的伽玛分布和贝塔分布的随机变量都只有一个,也就是一维的;而多项分布以及后面会提到的狄利克雷分布,随机变量都是多个的,是多维的;正态分布、均匀分布可以是一维,也可以是多维的。

7.3 贝塔分布

贝塔分布可看做是某个事件发生的概率的概率分布,它的随机变量x是事件发生的概率,因此必须满足所有概率变量都必须满足的条件

每周学一点统计学——概率分布大汇总

 

并且贝塔分布和二项分布是共轭的。这里共轭是什么样的呢?就是根据先验beta分布经过二项分布数据加入后,得到的后验分布依然是beta分布。回顾抛硬币事件和伯努利分布,我们把伯努利分布的随机变量定为n次投掷中投出“花”的次数x’,也就是说伯努利是次数的概率。同样,我们用抛硬币事件来解释贝塔分布。beta分布的随机变量就是n次中投出“花”的次数为x’的各种概率x,其概率密度为

每周学一点统计学——概率分布大汇总

 

7.4 狄利克雷分布

贝塔分布和伯努利分布共轭,狄利克雷分布和多项分布共轭。狄利克雷是贝塔的多维度随机变量延伸。

每周学一点统计学——概率分布大汇总

 

其中,B是多维贝塔函数,表示为

每周学一点统计学——概率分布大汇总

 

这一块挺重要的,后续需要深入理解。


8.卡方分布、学生t分布和F分布

8.1 卡方分布

这三个分布在统计学中很常见也挺重要的。在早期文本特征抽取中,卡方检验经常被使用。卡方分布的随机变量是一系列服从标准正态分布的随机变量的平方和,即

每周学一点统计学——概率分布大汇总

 

累积概率函数为

每周学一点统计学——概率分布大汇总

卡方分布的累积概率函数

其中,v是随机变量的自由度。哈哈,伽玛函数又出现了。

8.2 学生t分布

t分布有个有趣的又来,最初是由吉尼斯啤酒公司的员工发现的,和啤酒居然能产生联系。t分布也是钟形曲线。只是正态分布是由数据总体的均值和标准差决定的,而在早年没有计算机的时代,数据量稍微大一点,计算就很费劲,总体的标准差计算起来就更费劲。因此,抽样后,用样本标准差作为总体标准差的估计量,所以,t分布也是钟形曲线。

每周学一点统计学——概率分布大汇总

t分布的概率密度函数

其中t是分布的随机变量,这个随机变量可以由标准正态分布的随机变量经过t变换得来。当然,实际应用中应该是由t变换成标准正态分布中的随机变量吧。变换过程

每周学一点统计学——概率分布大汇总

 

其中卡方是标准正态分布中自由度为v的随机变量的卡方值。

8.3 F分布

两个随机变量X, Y,X服从自由度为m的卡方分布,Y服从自由度为n的卡方分布,且这两个卡方分布彼此独立,那么变量

每周学一点统计学——概率分布大汇总

 

服从F分布。F分布的概率密度函数

每周学一点统计学——概率分布大汇总

 

总的来说,这三个分布都跟标准正态分布密切相关,同时有都跟卡方计算相关。


总的来说,这些个分布尽管从不同的试验中来,或者表征不同的统计问题,但他们之间总能彼此关联上,例如,伯努利分布通过中心极限定理可以逼近正态分布;泊松分布系列又和贝塔系列分布扯得上关系,同时,泊松系列分布也可逼近正态分布;卡方系列分布与标准正态分布密切相关,以及伽玛函数出现在很多分布中。种种关系很复杂,却也很有趣,后续继续加油吧。


http://chatgpt.dhexx.cn/article/vtaUj8ZR.shtml

相关文章

拉普拉斯分布

如果随机变量的概率密度函数分布如下图所示,那么它就是拉普拉斯分布,记为x-Laplace(μ,λ),其中,μ 是位置参数,λ 是尺度参数。如果 μ 0,那么,正半部分恰好是尺度为 1/λ(或者λ&…

高斯分布

正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。 若随机变量X服从一个数学期望为μ、标准…

机器学习小组知识点23:F分布(F Distribution)-R语言代码

F分布的用途:用于方差分析、协方差分析和回归分析等。 定义 一个 F -分布的随机变量是两个卡方分布变量的比率: U1/d1U2/d2=U1/U2d1/d2 其中: U1和U2呈卡方分布,它们的自由度(degree of freedom)分别是d1和d2。 …

F分布及其应用

F分布是1924年英国统计学家R.A.Fisher提出,并以其姓氏的第一个字母命名的。它是一种非对称分布,有两个自由度,且位置不可互换。设X服从自由度为n1的卡方分布, Y服从自由度为n2的卡方分布,且X,Y独立,则称随机变量F=(X⁄n1 )/(Y⁄n2 )服从自由度为(n1,n2)的F分布,记为F~F…

TeamTalk各个服务的IP配置方案

本人微信公众号:CPP进阶之旅 如果觉得这篇文章对您有帮助,欢迎关注 “CPP进阶之旅” 学习更多技术干货 TeamTalk各个服务的IP配置方案 1.纯公司内网2.公网ip3.公网ip,路由器映射相关文章重要说明 TeamTalk源码中的IM_SERVER下共有8种服务器&a…

TeamTalk部署详细教程(最全最新TeamTalk部署教程助你一次部署成功)

本人微信公众号:CPP进阶之旅 如果觉得这篇文章对您有帮助,欢迎关注 “CPP进阶之旅” 学习更多技术干货 TeamTalk部署详细教程 背景1、更新操作系统2、删除已经安装的软件3、安装必要的依赖软件4、安装mysql4.1 下载4.2 解压编译4.3 添加mysql用户4.4 修改…

新版TeamTalk部署教程

原文转自蓝狐(bluefox)的博客:https://blog.csdn.net/simongyley/article/details/45535429。对文中部分问题做了修改。 0、简介 新版TeamTalk已经在2015年03月28日发布了,目前版本定为1.0.0版本,后续版本号会按照如下…

(TeamTalk服务端源码分析一)TeamTalk服务端部署

TeamTalk服务端部署 在分析TeamTalk的各个服务器代码之前,我们先搭建一套服务端环境,结合之前的客户端,看一下一个IM聊天工具的基本功能。 一、部署环境 系统:centos7 X64位 二,部署步骤 1, 安装git gcc …

windows 10 Docker Desktop TeamTalk 安装笔记

目录 1、运行docker centos:7 版本系统 1.1进入 docker系统 1.2更新系统 1.3安装依赖软件 2、安装MySQL 2.1下载解压mysql 2.2解压mysql 2.3 编译安装mysql 2.3创建mysql用户 2.4创建my.cnf配置 2.5初始化 2.6其他配置 2.7启动mysql 2.8修改密码 2.9完成mysq…

VS2013打包teamtalk

1 2. 如果是第一次打包的话,需要下载Installshield,按需下载,第二次打开就是我这样了 3. 4.修改图中箭头的地方,其他看你需求修改 5.因为teamtalk要用到.net4.5 6.重点!!! 首先点击addfolde…

teamtalk mysql.h_TeamTalk安装测试

TeamTalk介绍 项目框架 TeamTalk是蘑菇街的开源项目,github维护的最后时间是2015但是仍然是一款值得学习的好项目,麻雀虽小五脏俱全,本项目涉及到多个平台、多种语言,简单关系如下图 服务端: CppServer:TTC…

TeamTalk消息协议

数据通讯格式封装协议 Protocol Buffer 常用序列化方案比较 参考 https://www.cnblogs.com/johnny666888/p/12841735.html Protocol Buffer Protocol Buffer还有一个非常重要的优点就是可以保证同一消息报文新旧版本之间的兼容性 protobuf协议核心思想 基于128bits的数…

TeamTalk源码分析(1)

一、TeamTalk服务器端以下部署程序: db_proxy_server、file_server、http_msg_server、login_server、msfs、msg_server、push_server、router_server 各个服务程序的作用描述如下: LoginServer (C): 负载均衡服务器,分配一个负载小的MsgSe…

把TeamTalk(即时通讯项目)中的线程池连接池拆出来单独测试。

研究过Teamtalk的伙伴会发现它的线程池和连接池与很多文件有关联, 这篇文章主要写,把它的线程池连接池拆出来需要用到哪些文件。 其实我本来只想测试它的连接池的,但发现连接池里套的有线程池,于是就一起拆出来了。 整个工程的树…

teamtalk原理

再贴一遍架构图 从图中可以看出,对外使用的是http连接,内部使用的是tcp长连接。 类的命名规则:xxxServConn是模块连别的模块,xxxConn是别的模块连它。 协议设计 teamtalk采用protobuf进行序列化 typedef struct {uint32_t le…

TeamTalk源码分析(一)—— TeamTalk介绍

TeamTalk是蘑菇街开源的一款企业内部用的即时通讯软件(Enterprise IM),类似腾讯的RTX。网上也有很多的介绍,我这里也有写几遍关于这款产品的“流水账”,一方面对自己这段时间的阅读其代码做个总结,尽量做个…

teamtalk实现即时通讯

即时通讯技术应用非常广泛,涉及教育、电商、金融、泛娱乐、生活服务、医疗健康、政企服务、游戏聊天、在线客服等等行业,不是大家认为仅仅是qq、微信那样。 即时通讯架构 先给张图 客户端与服务器端进行网络通信、收发消息连接层为客户端收发消息提供…

通识哈夫曼树及其应用,一起来构造属于自己的哈夫曼树

1.哈夫曼树的背景 哈夫曼(霍夫曼、赫夫曼)David Albert Huffman(August9,1925-October7,1999)。计算机科学的先驱,以他的哈夫曼编码闻名,在他的一生中,对于有限状态自动机,开关电路,异步过程和信…

哈佛结构冯·诺依曼结构

哈佛结构是一种将程序指令存储和 数据存储分开的存储器结构。哈佛结构是 一种并行体系结构,它的主要特点是将程序和数据存储在不同的存储空间中,即程序存储器和数据存储器是两个独立的存储器,每个存储器独立编址、独立访问。 冯诺依曼结构也…

微型计算机之哈佛架构是什么?

“哈佛体系结构”指的是什么? 微型计算机处理命令和数据,但是在很久以前的微型计算机中,用命令和数据共享了一条总线。在这种情况下,CPU在读取指令时使用总线,因此无法访问数据,并且在读取指令结束后访问数…