统计学原理-----概率分布

article/2025/9/8 19:19:10

0.大纲:

1.什么是概率分布?

概率分布就是随机变量与对应概率关系的函数。换句话说,概率分布就是随机变量和概率的映射,所有的事件都会对应一个概率。某个随机变量的所有概率形成的概率-事件分布就是该随机变量的概率分布,会用一个函数来表达概率分布。显然,包含了所有事件的话,分布的概率之和(连续随机变量则时概率密度函数的积分)肯定就等于1。

当随机变量为离散变量时,这个函数叫做概率质量函数,当随机变量连续时,对应的函数称为概率密度函数。在概率统计学的中有一个计算概率密度函数的方法——核密度估计(KDE)、这是一种非参数估计分布密度函数的方法,仅通过对数据本身的特征来计算概率密度函数,不依赖任何数据分布的先验知识,这弥补了下面介绍的参数估计方法的劣势——样本分布和实际的分布可能存在巨大差异,无法通过观察或者理论推导出实际的分布。

非参数估计对应的就是参数估计,具体的操作是,先观察样本的分布情况/根据样本来源假定数据服从特定的形态,然后通过数据估计该形态下的总体参数。一般数据形态有:线性、可线性化、指数。

2.概率分布的分类简介

2.1 关于两种随机变量类型:

  • 离散型概率分布:随机变量为离散型的概率分布,即概率和事件的数量都是有限的。例如最基础的抛一次硬币的结果和对应概率形成的分布——伯努利分布(0-1分布)。另外还有:n重伯努利试验对应的二项分布、二项分布的极限分布(n→∞和p→0)泊松分布、二项分布“不放回抽样”版超几何分布、二项分布“第一次成功”版几何分布、“几何分布的推广版”负二项分布
  • 连续型概率分布:随机变量为连续型的概率分布,即概率和事件的数量都是无限的。例如均匀分布、正态分布、指数分布、学生t分布、正态平方卡方分布、卡方比例F分布等。

下面逐一介绍下以上提及的分布:

  1. 伯努利分布:结果只有两种可能的单次试验对应的概率分布,例如抛一枚硬币试验。

分布图:

概率质量函数:

2. 二项分布:重复多次独立的同概率伯努利试验的试验对应概率分布, 例如抛多次硬币、多次试验之间互相不影响、用的同一枚硬币和相同的抛投方式,保证概率概率相同。而伯努利试验就确保了结果只有两种可能。总结为四个词就是(独立、重复、同概率、结果二元

分布图:

概率质量函数:

 

3. 泊松分布:当需要估计某个时间段内发生次数的概率时,可以考虑。关注的不是二项分布的试验进行的次数n和发生的概率,而是两者的乘积 均值 λ = np。

概率质量函数:

泊松分布和二项分布:待续。

4. 超几何分布:和二项分布一样关注的是“成功次数”,不同的是超几何分布对应的抽样形式是不放回抽样,即每次抽样不独立、概率会随着抽样进行而改变。当总数N和抽样数n差距很大的时候,就不会对概率产生多大的影响,可以近似地看作是二项分布。

概率质量函数:

5. 几何分布:和二项分布一样是结果二元的试验,不同的是,几何分布关注点在于第一次成功,即几何分布是关于抽样时第一次成功事件的概率。

分布图:空

概率质量函数:

6.均匀分布:任意相同间隔内的分布概率是相等的,即概率分布为一条平行X轴的直线,高度取决于分布的总长度。

7. 负二项分布:是几何分布的简单推广,关注点在成功r次前的失败次数(或者是失败r次前的成功次数,看你如何定义成功),所以会比几何分布多个参数r。

分布图:

概率密度函数:

 

负二项的由来:

 

8. β二项分布待续,还没弄明白。

9. 正态分布:又称常态分布,是应用得最广泛的一种对称分布,关注的是均值和标准差。例如身高、员工薪水分布、智商等等。

分布图:

 

率密度函数:

10. 指数分布:几何分布中当时间切片趋于无穷小的时候就得到了指数分布,和几何分布关注的是大颗粒的次、秒等单位不同,指数分布精确地描述了第一次成功前的时间分布(因为切片无穷小,成功的那一刻可以忽略不计)。类似泊松分布,指数分布由参数发生率λ决定。

分布图:图中的mu = μ = λ

指数分布

概率密度函数:

11. 对数正态分布:是指一个随机变量的对数服从正态分布,则该随机变量服从对数正态分布。对数正态分布从短期来看,与正态分布非常接近。但长期来看,对数正态分布向上分布的数值更多一些???

分布图:

概率密度函数:

12. 帕累托分布:是从大量真实世界的现象中发现的幂次定律分布,帕累托因对意大利20%的人口拥有80%的财产的观察而著名。(二八法则

分布图:

概率密度函数:

概率分布:

13. 学生t分布:当样本量较小时,正态总体的抽样服从t分布。

分布图:

概率密度函数:其中,Gam(x)为伽马函数

14. 正态平方卡方分布:服从正态分布的变量的平方服从卡方分布。

分布图:

 

概率密度函数:其中x≥0, 当x≤0时fk(x) = 0。这里Γ代表Gamma 函数。

15. 卡方比例F分布:两个服从卡方分布的变量比例服从F分布。

分布图:

 

概率密度函数:

第2.1小节是按照随机变量类型进行划分,所以所有的分布都可以归纳进行,所以会稍微详细一点点介绍,下面进行其它方式分类的时候就只进行简述和对应分类下的共同特点或者关联。

2.2 关于伯努利试验

  1. 伯努利分布:单次伯努利试验对于的分布,结果只有两种可能。
  2. 二项分布:n重伯努利试验对应的分布,结果二元、独立重复进行、概率固定,关注的是“成功“次数的概率分布。
  3. 几何分布:和二项分布类似n重伯努利试验,关注的是第一次成功失败次数的概率分布。
  4. 负二项分布:是几何分布的推广,关注的是成功r次前失败次数的概率分布。
  5. 超几何分布:是不放回抽样版的n重伯努利试验,关注点和二项分布一样——“成功”次数的概率分布。
  6. β二项分布:它与一般二项式分布的不同之处,在于它虽然也是表示一系列已知次数的伯努利实验的成功概率,但其中的伯努利实验的常数变成了一个随机变量。——维基百科-β-二项式分布我还没搞明白,待续。

2.3 关于泊松过程中的事件(给定速率独立发生的事件)

  1. 泊松分布:用于给定时间段内泊松型事件的发生次数(给定速率、独立发生、发生次数)
  2. 指数分布:在下一个泊松类型事件发生之前的时间对应分概率分布(给定速率、独立发生、时间间隔)
  3. Gamma分布:在下一个k泊松类型事件发生之前的时间(多个泊松过程事件(k)、时间间隔)

文章伽马分布,指数分布,泊松分布的关系,讲解得很简洁明了。

2.4 关于贝叶斯推理的共轭先验分布

2.5 关于假设检验的抽样分布

2.5.1中心极限定理和抽样分布

  1. 经典(狭义)中心极限定理是什么?
    简单不负责版本: 大样本的情况下抽样的均值服从正态分布。
    复杂专业地版本: 独立同分布(从同一个总体)抽样的均值服从正态分布。
    PS: 均值可以是x均值、样本比例p均值。
  2. 这个定理有啥用?
    第一,区间估计。既然我们知道了样本均值的分布,就可以通过反向操作推断样本均值出现在某个区间的概率。

转换成标准正态分布(未知总体标准差,用样本标准差估计)

构建置信区间(根据置信水平,需求的概率)

推导出总体参数区间估计

第二,假设检验,因为已知样本均值分布,可以计算出样本均值对应的统计检验量,可以计算样本均值出现的概率,从而推翻/保留原假设,如假设总体均值μ<5,实际计算出来的均值对应的Z值处于拒绝域内(依据概率需求(置信度)确定),表明小概率事件发生,可以拒绝之前的假设。

2.5.2 三大抽样分布和统计推断

  • 正态小样本t分布:当正态变量,抽样样本量较小时(小于30),则抽样均值近似服从t分布,和Z分布同理查表即可。
  • 正态平方和卡方分布:当样变量是由服从正态分布的变量通过求平方和得到时,服从卡方分布。例如方差是由样本值和样本均值的差的平方再除以n-1得到的,即统计推断要使用卡方统计量。
  • 卡方比例F分布:当变量由服从卡方分布的变量相除得到,那么该变量服从F分布,例如两个总体的方差之比,检验它们方差是否相等时可用F统计量。

 

2.6 关于正太分布的特征抽象

  1. 线性增长的实值(“多劳多得”的事件)
    因为是线性增长,即可以用线性回归模型拟合实际的Y值特定的X值上四符合正态分布的(因为误差必须符合正态分布)。例如,如果钻石的价格和重量、形状、颜色、净度和荧光有线性关系,那么钻石的价格,在特定的重量、形状、颜色、净度和荧光上一定是呈现正态分布的(即意味着误差符合正态分布、如果误差不符合正态分布,就意味着还有未被考虑的因素)。再例如司机有效的运营时间(非空跑)有线性关系(假设完全较好拟合),那么在特定的出租车运营公司里处于某个有效运营时间的出租车司机的收入一定是服从正态分布的,因为司机的实际收入=特定有效时间对应的收入+误差值,不然此时模型中的误差就不服从正态分布的。
  2. 多个独立随机事件相加的事件
    根据”广义中心极限定理“如果一个事件的结果是由多个独立的变量“相加”的结果,而且这些独立的随机变量的方差是非零且有限的(非零且不会无穷大),那么这个事件会随着变量数量的增加会趋近正态分布。
    简化的理解,一个事件是由多个(大于20个)独立随机变量相加的结果,且这些变量的方差是非零且有限的,那么这个事件就可以近似认为服从正态分布。
例如身高,生物学家认为人的身高是由至少180多个基因共同决定的,有的决定你的小腿有多长,有的决定你的脖子有多长——而你的身高,是所有这些因素相加之和。作为一个很好的近似,决定身高的各个基因是比较相互独立的。所以身高满足正态分布。
——《三种分布模型》 万维钢精英日课第三季

2.7 关于指数增长的正实数

  1. 指数增长的正实数
  • 对数正态分布:对于单个这样的随机变量,服从此分布。例如个人财富的分布,当下的个人财富对未来的财富几乎都是”相乘“的关系,不管是存银行、投资理财都是再本金的基础上按照一定的比例变化。所以个人财富的分布是服从对数正态分布的

对数正态分布

  • 帕累托分布:对于这样的量的数量,服从帕累托分布,属于幂律分布。例如个人财富量的分布,将 数量(Y)-财富量(X)绘制分布图,可以形成 一个类似下图所示的幂律分布图,绝大多数的人会处于财富的低到中部,极少数的人会占据绝大部分的财富。

第2节,是按照各种共同的特征/应用去分类整理介绍,从基础的按照随机变量类型到两类特殊的事件:伯努利试验和泊松过程中的事件;再到两类特殊的应用:1)贝叶斯推理 2)假设检验;最后是正态的分布的抽象特征是多个方差非零且有限的独立随机变量相加、以及指数增长的正实数相关单个量对应的对数正态分布,指数增长正实数的数量(例如财富的数量)服从的幂律分布。

3.分布属性的延申(时间关系,简单罗列,待续)

众数、中位数、均值;头部、尾部;方差、标准差;偏度、峰度。

  1. 众数、中位数、均值:其中中位数可以用来区分前后百分之50得数据,众数可以确认集中得位置。在正态分布中,三者相同。
  2. 尾部、峰度:重尾分布:
    尖峰厚尾:金融数据为何如此?
    长尾分布:如何从长尾中获益?
    平峰优化:如何提高平峰时期的交通通行效率?
  3. 头部:头部效应:强者越强是否和能从长尾效应矛盾?
  4. 偏度:硬性分布法(强制正态分布法)

第3节,是通过遍历分布对于的属性来整合汇总概率分布对于的应用。还未进行详细描述,待续。

4.概率分布的主要应用(时间关系,简单罗列,待续)

  1. 伪随机数生成:计算机生成的随机数为什么不靠谱?蒙特卡洛模拟是啥?
  2. 极大似然估计:数据量少如何尽量准确地估计总体参数?
  3. 贝叶斯推断:数据量少如何尽量准确地估计总体参数?

第4节,是补充分布基本属性为设计的应用。还未进行详细描述,待续。


http://chatgpt.dhexx.cn/article/jveS4JsQ.shtml

相关文章

晓之以理,不如动之以情——新书《以大致胜》解读(上篇)

《以大致胜&#xff1a;怎样在这个事实根本不重要的世界里使用说服力》&#xff08; Win Bigly: Persuasion in a World Where Facts Dont Matter &#xff09;这本书&#xff0c;是我很敬佩的一位作家斯科特亚当斯&#xff08;Scott Adams&#xff09;于今年10月31号刚刚出版的…

如何高效学习?现在有答案了。。。

先说答案&#xff1a;15.87% 15.87% 是什么意思&#xff1f;我来慢慢解释&#xff0c;先来看下面的一幅图&#xff1a; 绿色代表舒适区 紫色代表学习区 红色代表痛苦区 如果一项任务对你来说太简单了&#xff0c;很轻松就能搞定&#xff0c;那么你会觉得无聊&#xff0c;如果…

博弈论,你知多少

“无意中发现了一个巨牛的人工智能教程&#xff0c;忍不住分享一下给大家。教程不仅是零基础&#xff0c;通俗易懂&#xff0c;而且非常风趣幽默&#xff0c;像看小说一样&#xff01;觉得太牛了&#xff0c;所以分享给大家。点这里可以跳转到教程。” 在《从“名将之路”到“写…

如何成为一名专家?

这是傅一平的第345篇原创 【与数据同行】已开通综合、数据仓库、数据分析、产品经理、数据治理及机器学习六大专业群&#xff0c;加微信号frank61822702 为好友后入群。新开招聘交流群&#xff0c;请关注【与数据同行】公众号&#xff0c;后台回复“招聘”后获得入群方法。 正文…

排序不等式

文章来源&#xff1a;“万维钢精英日课4——排序不等式” “排序不等式”描述了无限制系统的“效率”和“公平”的本质关系。给我在如何分配资源上带来了很好的启发&#xff0c;这里记录一下大概内容&#xff0c;方便自已临时翻阅。 1.什么是排序不等式&#xff1f; 大数乘大…

《指导生活的算法》

关于本书和作者 本书的作者有两位&#xff0c;一位是布莱恩克里斯汀&#xff0c;他是美国布朗大学计算机学及哲学双学士&#xff0c;还是2009年人工智能洛伯纳大奖的得主&#xff0c;是一位文科特别好的理工男。另一位是汤姆格里菲斯&#xff0c;他是加州大学心理和认知科学教…

为什么大部分人做不了架构师?这2点是关键

阿里妹导读&#xff1a;选择有时候比努力重要&#xff0c;真正厉害的人不仅仅是埋头苦干&#xff0c;而是会利用好的思维方式、好的方法&#xff0c;看穿事物的本质&#xff0c;顺势而为&#xff0c;找到事情的最优解&#xff0c;并懂得举一反三。架构师是程序员的目标之一&…

豆瓣最高评分8.1!万维钢:读懂这本书,你会比身边人更深的理解这个时代

▲ 数据汪特别推荐 点击上图进入玩酷屋 小木用真金白银来给大家送礼物啦&#xff0c;特别感谢这些年一直以来大家对我们的支持&#xff0c;才让我们越做越好。&#xff08;点我参与送礼活动&#xff09; 这几年全球各大科技巨头纷纷进入人工智能领域&#xff0c;催生了一大批技…

万维钢解读,从数学上解释为什么绝大多数投资者都会输给市场?最可能值,远远小于平均值...

万维钢解读&#xff0c;从数学上解释为什么绝大多数投资者都会输给市场&#xff1f;最可能值&#xff0c;远远小于平均值。 咱们来思考一个数学问题。这个数学问题有助于我们理解一个看似有点反常识的道理&#xff0c;那就是为什么绝大多数投资者都会输给市场? 如果你去考察华…

你有你的计划,世界另有计划这本书 万维钢

你有你的计划而世界另有计划 首先推荐万维钢著作&#xff0c;免费领取&#xff1a;《《高手》万维钢 电子书》。 今天有个好消息&#xff0c;我的新书《你有你的计划&#xff0c;世界另有计划》马上就要开始独家首发了。今天就把这本书的序言更新到这里&#xff0c;题目叫《欢…

买知识,也别冲动消费

前方有坑&#xff0c;告诉你一声 付费 知识变得值钱了。 其实知识本来就值钱。咨询专家给普通人的印象就是西装革履、坐头等舱、住五星酒店。他们卖的是什么&#xff1f;知识。 可是网上浩如烟海的文章&#xff0c;不都可以免费读吗&#xff1f;多年来&#xff0c;我们已习惯了…

又订阅了万维刚的精英日课

订阅他的栏目是因为以前看过他写的《 万万没想到》这本书&#xff0c;他看的书相当多&#xff0c;有大量的英文书&#xff0c;所以他的栏目肯定能够让人每天进步一点点。 把他几天课的主要笔记整理一下&#xff1a; 马斯洛的需求层次理论 通常都说是五层&#xff1a;&#xff1…

精确休息法——《万维钢.精英日课3》笔记

如果发现自己午睡后效果不好&#xff0c;那就需要对休息进行精确控制&#xff1a; 1&#xff0c;先喝杯咖啡&#xff0c;咖啡因含量200mg 2&#xff0c;手机设定25分钟定时 3&#xff0c;开始睡&#xff1b; 4&#xff0c;25分钟一到马上起来。 原理&#xff1a; 1&#x…

B树与B+树的区别!!

B树结构如图&#xff1a; B数的结构如图 根据图可以知道&#xff1a; 1.在B树中叶子节点和非叶子节点上都存储了数据&#xff0c;而B树只是在叶子节点上面存储了数据&#xff0c;并且叶子节点之间是使用双向链表连接起来的&#xff0c;适合范围查询。 2.B树和B树都是在二叉树…

B树、B+树

B树与B树的区别在于&#xff1a; 1&#xff09;在B树中&#xff0c;具有n个关键字的节点只含有n棵子树&#xff0c;即每个关键字对应一颗子树&#xff1b;而在B树中&#xff0c;具有n个关键字的节点有n1棵子树 2&#xff09;B树&#xff1a;每个节点&#xff08;非根节点&…

红黑树、b+树、b树、mysql索引详细剖析

文章目录 树基础知识回顾红黑树b树、b树为什么不能使用二叉树来存储数据库索引B/B树的索引数量 索引什么是聚簇&#xff08;集&#xff09;索引&#xff1f;mysql聚簇和非聚簇索引的区别b树和哈希索引二级索引二级索引存储主键值而不是存储行指针的优点与缺点 树基础知识回顾 …

B树

B树的定义 flyfish 2015-7-15 B-树即为B树。因为B树的原英文名称为B-tree&#xff0c;因为翻译的不统一所以B树和B-树都是B-tree。 B树定义 引用自严蔚敏《数据结构》&#xff08;C语言版&#xff09; B树是一种平衡的多路查找树 定义&#xff1a;一棵m 阶的B树&#xff0…

B树详解

B树 B树&#xff0c;一般都被叫做B-树。 定义 B树中的每个节点的元素和子树数量是有限的&#xff0c;除了根节点外&#xff0c;所有节点最多拥有M-1个元素&#xff0c;所有非叶子非根节点最多拥有M个子树,即为M阶树。根节点至少拥有两个子树&#xff0c;除了根节点之后的非叶…

MySQL索引底层实现原理(B树和B+树)

文章目录 一、B-树索引1. 理论部分2. B树黄色的data表示key索引所在的这一行的数据&#xff0c;data存储的是数据本身内容&#xff0c;还是数据在磁盘上的地址&#xff1f;关于操作系统从磁盘读取索引文件到内存中的几个问题B树的缺点 三、B树B树特点MySQL最终为什么要采用B树存…

B树概念和插入实现

目录 前言 一.B树概念 1.1 概念和性质 1.2 分裂 二.插入的实现 三.性能分析 四.B树的删除 五.B树的优化B树和B*树 5.1 B树 5.2 B*树 六.B树的应用 6.1 MyISAM中的索引 6.2 Innodb引擎 前言 之前我们学了有很多数据结构&#xff0c;比如顺序表&#xff0c;链表&#xff0c;…