神奇的贝叶斯公式

article/2025/9/24 10:21:10

引言

贝叶斯法则以托马斯.贝叶斯命名,他研究如何计算二项分布的概率参数的分布。贝叶斯法则被世界广泛认识,得益于Richard Price的推广和宣传。Price编辑了贝叶斯的主要著作《An Essay towards solving a Problem in the Doctrine of Chances》,在1763年贝叶斯去世2年后发表在Philosophical Transactions of the Royal Society of London。贝叶斯法则在概率论中的地位比肩勾股定理在几何学中的地位,现在成为统计推断中的重要方法,也是许多机器学习算法的核心。

推导

贝叶斯定理可以通过条件概率推导。图中A和B是两个事件,条件概率指某个事件发生后另外一个事件发生的概率。用数学符号表示,P(A|B)指事件B发生的条件下,事件A发生的概率。反之,P(B|A)指事件A发生的条件下,事件B发生的概率。下图黄色区域是A和B两个事件同时为真的概率,它既等于事件A发生的概率乘以事件A发生后事件B发生的条件概率,也等于它既等于事件B发生的概率乘以事件B发生后事件A发生的条件概率。

P(A)*P(B|A) = P(B)*P(A|B)

由上可以推导出:

P(A|B) = P(A)*P(B|A)/P(B)

这个计算事件B发生后事件A发生概率的公式就是大名鼎鼎的贝叶斯公式。

一个关于硬币的例子

概率论喜欢拿硬币来举例子,这里我们也举个硬币例子,主要是借用naturemethods上发表的一个直观的图示。我们有两个“公平”的硬币,掷硬币之后正面的概率都是50%,即P(H) = 50%。在这种情况下,选择特定硬币C和特定结果正面H的联合概率是它们各自概率的积,P(C,H) = P(C)*P(H)。倘若我们把其中一个硬币换成一个有偏向的硬币,这个硬币75%的抛掷结果是正面,这个时候硬币选择和正反面就不是独立事件。两个事件之间的关系可用上面提到的条件概率来表示,P(H|Cb) = 75%。

接下来,如果我们抛掷的结果是正面的,我们如何得知所选硬币是有偏向性的概率大小呢?用数学符号表示,我们想要知道P(Cb|H)的大小。根据贝叶斯公式:

P(Cb|H) = P(H|Cb)*P(Cb)/P(H)

P(Cb)是在抛掷硬币前我们对于硬币是有偏向的概率的“猜测”,即先验概率。而P(Cb|H)是硬币抛掷结果出来后,我们对于硬币是有偏向性的概率的重新“猜测”,即后验概率P(H|Cb)等于0.75, P(Cb)等于0.5;而P(H)等于P(H|C)*P(C) + P(H|Cb)*P(Cb),等于0.625。根据贝叶斯公式,我们可知,P(Cb|H)等于0.6。由上,我们通过一次硬币抛掷结果,由先验概率获得后验概率。倘若硬币抛掷继续进行,我们有越来越多的“数据”,下一次抛掷结果还是正面(有人认定那个有偏向的硬币,出老千哦),我们可以用第一次获得的后验概率对原先假设的先验概率进行更新,然后从新利用贝叶斯公式计算新的后验概率。

一个关于疾病的例子

假设一种疾病有三种亚型,(X,Y,Z),它们的占比为0.6,0.3,0.1。X是最常见的,而Z是最罕见的。现在有一个诊断试剂盒,可以通过检测生物标记物A和B来进行疾病分型,在不同亚型中A和B能被检测到的概率已知。通过贝叶斯公式,P(X|A) = P(A|X)*P(X)/P(A),亚型X发生概率是已知的0.6,亚型X中标记物A阳性概率P(A|X)已知为0.2,这个时候只需要知道标记物A在这种疾病中被检测为阳性的概率,即各种亚型概率乘以各种亚型下标记物A为阳性的条件概率,最后求和。P(A) = 0.6 * 0.2 + 0.3 * 0.9 + 0.1 * 0.2 = 0.41。由贝叶斯公式计算得到,A标志物检测阳性亚型X概率为0.29,Y概率为0.66,Z概率为0.05。而B标志物检测阳性亚型X概率为0.44,Y概率为0.22,Z概率为0.33。尽管B标志物在亚型Z中检测到大概率达0.9,但由于亚型Z较为罕见,因而即便B标志物阳性了,这个时候概率最大的亚型还是亚型X。

最后,上图c的展示很直观,我们对于特定亚型,一开始有一个先验的认识(蓝色点),随着我们收集越来越多的证据(标记物A,B表达),我们可以通过贝叶斯公式不断更新我们的认识(后验概率)。这个过程在一定程度上类似临床医生对于疾病的诊断与鉴别诊断,通过病人的主诉已经临床表现,医生对于病人所患疾病有一个初步判断,随着越来越多检查结果出来,医生也在不断更新自己最初的判断。只不过医生借助的是人脑,不是电脑。

突变检测

基因组数据分析的一个重要方面是发现样本中的突变,在生信分析中,这个任务叫“mutationcall”。在实现上面,贝叶斯法则提供了非常好的解决方案。在这个任务中,我们拥有的“数据”是测序得到的序列,我们想要推断的是各个位点的基因型。常用分析工具GATK流程通过贝叶斯公式计算各种可能基因型的似然性,确定该位点最可能的基因型。

P(G|D)=P(G)P(D|G)/∑iP(Gi)P(D|Gi)

P(G|D)是在观测数据下特定基因型出现的条件概率,而分母是通过全概率公式计算出来的P(D),对于所有的基因型都一样。不同基因型的区别主要在分子,P(G)是不同基因型的先验概率,而P(D|G)是特定基因型下得到观测序列(数据)的条件概率。

细胞网络搭建

现在单细胞技术非常流行,研究人员可以收集到单细胞水平的基因组、转录组、表观组和蛋白组数据。而早在十几年前,当主流的单细胞技术还是流式细胞术,多参数流式检测极限也就十来个靶点的时候,计算生物学家们就在尝试利用贝叶斯推断来构建细胞网络。如果能够将这种研究思路拓展到不同的细胞亚群、组织、器官甚至模式生物整体,贝叶斯推断在多层次建模中必然大有可为。

小结

法兰西学院实验心理学教授Stanislas Dehaene时常挂在嘴边的一句话是,“我们每个人大脑里都有一个小Thomas Bayes”。Dehaene经常告诉学生们,“贝叶斯公式虽然是数学,但它是关于思考的数学。”。贝叶斯公式的神奇之处在于它似乎无所不能,在癌症研究中基于贝叶斯法则的算法被用于单细胞转录组差异表达基因分析、细胞聚类、药物敏感性预测和癌症驱动基因的判定。而在癌症研究之外,贝叶斯的幽灵几乎无处不在。

一个小测试

如果你看到这里,而且你刚好还有点时间,可以试着用贝叶斯公式解一下这个问题:

有个疾病发病率为1%,某个诊断测试号称准确率达到99%可以诊断这个疾病:患者有99%的机会被这个诊断测试发现;正常人还是存在1%的阳性率(假阳性率)。问题来了,如果小明测试阳性,那么小明真正有病的概率是多大?

参考文献

1. Bayes, T., Price, R. An Essay towards solving a Problem in the Doctrine of Chance. By the late Rev. Mr. Bayes, communicated by Mr. Price, in a letter to John Canton, A.M.F.R.S. Philosophical Transactions of the Royal Society of London, 1963. 53(0):370-418.

2. Jansen, R., et al. A Bayesian networks approach for predicting protein-protein interactions from genomic data. Science, 2003. 302(5644):449-453.

3. Akavia, U.D., et al. An integrated approach to uncover drivers of cancer. Cell, 2010. 143(6):1005-1017.

4. Li, H. A statistical framework for SNP calling, mutation discovery, association mapping and population genetical parameter estimation from sequencing data. Bioinformatics, 2011. 27(21):2987-2993.

5. Costello, J.C., et al. A community effort to assess and improve drug sensitivity prediction algorithms. Nat Biotechnol, 2014. 32(12):1202-1212.

6. Kharchenko, P.V., Silberstein, L., Scadden, D.T. Bayesian approach to single-cell differential expression analysis. Nat Methods, 2014. 11(7):740-742.

7. Roth, A., et al. PyClone: statistical inference of clonal population structure in cancer. Nat Methods, 2014. 11(4):396-398.

8. Ghahramani, Z. Probabilistic machine learning and artificial intelligence. Nature, 2015. 521(7553):452-459.

9. Puga, J.L., Krzywinski, M., Altman, N. Bayes’ theorem. Nature Methods, 2015. 12(4):277-278.

10. Puga, J.L., Krzywinski, M., Altman, N. Points of Significance. Bayesian networks. Nat Methods, 2015. 12(9):799-800.

11. Azizi, E., et al. Single-Cell Map of Diverse Immune Phenotypes in the Breast Tumor Microenvironment. Cell, 2018. 174(5):1293-1308 e1236.

12. Eling, N., et al. Correcting the Mean-Variance Dependency for Differential Variability Testing Using Single-Cell RNA Sequencing Data. Cell Syst, 2018. 7(3):284-294 e212.


http://chatgpt.dhexx.cn/article/IHLUk7ff.shtml

相关文章

贝叶斯公式

1、贝叶斯要解决的问题 贝叶斯公式就是已知先验概率,估计后验概率。 2、贝叶斯公式 条件概率公式: 全概率公式: 贝叶斯公式: 其中:p(w):为先验概率,表示每种类别分布的概率;&#…

教你如何理解贝叶斯公式

贝叶斯公式 定理贝叶斯的英文概率论中的一个定理,跟它随机变量的条件概率以及边缘概率分布有关。 下面是贝叶斯的公式: 其中P(A | B)。是指在事件乙发生的情况下事件甲发生的概率其中甲代表的是所属的类别(Y&#xf…

贝叶斯公式与全概率公式的理解。

1.贝叶斯与全概率公式解释 1.全概率公式定义 即若在某个场景下,可找到一个完备事件组 Ai ( i 1,2,3…n)。 则对任一与该场景有关的事件 B,都可以分割成无数个小事件(由不同因素引起的事件) 有:   B B ∩ A1 ∪ A2…

条件概率、贝叶斯公式理解

1、条件概率 条件概率是指事件A在事件B发生的条件下发生的概率,记作:P(A|B)。如下图所示:整个样本空间为Ω,事件A和事件B包含在Ω中。事件A和事件B同时发生的情况,即A、B交集记作AB。事件A的概率记作&…

简单理解贝叶斯公式

贝叶斯公式:给定一组所关心事件的先验概率,如果你收到新的信息,那么更新你对于事件发生概率的法则为: 某城市发生了一起汽车撞人逃跑事件,该城市只有两种颜色的车,蓝色15%,绿色85%,事…

[work*] 贝叶斯公式的通俗解释

本文节选自《人类最美的54个公式》 转自量子位 我思故我在 引 我思故我在 AI背后的神秘公式 近代哲学奠基人,伟大的笛卡尔说出“我思故我在”时,上帝震惊了。 第一个被赋予公民身份的机器人Sophia(索菲娅)被问到:你…

贝叶斯公式详解

概率论只不过是把常识用数学公式表达了出来。 ——拉普拉斯 记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计…

通俗易懂讲解贝叶斯

0. 前言 这是一篇关于贝叶斯方法的科普文,我会尽量少用公式,多用平白的语言叙述,多举实际例子。更严格的公式和计算我会在相应的地方注明参考资料。贝叶斯方法被证明是非常 general 且强大的推理框架,文中你会看到很多有趣的应用…

贝叶斯公式的理解

作者:知乎用户 链接:https://www.zhihu.com/question/21134457/answer/169523403 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 最近我自己在学习一些关于机器学习的东西,目前学到…

贝叶斯定理的通俗理解

朴素贝叶斯是一种基于贝叶斯定理的简单概率分类器(分类又被称为监督式学习,所谓监督式学习即从已知样本数据中的特征信息去推测可能出现的输出以完成分类,反之聚类问题被称为非监督式学习),朴素贝叶斯在处理文本数据时…

贝叶斯通俗易懂推导

简介 贝叶斯定理是18世纪英国数学家托马斯贝叶斯(Thomas Bayes)提出得重要概率论理论。以下摘一段 wikipedia 上的简介: 所谓的贝叶斯定理源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发…

贝叶斯公式的通俗理解

概述 贝叶斯分析是整个机器学习的基础框架 中学课本里说概率这个东西表述是一件事情发生的频率, 或者说这叫做客观概率。 贝叶斯框架下的概率理论确从另一个角度给我们展开了答案, 它认为概率是我们个人的一个主观概念, 表明我们对某个事物发…

贝叶斯公式的最通俗解释

本质上,贝叶斯公式描述了在给定新信息的情况下如何更新我们的模型。 为了理解原因,我们将看一个简单的例子:用不公平的硬币抛硬币。 假设我们有一个神奇的硬币! 抛掷时可能出现正面或反面,但概率不一定相等。 问题是&…

贝叶斯公式:通俗的理解

如上文提到的贝叶斯公式,《朴素贝叶斯分类: 使用案例》,可以使用它来做文本分类: 【已知:样本中每个分类下的单词概率ceilPencent, 样本的分类占比(也即概率分布)bodyPencent】 来了一篇文章&am…

用通俗的语言解释贝叶斯公式

传统的机器学习离不开贝叶斯,网上讲的都不够通俗。我就来用白话阐释一下。 先上公式: ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ 这个公式讲了一个什么故事呢? 指的是,当新的…

关于贝叶斯公式的解释,通俗易懂(转载)

from: ttps://baijiahao.baidu.com/s?id1578164183121521878&wfrspider&forpc 首先,对于贝叶斯定理,还是要先了解各个概率所对应的事件。 P(A|B) 是在 B 发生的情况下 A 发生的概率; P(A) 是 A 发生的概率; P(B|A) 是…

通俗理解贝叶斯公式

前几天文工团一道考试题火了。 三个相同的盒子里各有2个球,其中一个盒子里放了2个红球,一个盒子里放了2个蓝球,一个盒子里放了红球和蓝球各一个。随即选择一个后,从中随机摸出一球是红球,则这个盒子里另一个球是红球的…

从贝叶斯定理说开去

从贝叶斯定理说开去 罗朝辉 (http://kesalin.github.io/) CC 许可,转载请署名并保留出处 简介 贝叶斯定理是18世纪英国数学家托马斯贝叶斯(Thomas Bayes)提出得重要概率论理论。以下摘一段 wikipedia 上的简介: 所谓的贝叶斯定理源于他生前为解决一个“逆概”问题写的一篇…

小白之通俗易懂的贝叶斯定理

小白之通俗易懂的贝叶斯定理 贝叶斯定理的产生以及意义什么是贝叶斯定理?贝叶斯定理的应用案例贝叶斯定理套路生活中的贝叶斯思维 转载自:https://mp.weixin.qq.com/s/lR3eeSWYHJDAJ9kJUzXc7w 贝叶斯定理的产生以及意义 1、贝叶斯定理的产生来源 英国…

通俗地理解贝叶斯公式(定理)

通俗地理解贝叶斯公式(定理) 朴素贝叶斯(Naive Bayesian algorithm)是有监督学习的一种分类算法,它基于“贝叶斯定理”实现,该原理的提出人是英国著名数学家托马斯贝叶斯。贝叶斯定理是基于概率论和统计学…