一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇

article/2025/7/20 1:17:16
  • 本文历次修订后全长 2万8000余字,受到 CSDN 博文字数限制,故切分两篇发布,所以现在是两文看懂了… 前篇介绍参数估计背景和极大似然估计;本篇介绍最大后验估计和两种方法对比
  • 请务必先看前文:一文看懂 “极大似然估计” 与 “最大后验估计” —— 极大似然估计篇

文章目录

4. 最大后验估计(MAP)

  • 考虑这个问题:贾跃亭老板下周回国的概率为多少?如果从频率派的角度看,因为贾老板跑路后从未回国,只要他不回来,概率就始终为0;但事实上贾老板下周回国的概率可能只是很小而非零,若哪天他的造车计划大获成功或者乐视网情况转好,其回国的可能性还会大大提升,这就比较符合贝叶斯学派的观点。 频率派的一个问题,就是在小的的观测数据集下,最大化似然函数值的方法容易与观测数据过度拟合
  • 记贾老板下周回国为事件 Θ \Theta Θ,现在我们认为这是一个小概率事件,概率为小量 p ( Θ ) p(\Theta) p(Θ),可以看作一种先验知识。随着时间的推移,发生了事件 X X X,比如法拉第新车开始量产,或者法拉第资金链断裂,这时贾老板回国的可能性就会变化,对 Θ \Theta Θ 的估计也应当有相应调整,变成后验概率 p ( Θ ∣ X ) p(\Theta|X) p(ΘX)
  • 最大后验估计寻求使后验概率最大的参数值,相比最大似然估计,这种方法融入了要估计量的先验分布。先验概率包含了人们根据以往经验对事件的一些初步认识,当某些事件 X X X 发生后,会影响人们原来的认识,贝叶斯公式可以对事件先验概率进行修正,得到事件的后验概率
  • 最大后验估计的示意图如下
    在这里插入图片描述

4.1 后验概率密度

  • 利用贝叶斯公式,可以得到先验概率 p ( θ ) p(\theta) p(θ) 和 后验概率 p ( θ ∣ x ) p(\theta|x) p(θx) 之间的关系如下
    p ( θ ∣ x ) = p ( θ , x ) p ( x ) = p ( θ ) p ( x ∣ θ ) p ( x ) p(\theta|x) = \frac{p(\theta,x)}{p(x)} = \frac{p(\theta)p(x|\theta)}{p(x)} p(θx)=p(x)p(θ,x)=p(x)p(θ)p(xθ) 这个公式提供了利用先验概率 p ( θ ) p(\theta) p(θ) 和条件概率函数值 p ( x ∣ θ ) p(x|\theta) p(xθ) 来计算后验概率 p ( θ ∣ x ) p(\theta|x) p(θx) 的方法
  • 在后验概率公式中,分母 p ( x ) = ∫ θ p ( x ∣ θ ) p ( θ ) d θ p(x) = \int_\theta p(x|\theta)p(\theta)d\theta p(x)=θp(xθ)p(θ)dθ,由于对 θ \theta θ 所在的参数空间整体进行了积分,因此不影响,有
    p ( θ ∣ x ) ∝ p ( θ ) p ( x ∣ θ ) p(\theta|x) \propto p(\theta)p(x|\theta) p(θx)p(θ)p(xθ) 可见,当事件 x x x 发生时,最大后验估计通过条件概率函数值 p ( x ∣ θ ) p(x|\theta) p(xθ) 对先验 p ( θ ) p(\theta) p(θ) 进行修正。经过整个数据集 D \mathcal{D} D 的修正后,后验概率密度
    p ( θ ∣ D ) ∝ p ( θ ) p ( D ∣ θ ) p(\theta|\mathcal{D}) \propto p(\theta)p(\mathcal{D}|\theta) p(θD)p(θ)p(Dθ) 将在合理的估计值 θ ^ \hat{\theta} θ^ 位置形成尖峰

    在这里插入图片描述
  • 我们的目标是找出最大后验估计值 θ ^ \hat{\theta} θ^,即
    θ ^ = arg max ⁡ θ p ( θ ∣ D ) = arg max ⁡ θ ∏ x i ∈ D p ( θ ) p ( x i ∣ θ ) = arg max ⁡ θ [ l o g p ( θ ) + ∑ x i ∈ D l o g p ( x i ∣ θ ) ] = arg min ⁡ θ [ − l o g p ( θ ) − ∑ x i ∈ D l o g p ( x i ∣ θ ) ] \begin{aligned} \hat{\theta} &= \argmax\limits_{\theta} p(\theta|\mathcal{D}) \\ &=\argmax\limits_{\theta}\prod\limits_{x_i\in\mathcal{D}}p(\theta)p(x_i|\theta) \\ &=\argmax\limits_{\theta}[logp(\theta)+\sum_{x_i\in\mathcal{D}}log p(x_i|\theta) ]\\ &=\argmin\limits_{\theta}[-logp(\theta) - \sum_{x_i\in\mathcal{D}}log p(x_i|\theta)] \end{aligned} θ^=θargmaxp(θD)=θargmaxxiDp(θ)p(xiθ)=θargmax[logp(θ)+xiDlogp(xiθ)]=θargmin[logp(θ)xiDlogp(xiθ)]

4.2 样本条件概率密度 p ( X ∣ D ) p(X|\mathcal{D}) p(XD) (模型分布)

  • 1.1 节中我们分析过,参数估计的目的是为了得到模型分布,即数据集条件下的样本分布 p ( X ∣ D ) p(X|\mathcal{D}) p(XD),这时我们必须明确 MAP 和 MLE 的区别
    1. MLE 中,参数 Θ \Theta Θ 是一个定值,模型分布仅由其取值 θ \theta θ 决定,而 θ \theta θ 仅由数据集 D \mathcal{D} D 决定,也就是只有一个样本条件概率密度 p ( X ∣ D ) = p ( X ∣ Θ ) p(X|\mathcal{D})=p(X|\Theta) p(XD)=p(XΘ)(似然函数)
    2. MAP 中,参数 Θ \Theta Θ 是一个分布 p ( Θ ∣ D ) p(\Theta|\mathcal{D}) p(ΘD) Θ ^ \hat{\Theta} Θ^ 的每一个取值 θ ^ \hat{\theta} θ^ 都唯一地决定了一个模型分布,为了整体考虑需要对 θ \theta θ 做积分,即 p ( X ∣ D ) = ∫ p ( X , θ ∣ D ) d θ p(X|\mathcal{D}) = \int p(X,\theta|\mathcal{D})d\theta p(XD)=p(X,θD)dθ,因此 MAP 方法最终往往要做一个复杂的积分
  • 下面通过一个贝叶斯决策的例子说明 p ( X ∣ D ) p(X|\mathcal{D}) p(XD) 的作用

4.2.1 贝叶斯分类器

  • 考虑构造一个贝叶斯分类器,使用贝叶斯公式计算 类后验概率 如下
    p ( w i ∣ x , D ) = p ( x ∣ w i , D ) p ( w i ∣ D ) p ( x ) = p ( x ∣ w i , D ) p ( w i ∣ D ) ∑ j p ( x ∣ w j , D ) p ( w j ∣ D ) \begin{aligned} p(w_i|x,\mathcal{D}) &= \frac{p(x|w_i,\mathcal{D})p(w_i|\mathcal{D})}{p(x)} \\ &= \frac{p(x|w_i,\mathcal{D})p(w_i|\mathcal{D})}{\sum_j p(x|w_j,\mathcal{D})p(w_j|\mathcal{D})} \end{aligned} p(wix,D)=p(x)p(xwi,D)p(wiD)=jp(xwj,D)p(wjD)p(xwi,D)p(wiD) 贝叶斯分类器使用这个类后验概率密度函数预测任意样本 x x x 的类别,下面化简符号

    1. 通常我们认为类先验概率可以事前得到,所以把 p ( w i ∣ D ) p(w_i|\mathcal{D}) p(wiD) 简写为 p ( w i ) p(w_i) p(wi)
    2. 像 1.1 节中一样将数据集 D \mathcal{D} D 按样本类别划分为,并假设第 i i i 类的样本对第 j ≠ i j\neq i j=i 类的类条件概率 p ( w j ∣ x , D ) p(w_j|x,\mathcal{D}) p(wjx,D) 没有任何影响,这样 p ( x ∣ w i , D ) p(x|w_i,\mathcal{D}) p(xwi,D) 就可以简化为 p ( x ∣ w i , D i ) p(x|w_i,\mathcal{D}_i) p(xwi,Di)

    符号化简后,上式变为
    p ( w i ∣ x , D ) = p ( x ∣ w i , D i ) p ( w i ) ∑ j p ( x ∣ w j , D j ) p ( w j ) p(w_i|x,\mathcal{D}) = \frac{p(x|w_i,\mathcal{D}_i)p(w_i)}{\sum_j p(x|w_j,\mathcal{D}_j)p(w_j)} p(wix,D)=jp(xwj,Dj)p(wj)p(xwi,Di)p(wi) 假设一共有 c c c 个类别,这里计算类后验概率密度的核心是估计 c c c类条件概率密度 p ( x ∣ w i , D ) p(x|w_i,\mathcal{D}) p(xwi,D),根据我们的假设,这里相当于处理 c c c 个独立的问题,每个问题都在单一的类别下发生,形式为

    已知一组从 p ( X ) p(X) p(X) 中 i.i.d 采样的样本 D \mathcal{D} D,估计条件概率 p ( X ∣ D ) p(X|\mathcal{D}) p(XD)

4.2.2 联系参数后验概率密度 p ( θ ∣ D ) p(\theta|\mathcal{D}) p(θD)

  • 考虑上一节最后提出的任意一个独立问题,基本目标是计算 p ( X ∣ D ) p(X|\mathcal{D}) p(XD),并且使得它尽量靠近 p ( X ) p(X) p(X),这里可以把它表示为 p ( X , θ ∣ D ) p(X,\theta|\mathcal{D}) p(X,θD) 的边缘概率密度,即
    p ( X ∣ D ) = ∫ p ( X , θ ∣ D ) d θ = ∫ p ( X ∣ θ , D ) p ( θ ∣ D ) d θ = ∫ p ( X ∣ θ ) p ( θ ∣ D ) d θ ( 测 试 样 本 X 的 选 取 和 D 独 立 ) \begin{aligned} p(X|\mathcal{D}) &= \int p(X,\theta|\mathcal{D})d\theta\\ &= \int p(X|\theta,\mathcal{D})p(\theta|\mathcal{D})d\theta \\ &= \int p(X|\theta)p(\theta|\mathcal{D})d\theta \space\space\space(测试样本X的选取和 \mathcal{D} 独立)\\ \end{aligned} p(XD)=p(X,θD)dθ=p(Xθ,D)p(θD)dθ=p(Xθ)p(θD)dθ   (XD) 注意其中出现了 MAP 过程中得到的后验概率分布 p ( θ ∣ D ) p(\theta|\mathcal{D}) p(θD)这是贝叶斯估计中最核心的公式,它将类条件概率密度 p ( X ∣ D ) p(X|\mathcal{D}) p(XD)(注意这是 p ( X ∣ w i , D ) p(X|w_i,\mathcal{D}) p(Xwi,D) 的简写)和未知参数的后验概率密度 p ( θ ∣ D ) p(\theta|\mathcal{D}) p(θD) 联系起来。如果 MAP 的估计结果为 θ ^ \hat{\theta} θ^(即 p ( θ ∣ D ) p(\theta|\mathcal{D}) p(θD) θ ^ \hat{\theta} θ^ 处形成最显著的尖峰),且

    1. p ( X ∣ θ ) p(X|\theta) p(Xθ) 光滑
    2. p ( θ ∣ D ) p(\theta|\mathcal{D}) p(θD) 积分拖尾的影响足够小(就是说 p ( θ ∣ D ) p(\theta|\mathcal{D}) p(θD) θ ^ \hat{\theta} θ^ 处足够尖锐)

    则可以如下估计类条件概率密度为 p ( x ∣ w i , D ) ≈ p ( x ∣ w i , θ ^ ) p(x|w_i,\mathcal{D})\approx p(x|w_i,\hat{\theta}) p(xwi,D)p(xwi,θ^) 当以上两条件不满足时,即我们对 θ ^ \hat{\theta} θ^ 的把握不是很强时,上面的式子指导我们应该对所有的 θ \theta θ 求积分来得到满意的 p ( X ∣ D ) p(X|\mathcal{D}) p(XD) (注意其实是类条件概率密度 p ( x ∣ w i , D i ) p(x|w_i,\mathcal{D}_i) p(xwi,Di) 的简写)

4.2.3 小结

  • 欲基于贝叶斯估计方法构造贝叶斯分类器,一些基本假设如下

    1. 条件概率密度 p ( x ∣ Θ ) p(x|\Theta) p(xΘ) 的数学形式完全已知,只是 Θ \Theta Θ 取值 θ \theta θ 未知
    2. 参数向量 Θ \Theta Θ 的 先验概率 p ( Θ ) p(\Theta) p(Θ) 包含了我们对 θ \theta θ 的全部先验知识
    3. 其余的关于参数向量 Θ \Theta Θ 的信息包含在 i.i.d 采样的数据集 D \mathcal{D} D 中,他们都服从未知的概率密度函数 p ( X ) p(X) p(X)

    问题的核心在于计算后验概率密度函数 p ( θ ∣ D ) p(\theta|\mathcal{D}) p(θD),一旦得到就能如下计算(类)后验概率
    p ( X ∣ D ) = ∫ p ( X ∣ θ ) p ( θ ∣ D ) d θ (1) p(X|\mathcal{D}) = \int p(X|\theta)p(\theta|\mathcal{D})d\theta \tag{1} p(XD)=p(Xθ)p(θD)dθ(1) 根据贝叶斯公式,有
    p ( θ ∣ D ) = p ( D ∣ θ ) p ( θ ) ∫ p ( D ∣ θ ) p ( θ ) d θ (2) p(\theta|\mathcal{D}) = \frac{p(\mathcal{D}|\theta)p(\theta)}{\int p(\mathcal{D}|\theta)p(\theta)d\theta} \tag{2} p(θD)=p(Dθ)p(θ)dθp(Dθ)p(θ)(2) 再利用样本间独立性假设,有
    p ( D ∣ θ ) = ∏ k = 1 n p ( x k ∣ θ ) (3) p(\mathcal{D}|\theta) = \prod_{k=1}^n p(x_k|\theta) \tag{3} p(Dθ)=k=1np(xkθ)(3) 这样就完成了对问题的正式解答。构造的贝叶斯分类器示意图如下
    在这里插入图片描述

  • 这里可以考虑和最大似然估计的关系

    1. 假设 p ( D ∣ θ ) p(\mathcal{D}|\theta) p(Dθ) θ ^ \hat{\theta} θ^ 处有一个很尖的峰值
    2. 若先验概率 p ( θ ^ ) p(\hat{\theta}) p(θ^) 非零且在附近邻域变化不大,则根据等式 (2) , p ( θ ^ ∣ D ) p(\hat{\theta}|\mathcal{D}) p(θ^D) 处也是一个峰值
    3. 则根据等式(1), p ( x ∣ D ) p(x|\mathcal{D}) p(xD) 将趋近于 p ( x ∣ θ ^ ) p(x|\hat{\theta}) p(xθ^),后者就是最大似然法优化的最大似然函数

4.3 最大后验估计的步骤

  • 找出参数的最大后验估计
    1. 和最大似然估计步骤类似,先找出后验概率密度 p ( θ ∣ D ) p(\theta|\mathcal{D}) p(θD) (或其正相关形式)的表示,然后通过令偏导数为 0 找出使后验概率最大的估计值 θ ^ \hat{\theta} θ^
    2. 有时我们也可以直接从数据集 D \mathcal{D} D 中估计出先验概率 p ( θ ) p(\theta) p(θ) 和条件概率函数 p ( D ∣ θ ) p(\mathcal{D}|\theta) p(Dθ),进而直接计算 θ ^ \hat{\theta} θ^ 各种取值下的后验概率(比如朴素贝叶斯),然后直接取最大即可
  • 如有需要,可以进一步计算类条件概率密度构造贝叶斯分类器

4.4 示例

4.4.1 已知先验概率和条件概率

  • 假设有5个袋子,每个袋子中都有无限饼干(樱桃或柠檬味),已知5个袋子中两种口味混合比例和被拿到的概率如下

    1. 10%概率拿到;樱桃100%
    2. 20%概率拿到;樱桃75% + 柠檬25%
    3. 40%概率拿到;樱桃50% + 柠檬50%
    4. 20%概率拿到;樱桃25% + 柠檬75%
    5. 10%概率拿到;柠檬100%

    现在从同一个袋子中连续拿到了两个柠檬饼干,那么这个袋子最可能是哪个袋子?

    分析:设 θ i \theta_i θi 表示拿到第 i i i 个袋子,各个袋子被拿到的概率就是先验 p ( θ i ) p(\theta_i) p(θi),我们需要根据事件 X X X:“连续从一个袋子中拿到两个饼干” 这件事在每个袋子中发生的似然性来调整它们。

  • 设从第 i i i 个袋子中拿出柠檬饼干的概率为 p i p_i pi,拿到第 i i i 个袋子的概率为 q i q_i qi,根据后验概率公式,优化目标是:
    arg max ⁡ θ p ( θ ∣ x ) = arg max ⁡ θ p ( θ i ) p ( X ∣ θ i ) = arg max ⁡ θ q i ∗ p i 2 \begin{aligned} \argmax\limits_{\theta}p(\theta|x) &= \argmax\limits_{\theta}p(\theta_i)p(X|\theta_i) \\ &= \argmax\limits_{\theta}q_i*p_i^2 \end{aligned} θargmaxp(θx)=θargmaxp(θi)p(Xθi)=θargmaxqipi2 分别把五个袋子的数据带入,发现第4个袋子的后验概率最大,因此选择第4个袋子

4.4.2 朴素贝叶斯

  • 朴素贝叶斯是一种基于最大后验估计的分类算法。设输入空间 X ∈ R n \mathcal{X}\in \mathbb{R}^n XRn n n n 维向量集合,输出空间 Y = { c 1 , c 2 , . . . , c k } \mathcal{Y} = \{c_1,c_2,...,c_k\} Y={c1,c2,...,ck} X , Y X,Y X,Y 分别是定义在 X , Y \mathcal{X,Y} X,Y 上的随机向量/变量,从真实分布 P ( X , Y ) P(X,Y) P(X,Y) 独立同分布地采样得到训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N } T = \{(\pmb{x}_1,y_1),(\pmb{x}_2,y_2),...,(\pmb{x}_N,y_N\} T={(xxx1,y1),(xxx2,y2),...,(xxxN,yN}
  • 这是一种生成式方法,利用数据分布估计先验概率 p ( Y = c k ) p(Y=c_k) p(Y=ck) 和条件概率函数 p ( X = x ∣ Y = c k ) p(X=x|Y=c_k) p(X=xY=ck),进而得到联合概率分布 P ( X , Y ) P(X,Y) P(X,Y) 用于预测

    条件独立性假设:考察条件概率分布 P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , X ( 2 ) = x ( 2 ) , . . . , X ( n ) = x ( n ) ∣ Y = c k ) , k = 1 , 2 , . . . K P(X=x|Y=c_k) = P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},...,X^{(n)}=x^{(n)}|Y=c_k), \space\space k=1,2,...K P(X=xY=ck)=P(X(1)=x(1),X(2)=x(2),...,X(n)=x(n)Y=ck),  k=1,2,...K 假设 x ( j ) x^{(j)} x(j) 可取值有 S j S_j Sj 个, j = 1 , 2 , . . . , n j=1,2,...,n j=1,2,...,n Y Y Y 可取值有 K K K 个,那么参数个数最多为 K ∏ j = 1 n S j K \prod_{j=1}^n S_j Kj=1nSj,参数数量为指数级,因此直接估计 P ( X , Y ) P(X,Y) P(X,Y) 是不可行的。为此朴素贝叶斯作了条件独立性假设,即
    P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , . . . . , X ( n ) = x ( n ) ∣ Y = c k ) = ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) \begin{aligned} P(X=x|Y=c_k) &= P(X^{(1)}=x^{(1)},....,X^{(n)}=x^{(n)}|Y=c_k) \\ &= \prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k) \end{aligned} P(X=xY=ck)=P(X(1)=x(1),....,X(n)=x(n)Y=ck)=j=1nP(X(j)=x(j)Y=ck) ** **

  • 得到联合分布 P ( X , Y ) P(X,Y) P(X,Y) 后,就可以利用贝叶斯公式得到后验概率,再用 MAP 方式估计未见样本类别,即
    y = f ( x ) = arg max ⁡ c k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) ∣ Y = c k ) ∑ k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) ) ∣ Y = c k ) = arg max ⁡ c k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) ∣ Y = c k ) k = 1 , 2 , . . . , K \begin{aligned} y = f(\pmb{x}) &= \argmax_{c_k}\frac{P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_kP(Y=c_k)\prod_jP(X^{(j)}=x^{(j)})|Y=c_k)} \\ &= \argmax_{c_k}P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k) \end{aligned} \space \space\space \space k=1,2,...,K y=f(xxx)=ckargmaxkP(Y=ck)jP(X(j)=x(j))Y=ck)P(Y=ck)jP(X(j)=x(j)Y=ck)=ckargmaxP(Y=ck)jP(X(j)=x(j)Y=ck)    k=1,2,...,K 其中先验概率 P ( Y = c k ) P(Y=c_k) P(Y=ck) 和样本每一维(特征)的条件概率 P ( X ( j ) = a j l ) P(X^{(j)}=a_{jl}) P(X(j)=ajl) 都使用极大似然估计方式估计得到,即
    P ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) N k = 1 , 2 , . . . , K P(Y=c_k) = \frac{\sum_{i=1}^N I(y_i=c_k)}{N} \space\space\space k=1,2,...,K P(Y=ck)=Ni=1NI(yi=ck)   k=1,2,...,K 设第 j j j 个特征 x ( j ) x^{(j)} x(j) 可能取值的集合为 { a j 1 , a j 2 , . . . , a j S j } \{a_{j1},a_{j2},...,a_{jS_j}\} {aj1,aj2,...,ajSj},条件概率估计为
    P ( X ( j ) = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) ∑ i = 1 N I ( y i = c k ) j = 1 , 2 , . . . , n ; l = 1 , 2 , . . . . , S j ; k = 1 , 2 , . . . , K P(X^{(j)}=a_{jl}|Y=c_k) = \frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^N I(y_i=c_k)} \\ \space \\ j = 1,2,...,n; \space\space\space l = 1,2,....,S_j;\space\space\space k=1,2,...,K P(X(j)=ajlY=ck)=i=1NI(yi=ck)i=1NI(xi(j)=ajl,yi=ck) j=1,2,...,n;   l=1,2,....,Sj;   k=1,2,...,K 式中 x i ( j ) x_i^{(j)} xi(j) 是第 i i i 个样本的第 j j j 个特征; a j l a_{jl} ajl 是第 j j j 个特征可能取的第 l l l 个值
  • 示例
    在这里插入图片描述
    在这里插入图片描述

5. MLE和MAP的联系

  1. 看贝叶斯公式
    p ( Θ ∣ X ) = p ( X ∣ Θ ) p ( Θ ) p ( X ) p(\Theta|X) = \frac{p(X|\Theta)p(\Theta)}{p(X)} p(ΘX)=p(X)p(XΘ)p(Θ) 随着数据量的增加,条件概率函数值 p ( X ∣ Θ ) p(X|\Theta) p(XΘ) 对先验 p ( Θ ) p(\Theta) p(Θ) 的修正越来越大,参数分布会越来越向数据靠拢,先验的影响力会越来越小。因此在数据量趋向无限时,MAP 得到的参数后验概率一般会收敛到狄拉克函数,这时 MLE 和 MAP 最终会得到相同的估计
    在这里插入图片描述

  2. 如果先验是均匀分布,则贝叶斯方法MAP等价于频率方法MLE,因为先验是均匀分布本质上表示对事物没有任何预判

  3. 看最大后验估计的优化目标
    θ ^ = arg min ⁡ θ [ − l o g p ( θ ) − ∑ i = 1 n l o g p ( x i ∣ θ ) ] \hat{\theta} = \argmin\limits_{\theta}[-logp(\theta) - \sum_{i=1}^nlog p(x_i|\theta)] θ^=θargmin[logp(θ)i=1nlogp(xiθ)] 可见这里第二项 arg min ⁡ θ ∑ i = 1 n l o g p ( x i ∣ θ ) \argmin\limits_{\theta}\sum_{i=1}^nlog p(x_i|\theta) θargmini=1nlogp(xiθ) 正是最大似然估计的优化目标 NLL,所以MLE和MAP在优化时的不同就是在于先验项 − l o g p ( θ ) -logp(\theta) logp(θ)。如果我们假设先验是一个高斯分布,即
    p ( θ ) = c o n s t a n t × e x p ( − θ 2 2 σ 2 ) p(\theta) = constant \times exp(-\frac{\theta^2}{2\sigma^2}) p(θ)=constant×exp(2σ2θ2)于是有
    − l o g p ( θ ) = c o n s t a n t + θ 2 2 σ 2 -logp(\theta) = constant + \frac{\theta^2}{2\sigma^2} logp(θ)=constant+2σ2θ2 可见,在MAP中使用一个高斯分布的先验等价于在MLE中使用一个L2正则项


http://chatgpt.dhexx.cn/article/q5oPF6DV.shtml

相关文章

【生成模型】极大似然估计,你必须掌握的概率模型

上一期为大家说明了什么是无监督生成模型。在无监督生成模型中,极大似然法一直扮演着非常核心的位置,我们必须对它有深刻的理解,本期小米粥将为大家讲一下极大似然法的那些事情。 作者&编辑 | 小米粥 1 一个小游戏:取球猜概率…

透彻理解机器学习中极大似然估计MLE的原理(附3D可视化代码)

文章目录 相关资料一、什么是概率,什么是似然二、极大似然估计 Maximum Likelihood Estimation (MLE) 的含义2.1 机器学习中的极大化似然函数2.2 极大似然估计和损失函数的关系VAE最大化似然函数推导出损失函数 三、代码可视化:极大似然估计3.1 似然函数…

C#RSA密码以及利用欧几里得算法实现两数互质的判断

最近做课程设计,想到以前看过RSA密码的相关内容,于是就想用刚学的C#做一个数字加密系统。RSA加密的流程如下: 来看一个“玩具式”的例子: (1)选取两个素数p2,q11,于是N22. (2)构造数,这是小于22且不含因数2和11的自然数的个数。 (3)选一个…

判断两数互质,java实现

数组下标i和j值互质时,a[i][j] true,反之false Write a program to create an n * n Boolean array. If I and j are coprime, a [i] [J] is true, otherwise it is false /** * When Array index Mutuality ,a[i][j] true,else is false * 数组i和j值互质时&…

两个质数互质是_两个数互质是什么意思 如何判断

互质数为数学中的一种概念,即两个或多个整数的公因数只有1的非零自然数。公因数只有1的两个非零自然数,叫做互质数。下面是小编整理的详细内容,一起来看看吧! 两个数互质是什么意思 质数为数学中的一种概念,即两个或多…

char、wchar_t、ACHAR、WCHAR、TCHAR

最近用到上面几种不同的字符类型,下面贴上在网上收集到的资料。 1、char 单字节变量类型,最多表示256个字符。 2、wchar_t 宽字节变量类型,用于表示Unicode字符,它实际定义在<string.h>里:typedef unsigned short wchar_t。 定义宽字节类型方法如下: wchar_…

wchar* 转换成 string

wchar* 转换成 string 123 windows 类型转换问题 1 // Your wchar_t* wstring ws(L"Hello World"); // your new String std::string str(ws.begin(), ws.end()); // Show String std::cout << str << std::endl; 2 std::wstring wstr(L"Test&…

wchar_t类型

今天在看前辈的项目的时候学习到了一个以前没有通过的数据类型&#xff1a;宽字符wchar_t类型。 先来看看他占多大的空间吧&#xff0c; 从图中可以看到wchar_t占的空间的大小为2个字节&#xff0c; 然后来确定一下他是无符号还是有符号的 由上图可见&#xff0c;他应该是无符号…

char与wchar_t字符串

C里的字符串类型是比较二的&#xff0c;因为有太多表示方法&#xff1a;char*、string、字符串数组、wchar_t*、wstring&#xff0c;今天就来缕一缕这些玩意。 char* char* 貌似是C字符串最基础最核心的。 看以下四个字符串声明及输出结果&#xff1a; 先说说核心&#xff0c…

wchar_t的用法

wchar_t的解释可以看这里:这里 程序和解析: 1 # include<stdio.h>2 # include<stdlib.h>3 # include<locale.h>//设置本地化<

WCHAR的简单操作

WCHAR 是双字节类型&#xff0c;一般它用来存储那些双字节而不是单字节字符.较长的字节数可以支持 在应用程序的国际发布版本里所使用的扩展字符集(如常用的Unicode字符集). 比如说&#xff1a;在中文系统下开发的软件&#xff0c;当应用到日文操作系统时&#xff0c;如果没有采…

ADI Diff-Amp Calculator差分放大器件计算器使用方法

Diff-Amp Calculator便于计算单端转差分放大&#xff0c;差分转差分放大&#xff0c;在满足输入信号和输出信号的参数要求下&#xff0c;配置元件增益自动计算Rf和Rg阻值大小。 下载地址&#xff1a;https://www.analog.com/cn/design-center/interactive-design-tools/adi-dif…

双电阻差分电流采样_差分信号和差分电路讲解 差分放大电路应用

1、什么是差分信号?为什么要用差分信号? 两个芯片要通信,我们把它们用一根导线连接起来,一个传输 1,另一个接受 1,一个传输 0,另一个接受 0,不是很好吗?为什么还要搞其他的花花肠子。 因为有干扰,各种各样的干扰,比如温度,电磁辐射等等,这些干扰使得传输的 1 不再…

双电阻差分电流采样_差分放大电路的应用

差分运算放大电路,对共模信号得到有效抑制,而只对差分信号进行放大,因而得到广泛的应用。 1、如下图是差分电路的电路构型 目标处理电压:是采集处理电压,比如在系统中像母线电压的采集处理,还有像交流电压的采集处理等。 差分同相/反相分压电阻:为了得到适合运放处理的电…

全差分放大器(FDA)的基本知识

为了获得最佳性能&#xff0c;用户必须在信号链上选择一个balun(平衡不平衡变换器&#xff09;&#xff0c;虽然这可能会导致某些应用中的耦合问题。然而&#xff0c;耦合问题并不是总是发生&#xff0c;特别是在某些需要DC分量的测试和测量应用中更是如此。 全差分放大器 (FDA…

3.0.MATLAB版线性代数-矩阵加法、数乘、乘法、求逆

矩阵运算及其应用(加法、数乘、乘法、求逆) 加法数乘运算规则乘法矩阵乘法定义线性变换多次线性变换等于矩阵的连乘线性方程组看做矩阵乘法矩阵的转置矩阵的逆(“除法”)矩阵逆的定义矩阵逆的性质求逆矩阵的方法(求逆1)MATLAB中求逆矩阵的分块向量等式初等矩阵初等矩阵和…

算法:动态规划—矩阵链相乘

问题描述 给定n个矩阵&#xff5b;A1,A2,…,An&#xff5d;&#xff0c;其中Ai与A i1是可乘的&#xff0c;i1&#xff0c;2…&#xff0c;n-1。如何确定计算矩阵连乘积的计算次序&#xff0c;使得依此次序计算矩阵连乘积需要的数乘次数最少 解法 1.穷举法&#xff1a; 列举…

Java实现矩阵的加、减、乘、数乘、转置、幂运算

Java实现矩阵的加、减、乘、数乘、转置、幂运算 首先需要一个矩阵对应的类 Matrix. 命名为Matrix import java.util.Arrays; /*** author yiran* creat 2021-11-26-13:58*/ public class Matrix{// 矩阵private double[][] matrix;// m x n private int m;private int n;publ…

【数理知识】向量数乘,内积,外积,matlab代码实现

序号内容1【数理知识】向量数乘&#xff0c;内积&#xff0c;外积&#xff0c;matlab代码实现2【数理知识】矩阵普通乘积&#xff0c;哈达玛积&#xff0c;克罗内克积&#xff0c;点乘&#xff0c;点积&#xff0c;叉乘&#xff0c;matlab代码实现 文章目录 1. 向量基本形式2. …

Eigen入门系列 —— Eigen::Matrix矩阵基本加减、数乘运算

Eigen入门系列 —— Eigen::Matrix矩阵基本加减、数乘运算 前言程序说明输出结果代码示例 前言 随着工业自动化、智能化的不断推进&#xff0c;机器视觉&#xff08;2D/3D&#xff09;在工业领域的应用和重要程度也同步激增&#xff08;识别、定位、抓取、测量&#xff0c;缺陷…