徐亦达 概率模型学习 : hmm

article/2025/9/22 13:26:22

引出: 条件概率 理解为 一对应无限 的函数 上的一个自变量点的情况

p ( x ∣ y ) p(x|y) p(xy)是有多种解释的 或者 是隐含了具体应用情况的,

以下内容大概在说:
条件概率 p ( x ∣ y ) p(x|y) p(xy) 是 一对应无限映射x(y) 的 一种数学定量描述办法。
( 一对应无限映射x(y) 这种函数并不那么容易描述吧,对比之下 一 一映射当然更容易描述 )

详细展开:

以下将条件概率分布 p ( x ∣ y ) p(x|y) p(xy)解释为

以一 对应 无穷 的函数

给任意某一对(x,y)一个数值来描述其可能性

(该可能性即概率,该可能性实际上是描述该x对应到该y却不对应到其他y的程度)

函数映射一般是单射或有限射, y=f(x) : 一个x只能对应有限个y,这才是函数(一个x对应多个y 可以用分段函数来表达, 但是总不能写无限个分段来表达无限吧);
但是如果y=f(x)中 一个x对应了无穷多个y,应该用什么来描述? 比如x=a点对应了无穷多个y,如何表达?就用 p ( y ∣ x = a ) p(y|x=a) p(yx=a)这样一个条件概率分布来表达。由此可见条件概率分布是对函数的扩展和弥补。

以下HMM中隐状态转移概率 p ( h t ∣ h t − 1 = b ) p(h_t|h_{t-1}=b) p(htht1=b)表达的其实就是在 h t − 1 = b h_{t-1}=b ht1=b点的 一对应无穷 的函数f: q t = f ( h t − 1 ) q_t=f(h_{t-1}) qt=f(ht1), 所以条件概率的条件部分 h t − 1 h_{t-1} ht1其实相当于函数f的自变量 而条件概率的随机变量部分 h t h_t ht其实相当于函数f的应变量
在这里准确的描述是: 条件概率分布 p ( h t ∣ h t − 1 = b ) p(h_t|h_{t-1}=b) p(htht1=b)可以描述  一对应无穷 的函数f: h t = f ( h t − 1 ) h_t=f(h_{t-1}) ht=f(ht1)   在 自变量的一个点 h t − 1 = b h_{t-1}=b ht1=b处   应变量 h t h_t ht取哪些值及各取值的可能性
在这里插入图片描述

注意 上图我做过修改 ,
在原图中:  q i q_i qi是 随机变量 (隐变量), 1、2、3是 该随机变量 的取值
而这里: h i h_i hi 是 随机变量(隐变量) , 1、2、3依然是 该随机变量 的取值
本文后续部分: h i h_i hi 是 随机变量(隐变量) , 而 s i s_i si 是 该随机变量 的取值 ; 即 q i q_i qi -> h i h_i hi,1、2、3 -> s i s_i si

条件概率 理解为 一对应无限 的函数 上的一个自变量点的情况

p ( x , y ) = p ( x ∣ y ) p ( y ) p(x,y)=p(x|y)p(y) p(x,y)=p(xy)p(y) ;条件概率定义
p ( x , y ) = p ( x ( y ) , y ) = p ( x ∣ y ) p ( y ) p(x,y)=p(x(y),y)=p(x|y)p(y) p(x,y)=p(x(y),y)=p(xy)p(y) ;上式条件概率定义 式子 是把x当成了y的 一对应无限 的函数:x=x(y), y是自变量,x是应变量
需要考虑的问题是,假如x并不是y的函数呢?
上式其实隐含了 :

p(x(y)) 其实是 p(x|y)的另一个写法而已; p(x(z), y(z)) 其实是 p(x,y|z)的另一个写法而已;
即 : “x(y)” 即 “x|y” , “x(z), y(z)” 即 “x,y|z”

插入自由变量式:
p ( y ) = Σ x p ( y , x ) p(y)=\Sigma_{x} p(y,x) p(y)=Σxp(y,x) ; x是任意一个自由变量, x取遍所有x能取的值;

条件下插入自由变量式:
p ( y ( z ) ) = Σ x ( z ) p ( y ( z ) , x ( z ) ) p(y(z))=\Sigma_{x(z)} p(y(z),x(z)) p(y(z))=Σx(z)p(y(z),x(z)) ; 如果x、y均是z的 一对应无限 的函数: x=x(z), y=y(z) , 依然有类似 “插入自由变量式” 的式子
上式子可以写作: p ( y ∣ z ) = Σ x p ( y , x ∣ z ) p(y|z)=\Sigma_{x} p(y,x|z) p(yz)=Σxp(y,xz)

条件概率画图
在这里插入图片描述

hmm

变量用词说明

以 h表示隐状态随机变量,
h 1 h_1 h1即时刻1的隐状态随机变量 ,
h 2 h_2 h2即时刻2的隐状态随机变量 ,

h n h_n hn即时刻n的隐状态随机变量 ,

s 1 , s 2 , . . . , s k s_1, s_2, ..., s_k s1,s2,...,sk表示k个隐状态的取值

h i h_i hi可以取 s 1 , s 2 , . . . , s k s_1, s_2, ..., s_k s1,s2,...,sk中的任意一个值

如何表示 p ( y 1 , y 2 ) p(y_1,y_2) p(y1,y2), 答案是:
p ( y 1 , y 2 ) = Σ h 1 = q 1 q k Σ h 2 = q 1 q k ( p ( y 2 ∣ h 2 ) p ( y 1 ∣ h 1 ) p ( h 2 ∣ h 1 ) p ( h 1 ) ) p(y_1, y_2)= \Sigma_{h_1=q_1}^{q_k} \Sigma_{h_2=q_1}^{q_k} ( p(y_2|h_2 )p(y_1|h_1 )p(h_2|h_1 )p(h_1) ) p(y1,y2)=Σh1=q1qkΣh2=q1qk(p(y2h2)p(y1h1)p(h2h1)p(h1)); 推导过程如下:

;推导 p ( y 1 ) p(y_1) p(y1)
p ( y 1 ) = Σ h 1 = s 1 s k p ( y 1 , h 1 ) = Σ h 1 = s 1 s k p ( y 1 ( h 1 ) , h 1 ) = Σ h 1 = s 1 s k ( p ( y 1 ∣ h 1 ) p ( h 1 ) ) p(y_1)=\Sigma_{h_1=s_1}^{s_k} p(y_1,h_1)=\Sigma_{h_1=s_1}^{s_k} p(y_1(h_1), h_1)=\Sigma_{h_1=s_1}^{s_k} ( p(y_1|h_1) p(h_1) ) p(y1)=Σh1=s1skp(y1,h1)=Σh1=s1skp(y1(h1),h1)=Σh1=s1sk(p(y1h1)p(h1)) ; 即:
p ( y 1 ) = Σ h 1 = s 1 s k ( p ( y 1 ∣ h 1 ) p ( h 1 ) ) p(y_1)=\Sigma_{h_1=s_1}^{s_k} ( p(y_1|h_1) p(h_1) ) p(y1)=Σh1=s1sk(p(y1h1)p(h1))
“推导 p ( y 1 ) p(y_1) p(y1)” 在 “推导 p ( y 1 , y 2 ) p(y_1, y_2) p(y1,y2)” 中并没有被直接用到,这里只是写在这而已

;推导 p ( y 1 , y 2 ) p(y_1, y_2) p(y1,y2):
;在 p ( y 1 , y 2 ) p(y_1, y_2) p(y1,y2) 中插入自由变量 h 2 h_2 h2,得:
p ( y 1 , y 2 ) = Σ h 2 = s 1 s k p ( y 1 ( h 2 ) , y 2 ( h 2 ) , h 2 ) p(y_1, y_2)=\Sigma_{h_2=s_1}^{s_k} p(y_1(h_2), y_2(h_2), h_2) p(y1,y2)=Σh2=s1skp(y1(h2),y2(h2),h2);再插入自由变量 h 1 h_1 h1,得:
p ( y 1 , y 2 ) = Σ h 1 = s 1 s k Σ h 2 = s 1 s k p ( y 1 ( h 1 , h 2 ) , y 2 ( h 1 , h 2 ) , h 2 ( h 1 ) , h 1 ) p(y_1, y_2)= \Sigma_{h_1=s_1}^{s_k} \Sigma_{h_2=s_1}^{s_k} p(y_1(h_1,h_2), y_2(h_1,h_2), h_2(h_1),h_1 ) p(y1,y2)=Σh1=s1skΣh2=s1skp(y1(h1,h2),y2(h1,h2),h2(h1),h1);抽出 h 1 h_1 h1,得:
p ( y 1 , y 2 ) = Σ h 1 = s 1 s k Σ h 2 = s 1 s k ( p ( y 1 ( h 2 ) , y 2 ( h 2 ) , h 2 ∣ h 1 ) p ( h 1 ) ) p(y_1, y_2)= \Sigma_{h_1=s_1}^{s_k} \Sigma_{h_2=s_1}^{s_k} \bigg( p(y_1(h_2), y_2(h_2), h_2|h_1 ) \quad p(h_1) \bigg) p(y1,y2)=Σh1=s1skΣh2=s1sk(p(y1(h2),y2(h2),h2h1)p(h1));再抽出 h 2 h_2 h2,得:
p ( y 1 , y 2 ) = Σ h 1 = s 1 s k Σ h 2 = s 1 s k ( p ( y 1 , y 2 ∣ h 2 , h 1 ) p ( h 2 ∣ h 1 ) p ( h 1 ) ) p(y_1, y_2)= \Sigma_{h_1=s_1}^{s_k} \Sigma_{h_2=s_1}^{s_k} \bigg( p(y_1, y_2|h_2,h_1 ) \quad p(h_2|h_1 ) \quad p(h_1) \bigg) p(y1,y2)=Σh1=s1skΣh2=s1sk(p(y1,y2h2,h1)p(h2h1)p(h1));将 y 2 y_2 y2当成 y 2 ( y 1 ) y_2(y_1) y2(y1) ,得:
p ( y 1 , y 2 ) = Σ h 1 = s 1 s k Σ h 2 = s 1 s k ( p ( y 1 , y 2 ( y 1 ) ∣ h 2 , h 1 ) p ( h 2 ∣ h 1 ) p ( h 1 ) ) p(y_1, y_2)= \Sigma_{h_1=s_1}^{s_k} \Sigma_{h_2=s_1}^{s_k} \bigg( p(y_1, y_2(y_1)|h_2,h_1 ) \quad p(h_2|h_1 ) \quad p(h_1) \bigg) p(y1,y2)=Σh1=s1skΣh2=s1sk(p(y1,y2(y1)h2,h1)p(h2h1)p(h1));抽出 y 1 y_1 y1,得:
p ( y 1 , y 2 ) = Σ h 1 = s 1 s k Σ h 2 = s 1 s k ( p ( y 2 ∣ h 2 , h 1 , y 1 ) p ( y 1 ∣ h 2 , h 1 ) p ( h 2 ∣ h 1 ) p ( h 1 ) ) p(y_1, y_2)= \Sigma_{h_1=s_1}^{s_k} \Sigma_{h_2=s_1}^{s_k} \bigg( p(y_2|h_2,h_1,y_1 ) \quad p(y_1|h_2,h_1 ) \quad p(h_2|h_1 ) \quad p(h_1) \bigg) p(y1,y2)=Σh1=s1skΣh2=s1sk(p(y2h2,h1,y1)p(y1h2,h1)p(h2h1)p(h1)) ;根据hmm假设,有 “ y 2 ∣ y 1 , h 1 , h 2 y_2|y_1,h_1,h_2 y2y1,h1,h2” 即 “ y 2 ∣ h 2 y_2|h_2 y2h2” ,有 “ y 1 ∣ h 1 , h 2 y_1|h_1,h_2 y1h1,h2” 即 “ y 1 ∣ h 1 y_1|h_1 y1h1” :
p ( y 1 , y 2 ) = Σ h 1 = s 1 s k Σ h 2 = s 1 s k ( p ( y 2 ∣ h 2 ) p ( y 1 ∣ h 1 ) p ( h 2 ∣ h 1 ) p ( h 1 ) ) p(y_1, y_2)= \Sigma_{h_1=s_1}^{s_k} \Sigma_{h_2=s_1}^{s_k} \bigg( p(y_2|h_2 ) \quad p(y_1|h_1 ) \quad p(h_2|h_1 ) \quad p(h_1) \bigg) p(y1,y2)=Σh1=s1skΣh2=s1sk(p(y2h2)p(y1h1)p(h2h1)p(h1)) ;这里每一项都是hmm已知的;

在这里插入图片描述

;推导 p ( y 1 , y 2 , y 3 ) p(y_1, y_2, y_3) p(y1,y2,y3):
;在 p ( y 1 , y 2 , y 3 ) p(y_1, y_2, y_3) p(y1,y2,y3) 中 插入自由变量 h 3 h_3 h3,得:
p ( y 1 , y 2 , y 3 ) = Σ h 3 = s 1 s k p ( y 1 ( h 3 ) , y 2 ( h 3 ) , y 3 ( h 3 ) , h 3 ) p(y_1, y_2, y_3)=\Sigma_{h_3=s_1}^{s_k} p(y_1(h_3),y_2(h_3),y_3(h_3),h_3) p(y1,y2,y3)=Σh3=s1skp(y1(h3),y2(h3),y3(h3),h3);插入自由变量 h 2 h_2 h2,得:
p ( y 1 , y 2 , y 3 ) = Σ h 2 = s 1 s k Σ h 3 = s 1 s k p ( y 1 ( h 2 , h 3 ) , y 2 ( h 2 , h 3 ) , y 3 ( h 2 , h 3 ) , h 3 ( h 2 ) , h 2 ) p(y_1, y_2, y_3)=\Sigma_{h_2=s_1}^{s_k} \Sigma_{h_3=s_1}^{s_k} p(y_1(h_2,h_3),y_2(h_2,h_3),y_3(h_2,h_3),h_3(h_2),h_2) p(y1,y2,y3)=Σh2=s1skΣh3=s1skp(y1(h2,h3),y2(h2,h3),y3(h2,h3),h3(h2),h2);插入自由变量 h 1 h_1 h1,得:
p ( y 1 , y 2 , y 3 ) = Σ h 1 = s 1 s k Σ h 2 = s 1 s k Σ h 3 = s 1 s k p ( y 1 ( h 1 , h 2 , h 3 ) , y 2 ( h 1 , h 2 , h 3 ) , y 3 ( h 1 , h 2 , h 3 ) , h 3 ( h 1 , h 2 ) , h 2 ( h 1 ) , h 1 ) p(y_1, y_2, y_3)=\Sigma_{h_1=s_1}^{s_k} \Sigma_{h_2=s_1}^{s_k} \Sigma_{h_3=s_1}^{s_k} p(y_1(h_1,h_2,h_3),y_2(h_1,h_2,h_3),y_3(h_1,h_2,h_3),h_3(h_1,h_2),h_2(h_1),h_1) p(y1,y2,y3)=Σh1=s1skΣh2=s1skΣh3=s1skp(y1(h1,h2,h3),y2(h1,h2,h3),y3(h1,h2,h3),h3(h1,h2),h2(h1),h1);抽出 h 1 h_1 h1,得:
p ( y 1 , y 2 , y 3 ) = Σ h 1 = s 1 s k Σ h 2 = s 1 s k Σ h 3 = s 1 s k ( p ( y 1 ( h 2 , h 3 ) , y 2 ( h 2 , h 3 ) , y 3 ( h 2 , h 3 ) , h 3 ( h 2 ) , h 2 ∣ h 1 ) p ( h 1 ) ) p(y_1, y_2, y_3)=\Sigma_{h_1=s_1}^{s_k} \Sigma_{h_2=s_1}^{s_k} \Sigma_{h_3=s_1}^{s_k} \bigg( p(y_1(h_2,h_3),y_2(h_2,h_3),y_3(h_2,h_3),h_3(h_2),h_2|h_1) \quad p(h_1) \bigg) p(y1,y2,y3)=Σh1=s1skΣh2=s1skΣh3=s1sk(p(y1(h2,h3),y2(h2,h3),y3(h2,h3),h3(h2),h2h1)p(h1));抽出 h 2 h_2 h2,得:
p ( y 1 , y 2 , y 3 ) = Σ h 1 = s 1 s k Σ h 2 = s 1 s k Σ h 3 = s 1 s k ( p ( y 1 ( h 3 ) , y 2 ( h 3 ) , y 3 ( h 3 ) , h 3 ∣ h 2 , h 1 ) p ( h 2 ∣ h 1 ) p ( h 1 ) ) p(y_1, y_2, y_3)=\Sigma_{h_1=s_1}^{s_k} \Sigma_{h_2=s_1}^{s_k} \Sigma_{h_3=s_1}^{s_k} \bigg( p(y_1(h_3),y_2(h_3),y_3(h_3),h_3|h_2,h_1) \quad p(h_2|h_1) \quad p(h_1) \bigg) p(y1,y2,y3)=Σh1=s1skΣh2=s1skΣh3=s1sk(p(y1(h3),y2(h3),y3(h3),h3h2,h1)p(h2h1)p(h1));抽出 h 3 h_3 h3,得:
p ( y 1 , y 2 , y 3 ) = Σ h 1 = s 1 s k Σ h 2 = s 1 s k Σ h 3 = s 1 s k ( p ( y 1 , y 2 , y 3 ∣ h 3 , h 2 , h 1 ) p ( h 3 ∣ h 2 , h 1 ) p ( h 2 ∣ h 1 ) p ( h 1 ) ) p(y_1, y_2, y_3)=\Sigma_{h_1=s_1}^{s_k} \Sigma_{h_2=s_1}^{s_k} \Sigma_{h_3=s_1}^{s_k} \bigg ( p(y_1,y_2,y_3|h_3,h_2,h_1) \quad p(h_3|h_2,h_1) \quad p(h_2|h_1) \quad p(h_1) \bigg) p(y1,y2,y3)=Σh1=s1skΣh2=s1skΣh3=s1sk(p(y1,y2,y3h3,h2,h1)p(h3h2,h1)p(h2h1)p(h1));将 y 3 y_3 y3当成 y 3 ( y 1 ) y_3(y_1) y3(y1) y 2 y_2 y2当成 y 2 ( y 1 ) y_2(y_1) y2(y1) 得:
p ( y 1 , y 2 , y 3 ) = Σ h 1 = s 1 s k Σ h 2 = s 1 s k Σ h 3 = s 1 s k ( p ( y 1 , y 2 ( y 1 ) , y 3 ( y 1 ) ∣ h 3 , h 2 , h 1 ) p ( h 3 ∣ h 2 , h 1 ) p ( h 2 ∣ h 1 ) p ( h 1 ) ) p(y_1, y_2, y_3)=\Sigma_{h_1=s_1}^{s_k} \Sigma_{h_2=s_1}^{s_k} \Sigma_{h_3=s_1}^{s_k} \bigg ( p(y_1,y_2(y_1),y_3(y_1)|h_3,h_2,h_1) \quad p(h_3|h_2,h_1) \quad p(h_2|h_1) \quad p(h_1) \bigg) p(y1,y2,y3)=Σh1=s1skΣh2=s1skΣh3=s1sk(p(y1,y2(y1),y3(y1)h3,h2,h1)p(h3h2,h1)p(h2h1)p(h1));抽出 y 1 y_1 y1,得:
p ( y 1 , y 2 , y 3 ) = Σ h 1 = s 1 s k Σ h 2 = s 1 s k Σ h 3 = s 1 s k ( p ( y 2 , y 3 ∣ y 1 , h 3 , h 2 , h 1 ) p ( y 1 ∣ h 3 , h 2 , h 1 ) p ( h 3 ∣ h 2 , h 1 ) p ( h 2 ∣ h 1 ) p ( h 1 ) ) p(y_1, y_2, y_3)=\Sigma_{h_1=s_1}^{s_k} \Sigma_{h_2=s_1}^{s_k} \Sigma_{h_3=s_1}^{s_k} \bigg ( p(y_2,y_3|y_1,h_3,h_2,h_1) \quad p(y_1|h_3,h_2,h_1) \quad p(h_3|h_2,h_1) \quad p(h_2|h_1) \quad p(h_1) \bigg) p(y1,y2,y3)=Σh1=s1skΣh2=s1skΣh3=s1sk(p(y2,y3y1,h3,h2,h1)p(y1h3,h2,h1)p(h3h2,h1)p(h2h1)p(h1));将 y 3 y_3 y3当成 y 3 ( y 2 ) y_3(y_2) y3(y2) ,得:
p ( y 1 , y 2 , y 3 ) = Σ h 1 = s 1 s k Σ h 2 = s 1 s k Σ h 3 = s 1 s k ( p ( y 2 , y 3 ( y 2 ) ∣ y 1 , h 3 , h 2 , h 1 ) p ( y 1 ∣ h 3 , h 2 , h 1 ) p ( h 3 ∣ h 2 , h 1 ) p ( h 2 ∣ h 1 ) p ( h 1 ) ) p(y_1, y_2, y_3)=\Sigma_{h_1=s_1}^{s_k} \Sigma_{h_2=s_1}^{s_k} \Sigma_{h_3=s_1}^{s_k} \bigg ( p(y_2,y_3(y_2)|y_1,h_3,h_2,h_1) \quad p(y_1|h_3,h_2,h_1) \quad p(h_3|h_2,h_1) \quad p(h_2|h_1) \quad p(h_1) \bigg) p(y1,y2,y3)=Σh1=s1skΣh2=s1skΣh3=s1sk(p(y2,y3(y2)y1,h3,h2,h1)p(y1h3,h2,h1)p(h3h2,h1)p(h2h1)p(h1));抽出 y 2 y_2 y2,得:
p ( y 1 , y 2 , y 3 ) = Σ h 1 = s 1 s k Σ h 2 = s 1 s k Σ h 3 = s 1 s k ( p ( y 3 ∣ y 2 , y 1 , h 3 , h 2 , h 1 ) p ( y 2 ∣ y 1 , h 3 , h 2 , h 1 ) p ( y 1 ∣ h 3 , h 2 , h 1 ) p ( h 3 ∣ h 2 , h 1 ) p ( h 2 ∣ h 1 ) p ( h 1 ) ) p(y_1, y_2, y_3)=\Sigma_{h_1=s_1}^{s_k} \Sigma_{h_2=s_1}^{s_k} \Sigma_{h_3=s_1}^{s_k} \bigg ( p(y_3|y_2,y_1,h_3,h_2,h_1) \quad p(y_2|y_1,h_3,h_2,h_1) \quad p(y_1|h_3,h_2,h_1) \quad p(h_3|h_2,h_1) \quad p(h_2|h_1) \quad p(h_1) \bigg) p(y1,y2,y3)=Σh1=s1skΣh2=s1skΣh3=s1sk(p(y3y2,y1,h3,h2,h1)p(y2y1,h3,h2,h1)p(y1h3,h2,h1)p(h3h2,h1)p(h2h1)p(h1));根据hmm假设 :
p ( y 1 , y 2 , y 3 ) = Σ h 1 = s 1 s k Σ h 2 = s 1 s k Σ h 3 = s 1 s k ( p ( y 3 ∣ h 3 ) p ( y 2 ∣ h 2 ) p ( y 1 ∣ h 1 ) p ( h 3 ∣ h 2 ) p ( h 2 ∣ h 1 ) p ( h 1 ) ) p(y_1, y_2, y_3)=\Sigma_{h_1=s_1}^{s_k} \Sigma_{h_2=s_1}^{s_k} \Sigma_{h_3=s_1}^{s_k} \bigg ( p(y_3|h_3) \quad p(y_2|h_2) \quad p(y_1|h_1) \quad p(h_3|h_2) \quad p(h_2|h_1) \quad p(h_1) \bigg) p(y1,y2,y3)=Σh1=s1skΣh2=s1skΣh3=s1sk(p(y3h3)p(y2h2)p(y1h1)p(h3h2)p(h2h1)p(h1));这里每一项都是hmm已知的;
在这里插入图片描述

垃圾箱:
p ( y 1 , y 2 ) = Σ h 1 = q 1 q k Σ h 2 = q 1 q k p ( y 1 ( h 1 , h 2 ) , y 2 ( h 1 , h 2 ) , h 1 , h 2 ) p(y_1, y_2)=\Sigma_{h_1=q_1}^{q_k} \Sigma_{h_2=q_1}^{q_k} p(y_1(h_1,h_2), y_2(h_1,h_2), h_1,h_2) p(y1,y2)=Σh1=q1qkΣh2=q1qkp(y1(h1,h2),y2(h1,h2),h1,h2); 忽略
p ( y 1 , y 2 ) = Σ h 1 = q 1 q k Σ h 2 = q 1 q k ( p ( y 1 , y 2 ∣ h 1 , h 2 ) p ( h 1 , h 2 ) ) p(y_1, y_2)=\Sigma_{h_1=q_1}^{q_k} \Sigma_{h_2=q_1}^{q_k} ( p(y_1, y_2|h_1,h_2) p(h_1,h_2) ) p(y1,y2)=Σh1=q1qkΣh2=q1qk(p(y1,y2h1,h2)p(h1,h2)); 忽略
p ( y 1 , y 2 ) = Σ h 1 = q 1 q k p ( y 1 , y 2 ∣ h 1 ) p ( h 1 ) p(y_1, y_2)=\Sigma_{h_1=q_1}^{q_k} p(y_1, y_2|h_1)p( h_1) p(y1,y2)=Σh1=q1qkp(y1,y2h1)p(h1); 忽略

那么 请问 p ( y ∣ θ ) p(y|\theta) p(yθ) 也是相当于 p ( y ( θ ) ) p(y(\theta)) p(y(θ)) 吗?

问: p ( y ∣ θ ) p(y|\theta) p(yθ) 也是相当于 p ( y ( θ ) ) p(y(\theta)) p(y(θ))
答: 是

目前所知道的 :

在 训练一个概率模型 的 过程中, 模型的参数 θ \theta θ 是变化的 , 即 θ \theta θ是变量 ,此时 p ( y ∣ θ ) p(y|\theta) p(yθ) 有讨论价值 。 p ( y ∣ θ ) p(y|\theta) p(yθ) 相当于 p ( y ( θ ) ) p(y(\theta)) p(y(θ))
即在训练过程中, p ( y ∣ θ ) p(y|\theta) p(yθ) 相当于 p ( y ( θ ) ) p(y(\theta)) p(y(θ)) 且 其中的 θ \theta θ不可省略 (因 θ \theta θ是变量)

当 模型训练完后 使用该模型 时, θ \theta θ 是 不变的,即 θ \theta θ是常量, 此时 p ( y ∣ θ ) p(y|\theta) p(yθ) 也相当于 p ( y ( θ ) ) p(y(\theta)) p(y(θ))。 很显然 y ( θ ) y(\theta) y(θ)中的 θ \theta θ是自变量,而此时该自变量 θ \theta θ是不变的 因此 该自变量 θ \theta θ可以省略。
即在验证或测试过程中, p ( y ∣ θ ) p(y|\theta) p(yθ) 也相当于 p ( y ( θ ) ) p(y(\theta)) p(y(θ)) 但 其中的 θ \theta θ可省略 (因 θ \theta θ是常量)


http://chatgpt.dhexx.cn/article/EmP7Yqe9.shtml

相关文章

【算法】狄利克雷过程 (Dirichlet过程)

本小节是层次狄利克雷过程的笔记。 狄利克雷混合模型DPMM是一种可以自动确定聚类类别数量的聚类方法。 狄利克雷过程DP是“分布的分布”,由2个参数和确定,即。其中是分布参数,值越大,分布越接近于均匀分布,值越小&am…

吴恩达机器学习讲义_悉尼科大徐亦达教授:1000+页机器学习讲义,32 份主题推介...

新智元推荐 来源:专知(ID:Quan_Zhuanzhi) 【新智元导读】悉尼科大徐亦达教授机器学习讲义,总共涵盖 32 个主题,1000页讲义,包括Softmax算法、传统GAN,W-GAN数学,贝叶斯GAN, 蒙托卡罗树搜索,alphaGo学习算…

首发:徐亦达老师的机器学习课件及下载(中文目录)

徐亦达教授在github公布了他的历年机器学习相关课件、视频,黄海广博士协助徐亦达老师对课件目录进行翻译和整理,并提供下载。 徐亦达老师简介 徐亦达,现任悉尼科技大学教授,UTS全球数据技术中心机器学习和数据分析实验室主任。主要…

【资源】首发:徐亦达老师的机器学习课件及下载(中文目录)

徐亦达教授在github公布了他的历年机器学习相关课件、视频,黄海广博士协助徐亦达老师对课件目录进行翻译和整理,并提供下载。 徐亦达老师简介 徐亦达,现任悉尼科技大学教授,UTS全球数据技术中心机器学习和数据分析实验室主任。主要…

徐亦达 概率模型学习 : gmm

单高斯分布 MLE posterior 正比例于 likelihood * prior p ( θ ∣ x ) ∝ p ( x ∣ θ ) ∗ p ( θ ) p(\theta | x) \propto p(x|\theta) * p(\theta) p(θ∣x)∝p(x∣θ)∗p(θ) 参数 θ 的后验分布 ∝ 参数 θ 表示的 x 分布上已知样本有多大概率 ∗ 参数 θ 的先验分布…

首发:徐亦达教授团队最新发表的两篇机器学习论文

徐亦达团队在 Asian Conference on Machine Learning 的发表了两篇机器学习论文,本人得到徐老师授权在本站发布论文。 论文 1:Realistic Image Generation using Region-phrase Attention论文 2:Efficient Diversified Mini-Batch Selection …

隐马尔科夫模型(HMM)算法的理解与超详细推导

今天看了徐亦达教授的HMM讲解,感觉有所收获,并将隐马尔科夫模型算法的推导整理了一下,帮助大家一起理解这个算法。首先我们通过一个股票的案例来引入这个算法,我们来看看这个股票行情和涨跌观测值的一个状态图: 由图中…

python高级在线题目训练-第一套

单选 1、运行下列代码后,a的值为( C )。 myList "Hello World" a myList[3:8] A. llo W B. llo Wo C. lo Wo D. o Wor 2、下列代码的运行结果为( C )。 A.26,73,47,90, B.26,73,47,90 C.26,73,47,18, D.26,73,47,18 3、以下哪个选项可以创建一个范围…

DSP 投放的基本流程和算法

DSP 投放的基本流程和算法 DSP 在进行投放的时候通常按照如下流程: 步骤1:识别用户: DSP 系统通常会在广告展示的时候,同时放置一个检测点,这样当互联网用户第一次访问 广告主的网站时,就会种下一个cookie,这样DSP就可…

Go框架,库和软件的精选列表

2018最新精选的Go框架,库和软件的精选列表 一 https://awesome-go.com/ 2018最新精选的Go框架,库和软件的精选列表 二 https://awesome-go.com/ 2018最新精选的Go框架,库和软件的精选列表 三 https://awesome-go.com/ 2018最新精选的Go框架…

[Pyhon疫情大数据分析] 四.微博话题抓取及新冠肺炎疫情文本挖掘和情感分析

思来想去,虽然很忙,但还是挤时间针对这次肺炎疫情写个Python大数据分析系列博客,包括网络爬虫、可视化分析、GIS地图显示、情感分析、舆情分析、主题挖掘、威胁情报溯源、知识图谱、预测预警及AI和NLP应用等。希望该系列线上远程教学对您有所帮助,也希望早点战胜病毒,武汉…

大数据的常见业务问题和业务场景

概述 搜索引擎概述 桥梁——引导用户找到所求满足用户需求的过程连接人与内容、人与服务 爬虫:数据收集中心,互联网世界的缩影索引系统:分析整理爬虫收集到的资源,为检索系统提供数据检索系统:从预处理好的资源中挑选…

常用数据分析指标和术语

按照以下三类进行汇总。 1、互联网常用名词解释 2、统计学名词解释 3、数据分析名词解释 一、互联网常用名词解释 1、PV(Page View)页面浏览量 指某段时间内访问网站或某一页面的用户的总数量,通常用来衡量一篇文章或一次活动带来的流量…

GoogLeNet论文阅读,代码实现(Inception系列)

文章目录 GoogLeNet(Inception v1)个人理解总结本篇论文主相对于AlexNet和VGG有三处改进(不同)1、在inception块中引入了11卷积2、将第一层全连接层替换为global-averge-pooling3、利用inception近似稀疏数据结构4、引入辅助分类层 代码(GoogeLeNet结构实现&#xf…

“Python小屋”1300篇历史文章分类速查表

总体说明: 各分类中的文章是按发布时间逆序排列的,动态更新。公众号所有代码均可作为教学案例,转载请注明出处,请勿用作商业用途。 快速查找历史文章的方法:1)单击本文右上角的按钮“...”,然后…

100个数据分析常用指标和术语

大家好,我是辰哥~ 有个朋友是金融行业产品经理,最近在对已有的站内用户做分层与标签分类,需要对用户进行聚类分析。一般从事数据分析行业的朋友对这类词并不陌生,但是像市场运营人员就会把这类些名词概念搞混,导致结果…

TF使用例子-情感分类

北京站 | NVIDIA DLI深度学习培训 2018年1月26日 NVIDIA 深度学习学院 带你快速进入火热的DL领域 阅读全文 正文共10052个字,4张图,预计阅读时间26分钟。 这次改写一下,做一个简单的分类模型和探讨一下hidden layer在聚类的应用场景下会有什…

计算机视觉(五)

Bag of features,简称Bof,中文翻译为“词袋”,是一种用于图像或视频检索的技术。而检索就要进行比对。两幅不同的图像如何比对,比对什么,这就需要提炼出每幅图像中精练的东西出来进行比较。 一、Bag of features算法基…

Eastmount博客导读:专栏系统分类和博客归纳总结

为了更好地帮助博友学习作者的博客,方便作者自己归纳总结专栏,本文详细介绍了作者八年来,在CSDN写的各种专栏,各种系列文章。八年来,作者经历了从本科到硕士,到贵州教书成家,再到现在的博士。八…

Python编程实现用KNN算法对红酒分类功能

一、任务要求 导入红酒数据集(load_wine),编写Python代码,完成以下任务: 1、实现计算平均酒精含量的功能; 2、实现对数据的标准化; 3、使用kNN算法实现红酒分类功能 二、代码实现 from sklearn…