机器学习笔记之狄利克雷过程(二)基于标量参数作用的推导过程

article/2025/9/22 12:42:38

机器学习笔记之狄利克雷过程——基于标量参数作用的推导过程

  • 引言
    • 回顾:狄利克雷过程——基本介绍
    • 狄利克雷过程——定义
      • 小插曲:狄利克雷分布的简单性质
    • 关于标量参数作用的推导过程

引言

上一节以高斯混合模型为引,简单介绍了狄利克雷过程( Dirichlet Process,DP \text{Dirichlet Process,DP} Dirichlet Process,DP)。本节将通过公式推导描述标量参数 α \alpha α的作用。

回顾:狄利克雷过程——基本介绍

狄利克雷过程本质上是分布的分布。基于给定的样本集合 X = { x ( i ) } i = 1 N \mathcal X= \{x^{(i)}\}_{i=1}^N X={x(i)}i=1N,我们针对每个样本 x ( i ) ( i = 1 , 2 , ⋯ , N ) x^{(i)}(i=1,2,\cdots,N) x(i)(i=1,2,,N)构建一个对应参数 θ ( i ) ( i = 1 , 2 , ⋯ , N ) \theta^{(i)}(i=1,2,\cdots,N) θ(i)(i=1,2,,N)。对应的参数集合 θ \theta θ为:
θ = { θ ( i ) } i = 1 N \theta = \{\theta^{(i)}\}_{i=1}^N θ={θ(i)}i=1N
关于狄利克雷过程,它的表达形式表示如下:
G ∼ DP [ α , H ( θ ) ] \mathcal G \sim \text{DP}[\alpha,\mathcal H(\theta)] GDP[α,H(θ)]
其中 G \mathcal G G狄利克雷过程产生的样本结果,本身是一个离散分布( Discrete Distribution \text{Discrete Distribution} Discrete Distribution); H ( θ ) \mathcal H(\theta) H(θ)表示关于参数集合 θ \theta θ概率分布 α \alpha α则是一个调整分布结果 G \mathcal G G离散程度的标量参数,且 α > 0 \alpha > 0 α>0

关于标量参数 α \alpha α

  • α = 0 \alpha = 0 α=0时,此时的离散分布 G \mathcal G G极度离散,无论如何随机采样,只能映射唯一的离散结果
  • α = ∞ \alpha = \infty α=时,此时离散分布 G \mathcal G G在采样过程中,可能存在无穷多种离散结果提供选择,并且每种选择均存在对应的概率值。此时的 G = H ( θ ) \mathcal G = \mathcal H(\theta) G=H(θ)

下面会用公式推导的方式对上述两种情况进行描述。

狄利克雷过程——定义

根据上面的描述,如果分布 G \mathcal G G是一个优秀的离散分布,那么从分布 G \mathcal G G中产生的样本 θ ( i ) , θ ( j ) ( i , j ∈ { 1 , 2 , ⋯ , N } ; i ≠ j ) \theta^{(i)},\theta^{(j)}(i,j \in \{1,2,\cdots,N\};i \neq j) θ(i),θ(j)(i,j{1,2,,N};i=j)必然存在 θ ( i ) = θ ( j ) \theta^{(i)} = \theta^{(j)} θ(i)=θ(j)的情况发生。
也就是说, θ ( i ) = θ ( j ) \theta^{(i)} = \theta^{(j)} θ(i)=θ(j)意味着 x ( i ) , x ( j ) x^{(i)},x^{(j)} x(i),x(j)均指向了同一聚类信息。

此时,将不同结果的 θ ( i ) \theta^{(i)} θ(i)收集起来,其结果数量必然 < N <N <N θ \theta θ结果相同对应的样本子集 X θ \mathcal X_{\theta} Xθ自然就聚类在一起,实现聚类数量 K < N \mathcal K < N K<N的情况。
关于高斯混合模型的示例,详见狄利克雷过程——基本介绍

重新观察狄利克雷过程 DP ( α , H ) \text{DP}(\alpha,\mathcal H) DP(α,H),关于 θ \theta θ的概率分布 H ( θ ) \mathcal H(\theta) H(θ)被称作基本测度( Base Measure \text{Base Measure} Base Measure)。从采样的角度观察狄利克雷过程与高斯混合模型,观察它们之间的区别:
作为区分,将 ϕ \phi ϕ作为高斯混合模型概率密度函数的参数。
{ G ∼ DP ( α , H ) x ( j ) ∼ P ( X ; ϕ ) \begin{cases} \mathcal G \sim \text{DP}(\alpha,\mathcal H) \\ x^{(j)} \sim \mathcal P(\mathcal X;\phi) \end{cases} {GDP(α,H)x(j)P(X;ϕ)

能够发现:

  • 高斯混合模型中采样得到的结果是一个样本空间中的样本点

  • 狄利克雷过程中采样得到的结果是一个完整分布,是一个随机离散型概率测度( Random Discrete Probability Measure \text{Random Discrete Probability Measure} Random Discrete Probability Measure)。

    假设 G ( i ) \mathcal G^{(i)} G(i)是从 DP ( α , H ) \text{DP}(\alpha,\mathcal H) DP(α,H)中采样得到的一个样本,那么离散分布 G ( i ) \mathcal G^{(i)} G(i)表示为如下形式:
    这里假设 G ( i ) \mathcal G^{(i)} G(i)是一个一维的分布
    G ( i ) = ( g 1 ( i ) , g 2 ( i ) , ⋯ , g K ( i ) ) ∑ k = 1 K g k ( i ) = 1 \mathcal G^{(i)} = \left(g_1^{(i)},g_2^{(i)},\cdots,g_{\mathcal K}^{(i)}\right) \quad \sum_{k=1}^{\mathcal K} g_k^{(i)} = 1 G(i)=(g1(i),g2(i),,gK(i))k=1Kgk(i)=1
    其中 g k ( i ) ( k ∈ { 1 , 2 , ⋯ , K } ) g_k^{(i)}(k \in \{1,2,\cdots,\mathcal K\}) gk(i)(k{1,2,,K})表示编号 k k k离散结果的权重/概率信息。即便 α \alpha α取值相同( α s a m e \alpha_{same} αsame),对应产生的随机离散分布 G ( i ) , G ( j ) ( i ≠ j ; G ( i ) , G ( j ) ∼ DP ( α s a m e , H ) ) \mathcal G^{(i)},\mathcal G^{(j)}(i \neq j;\mathcal G^{(i)},\mathcal G^{(j)}\sim \text{DP}(\alpha_{same},\mathcal H)) G(i),G(j)(i=j;G(i),G(j)DP(αsame,H))也不相同,它们可能很相似
    因而采样结果 G ( i ) \mathcal G^{(i)} G(i)也被称作‘随机测度’ ( Random Measure ) (\text{Random Measure}) (Random Measure)

    如果一维的随机离散分布 G ( i ) \mathcal G^{(i)} G(i)表示如下:
    请添加图片描述
    观察该图像:

  • 图像中的竖线表示离散分布 G ( i ) \mathcal G^{(i)} G(i)内对应的 K \mathcal K K个离散结果的权重/概率信息。竖线越长,选择该离散结果的概率越大;

  • 最上面的弧线表示 H ( θ ) \mathcal H(\theta) H(θ)的概率分布,而 G ( i ) \mathcal G^{(i)} G(i)仅仅是基于 H ( θ ) \mathcal H(\theta) H(θ),给定 α \alpha α条件下的一个随机离散测度样本

  • 将该随机离散分布结果划分成 D \mathcal D D个区域: { a 1 , a 2 , ⋯ , a D } \{a_1,a_2,\cdots,a_{\mathcal D}\} {a1,a2,,aD},每个区域内包含若干个权重结果。将这些权重结果的作为该区域的权重信息。记作 G ( i ) ( a d ) \mathcal G^{(i)}(a_d) G(i)(ad)
    G ( i ) ( a d ) = ∑ g k ( i ) ∈ a d g k ( i ) \mathcal G^{(i)}(a_d) = \sum_{g_k^{(i)} \in a_d} g_k^{(i)} G(i)(ad)=gk(i)adgk(i)
    至此,将 G ( i ) \mathcal G^{(i)} G(i)中的 K \mathcal K K权重结果划分为 D \mathcal D D个区域,并得到 D \mathcal D D个区域的权重信息:
    G ( i ) ( a 1 ) , G ( i ) ( a 2 ) , ⋯ , G ( i ) ( a D ) ∑ d = 1 D G ( i ) ( a d ) = 1 \mathcal G^{(i)}(a_1),\mathcal G^{(i)}(a_2),\cdots,\mathcal G^{(i)}(a_{\mathcal D}) \quad \sum_{d=1}^{\mathcal D} \mathcal G^{(i)}(a_d) = 1 G(i)(a1),G(i)(a2),,G(i)(aD)d=1DG(i)(ad)=1
    虽然被划分成了 D \mathcal D D区域,但每个区域的权重信息 G ( i ) ( a d ) ( d ∈ { 1 , 2 , ⋯ , D } ) \mathcal G^{(i)}(a_d)(d \in \{1,2,\cdots,\mathcal D\}) G(i)(ad)(d{1,2,,D})依然是一个随机变量,并且 G ( i ) ( a 1 ) , G ( i ) ( a 2 ) , ⋯ , G ( i ) ( a D ) \mathcal G^{(i)}(a_1),\mathcal G^{(i)}(a_2),\cdots,\mathcal G^{(i)}(a_{\mathcal D}) G(i)(a1),G(i)(a2),,G(i)(aD)同样是一个离散的概率分布。那么该分布需要服从的概率性质狄利克雷分布( Dirichlet Distribution \text{Dirichlet Distribution} Dirichlet Distribution)
    [ G ( i ) ( a 1 ) , G ( i ) ( a 2 ) , ⋯ , G ( i ) ( a D ) ] ∼ Dir [ α H ( a 1 ) , α H ( a 2 ) , ⋯ , α H ( a D ) ] [\mathcal G^{(i)}(a_1),\mathcal G^{(i)}(a_2),\cdots,\mathcal G^{(i)}(a_{\mathcal D})] \sim \text{Dir} \left[\alpha \mathcal H(a_1),\alpha \mathcal H(a_2),\cdots,\alpha \mathcal H(a_{\mathcal D})\right] [G(i)(a1),G(i)(a2),,G(i)(aD)]Dir[αH(a1),αH(a2),,αH(aD)]
    其中 H ( a j ) ( j ∈ { 1 , 2 , ⋯ , D } ) \mathcal H(a_j)(j \in \{1,2,\cdots,\mathcal D\}) H(aj)(j{1,2,,D})表示被划分的 a j a_j aj区域中的基本测度 α \alpha α H ( a j ) \mathcal H(a_j) H(aj)乘积 α H ( a j ) \alpha\mathcal H(a_j) αH(aj)(标量)表示狄利克雷分布 a j a_j aj区域中的参数信息。

小插曲:狄利克雷分布的简单性质

假设随机变量集合 X \mathcal X X包含 p p p随机变量 X ∈ R p \mathcal X \in \mathbb R^p XRp,并且概率分布 P ( X ) = P ( x 1 , x 2 , ⋯ , x p ) \mathcal P(\mathcal X) = \mathcal P(x_1,x_2,\cdots,x_p) P(X)=P(x1,x2,,xp)服从狄利克雷分布
P ( x 1 , x 2 , ⋯ , x p ) ∼ Dir ( α 1 , α 2 , ⋯ , α p ) \mathcal P(x_1,x_2,\cdots,x_p) \sim \text{Dir}(\alpha_1,\alpha_2,\cdots,\alpha_p) P(x1,x2,,xp)Dir(α1,α2,,αp)
其中 α i ( i = 1 , 2 , ⋯ , p ) \alpha_i(i=1,2,\cdots,p) αi(i=1,2,,p)表示各随机变量 x i ( i = 1 , 2 , ⋯ , p ) x_i(i=1,2,\cdots,p) xi(i=1,2,,p)对应的参数。关于随机变量 x i x_i xi期望结果 E [ x i ] \mathbb E[x_i] E[xi]方差结果 Var [ x i ] \text{Var}[x_i] Var[xi]分别表示为:
{ E [ x i ] = α i ∑ k = 1 p α k Var [ x i ] = α i ⋅ ( ∑ k = 1 p α k − α i ) ( ∑ k = 1 p α k ) 2 ⋅ ( 1 + ∑ k = 1 p α k ) \begin{cases} \begin{aligned} \mathbb E[x_i] & = \frac{\alpha_i}{\sum_{k=1}^p \alpha_k} \\ \text{Var}[x_i] & = \frac{\alpha_i \cdot \left(\sum_{k=1}^p \alpha_k - \alpha_i\right)}{\left(\sum_{k=1}^p \alpha_k\right)^2 \cdot \left(1 + \sum_{k=1}^p \alpha_k\right)} \end{aligned} \end{cases} E[xi]Var[xi]=k=1pαkαi=(k=1pαk)2(1+k=1pαk)αi(k=1pαkαi)

关于标量参数作用的推导过程

终上,简单总结狄利克雷过程的定义:

  • 某一随机离散测度样本 G ( i ) \mathcal G^{(i)} G(i)服从标量参数 α \alpha α基本测度分布 H \mathcal H H的狄利克雷分布:
    G ( i ) ∼ DP ( α , H ) \mathcal G^{(i)} \sim \text{DP}(\alpha,\mathcal H) G(i)DP(α,H)
  • 假设将该分布样本 G ( i ) = [ g 1 ( i ) , g 2 ( i ) , ⋯ , g K ( i ) ] T \mathcal G^{(i)} = [g_1^{(i)},g_2^{(i)},\cdots,g_{\mathcal K}^{(i)}]^T G(i)=[g1(i),g2(i),,gK(i)]T划分成 D \mathcal D D个区域 ( a 1 , a 2 , ⋯ , a D ) (a_1,a_2,\cdots,a_{\mathcal D}) (a1,a2,,aD),并将每个区域中的权重信息求和,从而构成的新的分布
    [ g 1 ( i ) , g 2 ( i ) , ⋯ , g K ( i ) ] T ⏟ Old Distribution ⇒ [ G ( i ) ( a 1 ) , G ( i ) ( a 2 ) , ⋯ , G ( i ) ( a D ) ] T ⏟ New Distribution \underbrace{[g_1^{(i)},g_2^{(i)},\cdots,g_{\mathcal K}^{(i)}]^T}_{\text{Old Distribution}} \Rightarrow \underbrace{[\mathcal G^{(i)}(a_1),\mathcal G^{(i)}(a_2),\cdots,\mathcal G^{(i)}(a_{\mathcal D})]^T}_{\text{New Distribution}} Old Distribution [g1(i),g2(i),,gK(i)]TNew Distribution [G(i)(a1),G(i)(a2),,G(i)(aD)]T
  • 这个新分布服从对应参数 α ⋅ H ( a d ) \alpha \cdot \mathcal H(a_d) αH(ad)狄利克雷分布
    [ G ( i ) ( a 1 ) , G ( i ) ( a 2 ) , ⋯ , G ( i ) ( a D ) ] ∼ Dir [ α H ( a 1 ) , α H ( a 2 ) , ⋯ , α H ( a D ) ] [\mathcal G^{(i)}(a_1),\mathcal G^{(i)}(a_2),\cdots,\mathcal G^{(i)}(a_{\mathcal D})] \sim \text{Dir} \left[\alpha \mathcal H(a_1),\alpha \mathcal H(a_2),\cdots,\alpha \mathcal H(a_{\mathcal D})\right] [G(i)(a1),G(i)(a2),,G(i)(aD)]Dir[αH(a1),αH(a2),,αH(aD)]

此时的随机变量 G ( i ) ( a d ) ( d = 1 , 2 , ⋯ , D ) \mathcal G^{(i)}(a_d)(d=1,2,\cdots,\mathcal D) G(i)(ad)(d=1,2,,D),计算该随机变量的期望和方差结果:

  • 其中 α \alpha α是标量,并且不含 d d d,可将其提到 ∑ d = 1 D \sum_{d=1}^{\mathcal D} d=1D前面.
  • 并且 ∑ d = 1 D H ( a d ) = 1 \sum_{d=1}^{\mathcal D} \mathcal H(a_d) = 1 d=1DH(ad)=1是已知项。
    E [ G ( i ) ( a d ) ] = α H ( a d ) ∑ d = 1 D α H ( a d ) = α H ( a d ) α ∑ d = 1 D H ( a d ) = H ( a d ) \begin{aligned} \mathbb E[\mathcal G^{(i)}(a_d)] & = \frac{\alpha \mathcal H(a_d)}{\sum_{d=1}^{\mathcal D} \alpha \mathcal H(a_d)} \\ & = \frac{\alpha \mathcal H(a_d)}{\alpha \sum_{d=1}^{\mathcal D} \mathcal H(a_d)} \\ & = \mathcal H(a_d) \end{aligned} E[G(i)(ad)]=d=1DαH(ad)αH(ad)=αd=1DH(ad)αH(ad)=H(ad)

可以发现,分布样本 G ( i ) \mathcal G^{(i)} G(i) a d a_d ad划分区域中的期望结果就是区域 a d a_d ad基本测度;并且这个期望结果 E [ G ( i ) ( a d ) ] \mathbb E[\mathcal G^{(i)}(a_d)] E[G(i)(ad)]标量参数 α \alpha α无关
仅需要将‘基本测度’ H \mathcal H H看成一个概率密度函数(输出的是概率结果), H ( a d ) = H [ ∑ g k ( i ) ∈ a d g k ( i ) ] \mathcal H(a_d) = \mathcal H \left[\sum_{g_k^{(i)} \in a_d} g_k^{(i)}\right] H(ad)=H[gk(i)adgk(i)].

继续观察它的方差结果 Var [ G ( i ) ( a d ) ] \text{Var}\left[\mathcal G^{(i)}(a_d)\right] Var[G(i)(ad)]
套公式~
Var [ G ( i ) ( a d ) ] = α H ( a d ) ⋅ [ α ⋅ ∑ d = 1 D H ( a d ) − α H ( a d ) ] [ α ⋅ ∑ d = 1 D H ( a d ) ] 2 ⋅ [ α ⋅ ∑ d = 1 D H ( a d ) + 1 ] = α H ( a d ) ⋅ [ α − α H ( a d ) ] α 2 ⋅ ( α + 1 ) = H ( a d ) [ 1 − H ( a d ) ] α + 1 \begin{aligned} \text{Var}\left[\mathcal G^{(i)}(a_d)\right] & = \frac{\alpha \mathcal H(a_d) \cdot \left[\alpha \cdot \sum_{d=1}^{\mathcal D} \mathcal H(a_d) - \alpha \mathcal H(a_d)\right]}{\left[\alpha \cdot \sum_{d=1}^{\mathcal D} \mathcal H(a_d)\right]^2 \cdot \left[\alpha \cdot \sum_{d=1}^{\mathcal D} \mathcal H(a_d) + 1 \right]} \\ & = \frac{\alpha \mathcal H(a_d) \cdot \left[\alpha - \alpha \mathcal H(a_d)\right]}{\alpha^2 \cdot \left(\alpha + 1 \right)} \\ & = \frac{\mathcal H(a_d) [1 - \mathcal H(a_d)]}{\alpha + 1} \end{aligned} Var[G(i)(ad)]=[αd=1DH(ad)]2[αd=1DH(ad)+1]αH(ad)[αd=1DH(ad)αH(ad)]=α2(α+1)αH(ad)[ααH(ad)]=α+1H(ad)[1H(ad)]

  • 首先观察当 标量参数 α → ∞ \alpha \to \infty α 的情况下,此时无论是哪个区域 a d ( d = 1 , 2 , ⋯ , D ) a_d(d=1,2,\cdots,\mathcal D) ad(d=1,2,,D),它对应 G ( i ) ( a d ) \mathcal G^{(i)}(a_d) G(i)(ad)的方差结果均为 0 0 0,这意味着任意区域下下的随机测度 G ( i ) ( a d ) \mathcal G^{(i)}(a_d) G(i)(ad)均不存在方差噪声。它精准地等于 a d a_d ad区域的基本测度 H ( a d ) \mathcal H(a_d) H(ad)
    即没有方差噪声地、精确地指向了期望的位置。
    Var [ G ( i ) ( a d ) ] = 0 ⇔ G ( i ) ( a d ) = H ( a d ) \text{Var} \left[\mathcal G^{(i)}(a_d)\right] = 0 \Leftrightarrow \mathcal G^{(i)}(a_d) = \mathcal H(a_d) Var[G(i)(ad)]=0G(i)(ad)=H(ad)

  • 相反,当 标量参数 α = 0 \alpha = 0 α=0 的情况下, Var [ G ( i ) ( a d ) ] = H ( a d ) [ 1 − H ( a d ) ] \text{Var} \left[\mathcal G^{(i)}(a_d)\right] = \mathcal H(a_d) [1 - \mathcal H(a_d)] Var[G(i)(ad)]=H(ad)[1H(ad)]。此时该方差是伯努利分布的方差结果。这意味着随机测度 G ( i ) ( a d ) \mathcal G^{(i)}(a_d) G(i)(ad)服从伯努利分布。

    伯努利分布就是最简单的离散分布描述。当 α = 0 \alpha = 0 α=0时,关于随机测度 G ( i ) \mathcal G^{(i)} G(i)内部某个权重 g k ( i ) g_k^{(i)} gk(i)某一区域 a d a_d ad之间只有两种描述情况:

    • g k ( i ) g_k^{(i)} gk(i)属于 a d a_d ad区域中的权重信息;
    • g k ( i ) g_k^{(i)} gk(i)不属于 a d a_d ad区域中的权重信息;

下一节将从随机测度 G ( i ) \mathcal G^{(i)} G(i)生成过程的角度观察标量参数与分布离散程度的关系

相关参考:
徐亦达机器学习:Dirichlet-Process-part 2


http://chatgpt.dhexx.cn/article/UqpVB1nT.shtml

相关文章

首发:徐亦达团队新论文推荐(ECCV2020):端到端多人多视角3d动态匹配网络

徐亦达团队在ECCV2020上发表了一篇机器学习论文 End-to-end Dynamic Matching Network for Multi-view Multi-person 3d Pose Estimation&#xff08;端到端多人多视角3d动态匹配网络&#xff09; 论文第一作者&#xff1a;黄聪臻韬&#xff0c;本科就读于中国科学技术大学-计算…

独作论文登数学顶刊,浙大女神校友再被提起:32岁在贵州深山投稿,一家出两位院士...

明敏 詹士 发自 凹非寺量子位 | 公众号 QbitAI 最近&#xff0c;华科副研究员以独作身份投中数学顶刊的消息&#xff0c;震惊国内数学圈。 毕竟Acta Mathematica号称是世界上最难投中的数学期刊之一&#xff0c;能拿下此成就的动辄都是院士级人物…… 不过&#xff0c;纵览中国…

【华人学者风采】陈积明 浙江大学

【华人学者风采】陈积明&#xff0c;浙江大学控制科学与工程学院教授&#xff0c;博士生导师。研究领域包括网络优化与控制&#xff0c;数据智能与工业互联网&#xff0c;控制系统安全等。2000和2005年在浙江大学分别获学士和博士学位。2008-2010在加拿大滑铁卢大学访问。历任浙…

学习笔记:徐亦达机器学习:Kalman Filter 卡尔曼滤波——后续推导及代码分析

在开始这个博客之前&#xff0c;首先要感谢一下徐老师。该博客是在观看视频https://www.bilibili.com/video/av24225243/?p1之后&#xff0c;自己的读书笔记。 言归正传&#xff0c;该博文里面的所有符号体系都是徐老师所用的符号&#xff0c;在此记录一下徐老师最后留下的作…

徐亦达 概率模型学习 : hmm

引出&#xff1a; 条件概率 理解为 一对应无限 的函数 上的一个自变量点的情况 p ( x ∣ y ) p(x|y) p(x∣y)是有多种解释的 或者 是隐含了具体应用情况的&#xff0c; 以下内容大概在说: 条件概率 p ( x ∣ y ) p(x|y) p(x∣y) 是 一对应无限映射x(y) 的 一种数学定量描述办法…

【算法】狄利克雷过程 (Dirichlet过程)

本小节是层次狄利克雷过程的笔记。 狄利克雷混合模型DPMM是一种可以自动确定聚类类别数量的聚类方法。 狄利克雷过程DP是“分布的分布”&#xff0c;由2个参数和确定&#xff0c;即。其中是分布参数&#xff0c;值越大&#xff0c;分布越接近于均匀分布&#xff0c;值越小&am…

吴恩达机器学习讲义_悉尼科大徐亦达教授:1000+页机器学习讲义,32 份主题推介...

新智元推荐 来源&#xff1a;专知(ID:Quan_Zhuanzhi) 【新智元导读】悉尼科大徐亦达教授机器学习讲义&#xff0c;总共涵盖 32 个主题,1000页讲义&#xff0c;包括Softmax算法、传统GAN&#xff0c;W-GAN数学&#xff0c;贝叶斯GAN, 蒙托卡罗树搜索&#xff0c;alphaGo学习算…

首发:徐亦达老师的机器学习课件及下载(中文目录)

徐亦达教授在github公布了他的历年机器学习相关课件、视频&#xff0c;黄海广博士协助徐亦达老师对课件目录进行翻译和整理&#xff0c;并提供下载。 徐亦达老师简介 徐亦达&#xff0c;现任悉尼科技大学教授&#xff0c;UTS全球数据技术中心机器学习和数据分析实验室主任。主要…

【资源】首发:徐亦达老师的机器学习课件及下载(中文目录)

徐亦达教授在github公布了他的历年机器学习相关课件、视频&#xff0c;黄海广博士协助徐亦达老师对课件目录进行翻译和整理&#xff0c;并提供下载。 徐亦达老师简介 徐亦达&#xff0c;现任悉尼科技大学教授&#xff0c;UTS全球数据技术中心机器学习和数据分析实验室主任。主要…

徐亦达 概率模型学习 : gmm

单高斯分布 MLE posterior 正比例于 likelihood * prior p ( θ ∣ x ) ∝ p ( x ∣ θ ) ∗ p ( θ ) p(\theta | x) \propto p(x|\theta) * p(\theta) p(θ∣x)∝p(x∣θ)∗p(θ) 参数 θ 的后验分布 ∝ 参数 θ 表示的 x 分布上已知样本有多大概率 ∗ 参数 θ 的先验分布…

首发:徐亦达教授团队最新发表的两篇机器学习论文

徐亦达团队在 Asian Conference on Machine Learning 的发表了两篇机器学习论文&#xff0c;本人得到徐老师授权在本站发布论文。 论文 1&#xff1a;Realistic Image Generation using Region-phrase Attention论文 2&#xff1a;Efficient Diversified Mini-Batch Selection …

隐马尔科夫模型(HMM)算法的理解与超详细推导

今天看了徐亦达教授的HMM讲解&#xff0c;感觉有所收获&#xff0c;并将隐马尔科夫模型算法的推导整理了一下&#xff0c;帮助大家一起理解这个算法。首先我们通过一个股票的案例来引入这个算法&#xff0c;我们来看看这个股票行情和涨跌观测值的一个状态图&#xff1a; 由图中…

python高级在线题目训练-第一套

单选 1、运行下列代码后&#xff0c;a的值为( C )。 myList "Hello World" a myList[3:8] A. llo W B. llo Wo C. lo Wo D. o Wor 2、下列代码的运行结果为( C )。 A.26,73,47,90, B.26,73,47,90 C.26,73,47,18, D.26,73,47,18 3、以下哪个选项可以创建一个范围…

DSP 投放的基本流程和算法

DSP 投放的基本流程和算法 DSP 在进行投放的时候通常按照如下流程&#xff1a; 步骤1:识别用户: DSP 系统通常会在广告展示的时候&#xff0c;同时放置一个检测点&#xff0c;这样当互联网用户第一次访问 广告主的网站时&#xff0c;就会种下一个cookie&#xff0c;这样DSP就可…

Go框架,库和软件的精选列表

2018最新精选的Go框架&#xff0c;库和软件的精选列表 一 https://awesome-go.com/ 2018最新精选的Go框架&#xff0c;库和软件的精选列表 二 https://awesome-go.com/ 2018最新精选的Go框架&#xff0c;库和软件的精选列表 三 https://awesome-go.com/ 2018最新精选的Go框架…

[Pyhon疫情大数据分析] 四.微博话题抓取及新冠肺炎疫情文本挖掘和情感分析

思来想去,虽然很忙,但还是挤时间针对这次肺炎疫情写个Python大数据分析系列博客,包括网络爬虫、可视化分析、GIS地图显示、情感分析、舆情分析、主题挖掘、威胁情报溯源、知识图谱、预测预警及AI和NLP应用等。希望该系列线上远程教学对您有所帮助,也希望早点战胜病毒,武汉…

大数据的常见业务问题和业务场景

概述 搜索引擎概述 桥梁——引导用户找到所求满足用户需求的过程连接人与内容、人与服务 爬虫&#xff1a;数据收集中心&#xff0c;互联网世界的缩影索引系统&#xff1a;分析整理爬虫收集到的资源&#xff0c;为检索系统提供数据检索系统&#xff1a;从预处理好的资源中挑选…

常用数据分析指标和术语

按照以下三类进行汇总。 1、互联网常用名词解释 2、统计学名词解释 3、数据分析名词解释 一、互联网常用名词解释 1、PV&#xff08;Page View&#xff09;页面浏览量 指某段时间内访问网站或某一页面的用户的总数量&#xff0c;通常用来衡量一篇文章或一次活动带来的流量…

GoogLeNet论文阅读,代码实现(Inception系列)

文章目录 GoogLeNet(Inception v1)个人理解总结本篇论文主相对于AlexNet和VGG有三处改进(不同)1、在inception块中引入了11卷积2、将第一层全连接层替换为global-averge-pooling3、利用inception近似稀疏数据结构4、引入辅助分类层 代码&#xff08;GoogeLeNet结构实现&#xf…