混合模型简介与高斯混合模型

article/2025/10/12 5:57:36

高斯混合模型

混合模型概述

In statistics, a mixture model is a probabilistic model for representing the presence of subpopulations within an overall population, without requiring that an observed data set should identify the sub-population to which an individual observation belongs. Formally a mixture model corresponds to the mixture distribution that represents the probability distribution of observations in the overall population. However, while problems associated with “mixture distributions” relate to deriving the properties of the overall population from those of the sub-populations, “mixture models” are used to make statistical inferences about the properties of the sub-populations given only observations on the pooled population, without sub-population identity information.

从统计学角度来说,一个混合模型就是一种概率模型,用于表示总体当中子总体的存在,而不需要观测数据集识别出这个观测数据属于哪一个子总体(子分布)。
形式上讲,对应混合分布的一个混合模型,就代表了这个总体的概率密度分布。然而,但需要从子总体的性质推导总体的一些性质时,混合模型能够直接根据总体池的观测值来对子总体的特性进行统计推断,而不需要知道他们的归属信息(属于哪一个子总体)。

Mixture Model Structure

A typical finite-dimensional mixture model is a hierarchical model consisting of the following components:

  • N random variables that are observed, each distributed according to a mixture of K components, with the components belonging to the same parametric family of distributions (e.g., all normal, all Zipfian, etc.) but with different parameters
  • N random latent variables specifying the identity of the mixture component of each observation, each distributed according to a K-dimensional categorical distribution
  • A set of K mixture weights, which are probabilities that sum to 1.
  • A set of K parameters, each specifying the parameter of the corresponding mixture component. In many cases, each “parameter” is actually a set of parameters. For example, if the mixture components are Gaussian distributions, there will be a mean and variance for each component. If the mixture components are categorical distributions (e.g., when each observation is a token from a finite alphabet of size V), there will be a vector of V probabilities summing to 1.

In addition, in a Bayesian setting, the mixture weights and parameters will themselves be random variables, and prior distributions will be placed over the variables. In such a case, the weights are typically viewed as a K-dimensional random vector drawn from a Dirichlet distribution (the conjugate prior of the categorical distribution), and the parameters will be distributed according to their respective conjugate priors.

一个典型的有限维度的混合模型是一个分层的模型,有着如下的components:

  • N N N个被观测的随机变量random variables,每个随机变量都按 K K K个子分布(component)构成的混合模型而分布,这些子分布都属于同一类分布,但是具体的参数值不同。
  • N N N个隐变量latent variables,每一个隐变量都说明了对应的随机变量所属的子分布是哪一个。每一个隐变量都按 K K K维分类分布(即隐变量的取值只有 K K K个)
  • K K K个混合权重,每个混合权重指定了某个子分布所占的总体的权重。混合权重的和加起来应等于1.
  • K K K个参数组,每一个参数组都对应着一个子分布。如高斯混合模型中,每个参数组中的参数有均值和方差。

此外,在贝叶斯假设下,混合权重和参数组将本身就是随机变量,每个都会有一个先验分布。在这种情况下,混合权重可以被视为一个 K K K维的随机向量,由狄利克雷分布(分类分布的共轭先验)得出,而参数组将根据各自的先验共轭分布而分布。(关于先验概率与后验概率在这里不表。)

从数学角度出发,一个基础的参数化的混合模型可以被以下参数所描述:

Basic Mixture Model

参数解读:
K K K 表示mixture component的个数,即混合分布中子分布的个数。
N N N 表示被观测的随机变量的个数。
θ i = 1... K {\theta _{{\rm{i}} = 1...K}} θi=1...K表示第 i i i个子分布component的参数值。
ϕ i = 1... K {\phi _{{\rm{i}} = 1...K}} ϕi=1...K表示混合权重,即某个具体的子分布component的先验概率。
Φ \Phi Φ表示由 ϕ i = 1... K {\phi _{{\rm{i}} = 1...K}} ϕi=1...K组成的K维向量,和为1.
z i = 1... N {z _{{\rm{i}} = 1...N}} zi=1...N表示第 i i i个观测值所属的component(子分布)。
x i = 1... N {x _{{\rm{i}} = 1...N}} xi=1...N表示第 i i i个观测的随机变量。
F ( x ∣ θ ) F(x|\theta ) F(xθ)表示某个被观测的随机变量在参数组为 θ \theta θ下的概率分布。
z i = 1... N {z _{{\rm{i}} = 1...N}} zi=1...N服从以 Φ \Phi Φ为概率的分类分布(共 K K K类)。 即: z i = 1... N ∼ C a t e g o r i c a l ( Φ ) {z_{i = 1...N}} \sim Categorical(\Phi ) zi=1...NCategorical(Φ)
x i = 1... N ∣ z i = 1... N {x_{i = 1...N}}|{z_{i = 1...N}} xi=1...Nzi=1...N 服从 F ( θ z i ) F(\theta _{z_i} ) F(θzi),即随机变量 x i x_i xi服从其对应component(子分布) z i z_i zi的参数组 θ z i \theta _{z_i} θzi指定的概率分布。

注意:以上参数都是在不是在贝叶斯假设下的。

在贝叶斯假设下,所有参数都与随机变量相关,如下图:
Bayesian setting

参数解读:
K K K: 同上
N N N: 同上
θ i = 1... K \theta _{i=1...K} θi=1...K: 同上
ϕ i = 1... K \phi _{i=1...K} ϕi=1...K: 同上
Φ \Phi Φ: 同上
z i = 1... N z _{i=1...N} zi=1...N:同上
x i = 1... N x_{i=1...N} xi=1...N:同上
F ( x ∣ θ ) F(x|\theta) F(xθ):同上
α \alpha α:各子分布component参数的共用的超参数
β \beta β: 混合权重的共用的超参数
H ( θ ∣ α ) H(\theta|\alpha) H(θα): 子分布component参数的先验概率分布,基于参数 α \alpha α
θ i = 1... K \theta _{i=1...K} θi=1...K: 服从概率分布 H ( θ ∣ α ) H(\theta|\alpha) H(θα),即 θ i = 1... K ∼ H ( θ ∣ α ) \theta _ {i=1...K} \sim H(\theta|\alpha) θi=1...KH(θα)
Φ \Phi Φ: 服从 S y m m e t r i c − D i r i c h l e t K ( β ) Symmetric-Dirichlet _K(\beta) SymmetricDirichletK(β)分布。
z i = 1... N ∣ Φ z_{i=1...N}|\Phi zi=1...NΦ:服从 C a t e g o r i c a l ( ϕ ) Categorical(\phi) Categorical(ϕ),即以 Φ \Phi Φ为概率的分类分布。
x i = 1... N ∣ z i = 1... N , θ i = 1... K x_{i=1...N}|z_{i=1...N},\theta_{i=1...K} xi=1...Nzi=1...N,θi=1...K:服从 F ( θ z i ) F(\theta_{z_i}) F(θzi)的分布。

我们使用 F F F H H H来对观测值和参数进行任意描述。一般来说, H H H F F F的共轭先验。两个最常见的 F F F的选择是:高斯分布,即正态分布(对实值观测值),或者是分类分布(对离散观测值)。其他常见的可以作为混合组件的概率分布有:

  • 二项分布Binomial distribution: 对于某一事物总数固定,统计其positive occurrence。如投票等。
  • 多项分布Multinomial distribution: 类似于二项分布,不过事情的结果可能不止有两个。
  • 负二项分布Negative binomial distribution: 对于二项分布类型的观测值,感兴趣的是在某个给定的次数的positive结果出现前,negative结果出现的次数。
  • 泊松分布Poisson distribution:统计某一事件在给定时间内发生的次数,该事件具有固定的发生率。
  • 指数分布Exponential distribution:某个事件下一次出现所需要的的时间的分布,该事件具有固定的发生率。
  • 对数正态分布Log-normal distribution: 用于那些假定呈指数增长的正实数,如收入或者价格。
  • 多元正态分布Multivariate normal distribution:即多元高斯分布。结果向量的每一个分量都是一个高斯分布。
  • 多元t分布Multivariate Student's-t distribution:用于重尾相关结果的向量。
  • 伯努利分布值的向量,对应于例如黑白图像,每个值代表一个像素,可应用于手写识别。

非贝叶斯假设下的高斯混合模型

其各个参数为:
非贝叶斯假设下的高斯混合模型

对应上文很容易理解,不再赘述。
图示:

贝叶斯假设下的高斯混合模型

其各个参数为:
贝叶斯假设下的高斯混合模型

其中值得特殊说明的是:
μ 0 , λ , ν , σ 0 2 {\mu _0},\lambda ,\nu ,\sigma _0^2 μ0,λ,ν,σ02: 是 θ \theta θ μ \mu μ σ \sigma σ共享的超参数。
μ i = 1... K \mu_{i=1...K} μi=1...K μ i = 1... K ∼ N ( μ 0 , λ σ i 2 ) \mu_{i=1...K} \sim N(\mu_0,\lambda\sigma _i^2) μi=1...KN(μ0,λσi2),即参数 μ \mu μ服从以 m u 0 , λ σ i 2 mu_0,\lambda\sigma _i^2 mu0,λσi2为参数的高斯分布。
σ i = 1... K 2 \sigma_{i=1...K}^2 σi=1...K2 σ i = 1... K 2 ∼ I n v e r s e − G a m m a ( ν , σ 0 2 ) \sigma_{i=1...K}^2 \sim Inverse-Gamma(\nu,\sigma_0^2) σi=1...K2InverseGamma(ν,σ02)

多元高斯混合模型

一个贝叶斯高斯混合模型常常被推广去拟合未知的参数向量(下面用粗体表示),或者多元正态分布。在多元分布中(即对具有 N N N个随机变量的向量 x \bm{x} x),我们可以使用高斯混合模型的先验分布的矢量估计来对该 x \bm{x} x进行建模:

其中第 i i i个向量子分布component被权重为 ϕ i {\phi _i} ϕi,方差为 μ \bm{\mu} μ,协方差矩阵为 ∑ i \bm{\sum _i} i的正态分布所定义。为了将这个先验分布纳入贝叶斯估计,这个先验要与已知的分布 p ( x ∣ θ ) p(\bm{x}|\bm{\theta}) p(xθ)相乘,该分布是数据 x \bm{x} x在待估参数 θ \bm{\theta} θ上的分布。根据如上阐述,那么后验分布 p ( θ ∣ x ) p(\bm{\theta}|\bm{x}) p(θx)也是一个高斯混合分布:

p ( θ ∣ x ) = ∑ i = 1 K ϕ ~ i N ( μ ~ i , Σ ~ i ) p(\bm{\theta} |\bm{x}) = \sum\limits_{i = 1}^K {{{\tilde \phi }_i}N({\bm{\tilde \mu }_i},{\bm{\tilde \Sigma }_i})} p(θx)=i=1Kϕ~iN(μ~i,Σ~i)
其中的参数: ϕ ~ i {\tilde \phi }_i ϕ~i μ ~ i {\bm{\tilde \mu }_i} μ~i Σ ~ i {\bm{\tilde \Sigma }_i} Σ~i可以使用EM算法进行更新。虽然关于EM算法的参数更新已经很完善了,但是提供对这些参数的初始估计仍然是一个十分活跃的研究领域。必须说明的是,该公式产生了一个完全后验分布的一个封闭形式的解。随机变量 θ \bm{\theta} θ的估计值可以通过取其中几个估计量的其中一个来获得,如取后验分布的均值或者最大值。


http://chatgpt.dhexx.cn/article/nL6j7QrN.shtml

相关文章

GMM高斯混合模型

GMM高斯混合模型 一、GMM简介 GMM 全称是高斯混合模型,顾名思义,其本质就是将n个高斯模型混合叠加在一起,主要用处是用来作异常检测,聚类等;优点就是可解释性好,在低维数据上有着不错的效果; …

matlab构建高斯混合模型,使用matlab创建高斯混合模型及绘图

Matlab提供了根据几个独立的高斯模型创建Gaussian Mixture Model(GMM)的函数,即fitgmdist。关于该模型的具体使用方法以及绘制生成的GMM的图形的方法,如下代码所示: %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%…

使用高斯混合模型的点云配准

最近在学习基于概率模型的点云配准方法,上一篇中学习的是基于NDT(Normal Distribution Transform)的点云配准方法,其中关键是将点云进行体素单元格划分,并将每个体素单元格用一个概率密度函数表示。 今天读了另一篇论…

sklearn之高斯混合模型

什么是高斯分布? 高斯分布也叫正态分布,也就是常态分布,什么意思呢?比如说男性的身高,假如说有10000个男性的身高,如果再坐标系上标记出来就是一个正态分布,如果形状还不是和上面的图形一样&am…

基于高斯混合模型的目标检测算法matlab仿真

目录 一、理论基础 二、核心程序 三、仿真结论 一、理论基础 高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。 对图像背景建立…

高斯混合模型 GMM 的详细解释

高斯混合模型(后面本文中将使用他的缩写 GMM)听起来很复杂,其实他的工作原理和 KMeans 非常相似,你甚至可以认为它是 KMeans 的概率版本。 这种概率特征使 GMM 可以应用于 KMeans 无法解决的许多复杂问题。 因为KMeans的限制很多…

高斯混合模型学习笔记

高斯混合模型学习笔记 根据师兄(王延凯的博客)以及其他博主大佬的总结学习高斯混合模型,自己也作一下学习记录。 目录 高斯混合模型学习笔记1、模型介绍2、模型求解步骤举个栗子通用背景模型UBM[\[2\]](https://blog.csdn.net/weixin_44278…

机器学习笔记之高斯混合模型(一)模型介绍

机器学习笔记之高斯混合模型——模型介绍 引言高斯混合模型介绍示例介绍从几何角度观察高斯混合模型从混合模型的角度观察 概率混合模型的引出从概率生成模型的角度观察高斯混合模型 引言 上一系列介绍了EM算法,本节将介绍第一个基于EM算法求解的概率生成模型——高…

图像处理之高斯混合模型

一、高斯混合模型 现有的图像中目标的分类常用深度学习模型处理,但是深度学习需要大量模型处理。对于明显提取的目标,常常有几个明显特征,利用这几个明显特征使用少量图片便可以完成图像目标分类工作。这里介绍使用高斯混合模型GMM处理图像。…

机器学习 高斯混合模型

高斯混合模型 前言高斯混合模型高斯分布混合模型高斯模型单高斯模型高斯混合模型高斯混合模型训练EM算法 应用图像背景的高斯混合模型智能监控系统 参考 前言 之前在一次技术讨论当中,针对文本处理的时候被问到高斯混合模型。当时我对“高斯混合模型”都是比较懵圈…

高斯混合模型GMM

1. 高斯混合模型概念 高斯混合模型(Gaussian Mixture Model)是一种聚类算法,它是多个高斯分布函数的线性组合,通常用于解决同一集合下的数据包含多种不同的分布情况。 2.高斯混合模型的一个例子 在校园里随机抽取2000个学生&#…

高斯混合模型

一、什么是高斯混合模型(GMM) 高斯混合模型(Gaussian Mixed Model)指的是多个高斯分布函数的线性组合,通常用于解决同一集合下的数据包含多个不同的分布的情况,如解决分类情况 如下图,明显分成两…

【技术分享】高斯混合模型

本文原作者:尹迪,经授权发布。 原文链接:https://cloud.tencent.com/developer/article/1480731 导语:现有的高斯模型有单高斯模型(SGM)和高斯混合模型(GMM)两种。从几何上讲&#…

高斯混合模型(GMM)

高斯混合模型 k-means 聚类模型非常简单并且易于理解,但是它的简单性也为实际应用带 来了挑战。特别是在实际应用中,k-means 的非概率性和它仅根据到簇中心点的距离来指 派簇的特点将导致性能低下。这一节将介绍高斯混合模型,该模型可以被看…

机器学习笔记 - 什么是高斯混合模型(GMM)?

1、高斯混合模型概述 高斯混合模型 (GMM) 是一种机器学习算法。它们用于根据概率分布将数据分类为不同的类别。高斯混合模型可用于许多不同的领域,包括金融、营销等等!这里要对高斯混合模型进行介绍以及真实世界的示例、它们的作用以及何时应该使用GMM。 高斯混合模型 (GMM) …

机器学习算法(二十九):高斯混合模型(Gaussian Mixed Model,GMM)

目录 1 混合模型(Mixture Model) 2 高斯模型 2.1 单高斯模型 2.2 高斯混合模型 3 模型参数学习 3.1 单高斯模型 3.2 高斯混合模型 4 高斯混合模型与K均值算法对比 1 混合模型(Mixture Model) 混合模型是一个可以用来表示在总…

重启虚拟机异常:Unmount and run xfs_repair

重启虚拟机异常:Unmount and run xfs_repair 解决办法: 原因:看出来应该是sda3分区损坏,修复就可以了 1:启动虚拟机E进入单用户模式 2:在linux16开头的哪一行后面添加rd.break,ctrlx进入救援模式…

Unmount and run xfs_repair

开启虚拟机报错:Unmount and run xfs_repair 从错误可以查看到是vda3错误。 解决办法: 1、umount /dev/vda3 2、xfs_repair -L /dev/vda3 3、reboot 就ok了。

Linux mount/unmount命令

开机自动挂载 如果我们想实现开机自动挂载某设备,只要修改/etc/fstab文件即可。 文件挂载的配置文件:/etc/fstab 查看此文件可知 每行定义一个要挂载的文件系统; 其每行的格式如下 要挂载的设备或伪文件系统 挂载点 文件系统类型 挂载选项…

android.permission.MOUNT_UNMOUNT_FILESYSTEMS添加权限报错

<!--这是在sd卡内创建和删除文件权限--> <uses-permission android:name"android.permission.MOUNT_UNMOUNT_FILESYSTEMS" /> <uses-permission android:name"android.permission.WRITE_SETTINGS" /> 出现报错有两种解决方法&#xff1…