机器学习笔记之高斯混合模型(一)模型介绍

article/2025/10/12 9:00:33

机器学习笔记之高斯混合模型——模型介绍

  • 引言
    • 高斯混合模型介绍
      • 示例介绍
      • 从几何角度观察高斯混合模型
      • 从混合模型的角度观察
    • 概率混合模型的引出
    • 从概率生成模型的角度观察高斯混合模型

引言

上一系列介绍了EM算法,本节将介绍第一个基于EM算法求解的概率生成模型——高斯混合模型(Gaussian Mixture Model,GMM)。

高斯混合模型介绍

示例介绍

首先观察一张关于样本集合 X \mathcal X X的分布图:
请添加图片描述
从观察的视角对 X \mathcal X X的分布进行分析,感觉上述样本点明显存在两堆,当然也可以认为是一堆样本,可能是样本没有全部生成完而已。但从常理角度观察 更像是两种不同分布的样本点存在于同一个样本空间中

我们假设上述两堆样本点每一堆均服从高斯分布,尝试对上述样本点横坐标的概率密度函数(Probability Density Function,PDF)进行表示
请添加图片描述
该图意义是概率密度函数结果越高,该样本点存在更大的概率被产生出来
观察上述所有样本点的横坐标,发现 以0.8和2.1这两个位置为中心,横坐标值围绕这两个中心产生的更密集,而其他位置相对稀疏一些

因此,我们可以认为产生这些样本点的概率模型 P ( X ) P(\mathcal X) P(X)是由两个高斯分布混合在一起得到的混合模型。我们称这个概率模型 P ( X ) P(\mathcal X) P(X)高斯混合模型

从几何角度观察高斯混合模型

P ( X ) P(\mathcal X) P(X)也自然存在概率密度函数。依然以上述样本点横坐标作为示例,它的概率密度函数大致表示如下
请添加图片描述
其中这个蓝色线可看作概率分布 P ( X ) P(\mathcal X) P(X)产生的样本横坐标的概率密度函数。以第 i i i个样本的横坐标 x ( i ) x^{(i)} x(i)为例,它的具体计算方法如下:
x m i x ( i ) = f 1 ( x ( i ) ) f 1 ( x ( i ) ) + f 2 ( x ( i ) ) ⋅ f 1 ( x ( i ) ) + [ 1 − f 1 ( x ( i ) ) f 1 ( x ( i ) ) + f 2 ( x ( i ) ) ] ⋅ f 2 ( x ( i ) ) = [ f 1 ( x ( i ) ) ] 2 + [ f ( x ( i ) ) ] 2 f 1 ( x ( i ) ) + f 2 ( x ( i ) ) \begin{aligned}x_{mix}^{(i)} & = \frac{f_1(x^{(i)})}{f_1(x^{(i)}) + f_2(x^{(i)})} \cdot f_1(x^{(i)}) + \left[1 - \frac{f_1(x^{(i)})}{f_1(x^{(i)}) + f_2(x^{(i)})}\right] \cdot f_2(x^{(i)}) \\ & = \frac{[f_1(x^{(i)})]^2 + [f_(x^{(i)})]^2}{f_1(x^{(i)}) + f_2(x^{(i)})} \end{aligned} xmix(i)=f1(x(i))+f2(x(i))f1(x(i))f1(x(i))+[1f1(x(i))+f2(x(i))f1(x(i))]f2(x(i))=f1(x(i))+f2(x(i))[f1(x(i))]2+[f(x(i))]2
其中, f 1 , f 2 f_1,f_2 f1,f2分别表示两种高斯分布的概率密度函数
f j = 1 2 π σ j e − ( x i − μ j ) 2 2 σ j 2 ( j = 1 , 2 ) f_j = \frac{1}{\sqrt{2\pi}\sigma_j}e^{-\frac{(x_i - \mu_j)^2}{2 \sigma_j^2}} \quad (j=1,2) fj=2π σj1e2σj2(xiμj)2(j=1,2)
我们可以将 x m i x ( i ) x_{mix}^{(i)} xmix(i)结果的生成看成两个步骤

  • 对应样本点横坐标 x ( i ) x^{(i)} x(i),分别计算该样本点分别出现在分布1、分布2的比重 α 1 ( i ) , α 2 ( i ) \alpha_1^{(i)},\alpha_2^{(i)} α1(i),α2(i)
    α 1 ( i ) = f 1 ( x ( i ) ) f 1 ( x ( i ) ) + f 2 ( x ( i ) ) , α 2 ( i ) = [ 1 − f 1 ( x ( i ) ) f 1 ( x ( i ) ) + f 2 ( x ( i ) ) ] \alpha_1^{(i)} = \frac{f_1(x^{(i)})}{f_1(x^{(i)}) + f_2(x^{(i)})} ,\alpha_2^{(i)} = \left[1 - \frac{f_1(x^{(i)})}{f_1(x^{(i)}) + f_2(x^{(i)})} \right] α1(i)=f1(x(i))+f2(x(i))f1(x(i)),α2(i)=[1f1(x(i))+f2(x(i))f1(x(i))]
  • 融合模型的概率密度结果表示为属于各分布的加权平均
    x m i x ( i ) = α 1 ( i ) f 1 ( x ( i ) ) + α 2 ( i ) f 2 ( x ( i ) ) x_{mix}^{(i)} = \alpha_1^{(i)}f_1{(x^{(i)})} + \alpha_2^{(i)}f_2{(x^{(i)})} xmix(i)=α1(i)f1(x(i))+α2(i)f2(x(i))

因此,从图像角度观察可以将高斯混合模型理解为:样本空间中的任一维度均由多个高斯分布叠加而成,并且该模型的概率密度函数可表示为多个高斯分布的加权平均

假设某高斯混合模型由 K \mathcal K K个高斯分布叠加而成,那么该模型的概率密度函数表示如下
P ( X ) = ∑ k = 1 K α k ⋅ N ( μ k , Σ k ) ( ∑ k = 1 K α k = 1 ) P(\mathcal X) = \sum_{k=1}^{\mathcal K} \alpha_{k} \cdot \mathcal N(\mu_{k},\Sigma_{k}) \quad (\sum_{k=1}^{\mathcal K} \alpha_k = 1) P(X)=k=1KαkN(μk,Σk)(k=1Kαk=1)

从混合模型的角度观察

重新观察样本分布图,先设定数据集合中样本点的表示如下:
D a t a = { ( x ( i ) , y ( i ) ) ∣ i = 1 N } Data = \left\{(x^{(i)},y^{(i)}) |_{i=1}^N\right\} Data={(x(i),y(i))i=1N}
其中 x ( i ) , y ( i ) x^{(i)},y^{(i)} x(i),y(i)分别表示样本点 ( x ( i ) , y ( i ) ) (x^{(i)},y^{(i)}) (x(i),y(i))横坐标、纵坐标。此时给定一个样本点 ( x ( k ) , y ( k ) ) (x^{(k)},y^{(k)}) (x(k),y(k))(红色样本点)如图所示:
请添加图片描述
我们提出的问题是:红色样本点 ( x ( k ) , y ( k ) ) (x^{(k)},y^{(k)}) (x(k),y(k))属于哪个高斯分布
上述的高斯分布的等高线只是画了若干条以作表示,但实际上高斯分布在其样本空间内无限延伸
因此,实际上 ( x ( k ) , y ( k ) ) (x^{(k)},y^{(k)}) (x(k),y(k))只要在该样本空间内,它属于任意一个高斯分布,但如果需要确定该样本所服从的规律,我们可以提出一个朴素想法
该样本距离哪个高斯分布中心更近一点,它是哪个高斯分布的概率就更大一点
基于上述想法,构建一个变量 Z \mathcal Z Z,并赋予它实际意义:样本 ( x ( k ) , y ( k ) ) (x^{(k)},y^{(k)}) (x(k),y(k))属于哪个高斯分布
基于上述思想,我们基于变量 Z \mathcal Z Z样本点 ( x ( k ) , y ( k ) ) (x^{(k)},y^{(k)}) (x(k),y(k))的分布归属问题有如下判断:

Z \mathcal Z Z z 1 z_1 z1 z 2 z_2 z2
P ( Z ) P(\mathcal Z) P(Z) p 1 p_1 p1 p 2 p_2 p2

其中, z 1 , z 2 z_1,z_2 z1,z2表示高斯分布编号(离散型随机变量) p 1 , p 2 p_1,p_2 p1,p2表示样本点 ( x ( i ) , y ( i ) ) (x^{(i)},y^{(i)}) (x(i),y(i))分别属于高斯分布 z 1 , z 2 z_1,z_2 z1,z2的概率。即:
p j = P [ ( x ( i ) , y ( i ) ) ∈ z j ] ( j = 1 , 2 ) p_j = P[(x^{(i)},y^{(i)}) \in z_j] \quad (j=1,2) pj=P[(x(i),y(i))zj](j=1,2)
关于 P ( Z ) P(\mathcal Z) P(Z)的约束条件有:
p 1 + p 2 = 1 p_1 + p_2 = 1 p1+p2=1

概率混合模型的引出

基于上述例子,我们称上述定义的变量 Z \mathcal Z Z隐变量。原因在于该变量无法从样本集合自身观察出来,而定义它的目的在于协助求解概率分布 P ( X ) P(\mathcal X) P(X)

基于隐变量 Z \mathcal Z Z,可以通过两步走的形式进行求解:

  • 对样本点属于样本空间内任意高斯分布的概率进行统计,即求解 P ( Z ) P(\mathcal Z) P(Z);
  • 基于步骤1,样本基于各概率服从对应的高斯分布,即求解 P ( X ∣ Z ) P(\mathcal X \mid \mathcal Z) P(XZ);

假设样本空间中一共包含 K \mathcal K K个高斯分布,概率分布 P ( X ) P(\mathcal X) P(X)可以表示如下:
该式子和‘几何角度’中的公式基本没有区别,只是从不同角度理解理解‘隐变量的表示’而已。
P ( X ) = ∑ Z P ( X ∣ Z ) P ( Z ) = ∑ k = 1 K p k ⋅ N ( μ k , Σ k ) ( ∑ k = 1 K p k = 1 ) P(\mathcal X) = \sum_{\mathcal Z}P(\mathcal X \mid \mathcal Z)P(\mathcal Z) = \sum_{k=1}^{\mathcal K} p_{k} \cdot \mathcal N(\mu_{k},\Sigma_{k}) \quad (\sum_{k=1}^{\mathcal K} p_k = 1) P(X)=ZP(XZ)P(Z)=k=1KpkN(μk,Σk)(k=1Kpk=1)

从概率生成模型的角度观察高斯混合模型

我们在极大似然估计与最大后验概率估计中介绍过, P ( X ) P(\mathcal X) P(X)既可以表示样本集合 X \mathcal X X的概率分布,也可以表示概率模型

它的描述具体为:样本集合 X \mathcal X X是由概率模型 P ( X ) P(\mathcal X) P(X)生成的样本组成的集合。概率模型可以源源不断地生成样本,样本集合 X \mathcal X X只是其中一个子集。

高斯混合模型的隐变量 Z \mathcal Z Z是一个基于参数的离散分布,因此将高斯混合模型从生成模型的角度 理解为如下步骤:

  • p k p_k pk的概率从 K \mathcal K K离散的参数中选择了参数 k k k
  • 在参数 k k k确定的条件下,由于参数 k k k唯一对应一个高斯分布 N ( μ k , Σ k ) \mathcal N(\mu_k,\Sigma_k) N(μk,Σk),因此,从高斯分布 N ( μ k , Σ k ) \mathcal N(\mu_k,\Sigma_k) N(μk,Σk)随机生成一个样本 x x x
  • 重复执行上述步骤,重复 N N N次,最终获得 N N N个样本的样本集合 X \mathcal X X

下一节将介绍高斯混合模型的求解过程

相关参考:
机器学习-高斯混合模型(1)-模型介绍


http://chatgpt.dhexx.cn/article/3SGYKRof.shtml

相关文章

图像处理之高斯混合模型

一、高斯混合模型 现有的图像中目标的分类常用深度学习模型处理,但是深度学习需要大量模型处理。对于明显提取的目标,常常有几个明显特征,利用这几个明显特征使用少量图片便可以完成图像目标分类工作。这里介绍使用高斯混合模型GMM处理图像。…

机器学习 高斯混合模型

高斯混合模型 前言高斯混合模型高斯分布混合模型高斯模型单高斯模型高斯混合模型高斯混合模型训练EM算法 应用图像背景的高斯混合模型智能监控系统 参考 前言 之前在一次技术讨论当中,针对文本处理的时候被问到高斯混合模型。当时我对“高斯混合模型”都是比较懵圈…

高斯混合模型GMM

1. 高斯混合模型概念 高斯混合模型(Gaussian Mixture Model)是一种聚类算法,它是多个高斯分布函数的线性组合,通常用于解决同一集合下的数据包含多种不同的分布情况。 2.高斯混合模型的一个例子 在校园里随机抽取2000个学生&#…

高斯混合模型

一、什么是高斯混合模型(GMM) 高斯混合模型(Gaussian Mixed Model)指的是多个高斯分布函数的线性组合,通常用于解决同一集合下的数据包含多个不同的分布的情况,如解决分类情况 如下图,明显分成两…

【技术分享】高斯混合模型

本文原作者:尹迪,经授权发布。 原文链接:https://cloud.tencent.com/developer/article/1480731 导语:现有的高斯模型有单高斯模型(SGM)和高斯混合模型(GMM)两种。从几何上讲&#…

高斯混合模型(GMM)

高斯混合模型 k-means 聚类模型非常简单并且易于理解,但是它的简单性也为实际应用带 来了挑战。特别是在实际应用中,k-means 的非概率性和它仅根据到簇中心点的距离来指 派簇的特点将导致性能低下。这一节将介绍高斯混合模型,该模型可以被看…

机器学习笔记 - 什么是高斯混合模型(GMM)?

1、高斯混合模型概述 高斯混合模型 (GMM) 是一种机器学习算法。它们用于根据概率分布将数据分类为不同的类别。高斯混合模型可用于许多不同的领域,包括金融、营销等等!这里要对高斯混合模型进行介绍以及真实世界的示例、它们的作用以及何时应该使用GMM。 高斯混合模型 (GMM) …

机器学习算法(二十九):高斯混合模型(Gaussian Mixed Model,GMM)

目录 1 混合模型(Mixture Model) 2 高斯模型 2.1 单高斯模型 2.2 高斯混合模型 3 模型参数学习 3.1 单高斯模型 3.2 高斯混合模型 4 高斯混合模型与K均值算法对比 1 混合模型(Mixture Model) 混合模型是一个可以用来表示在总…

重启虚拟机异常:Unmount and run xfs_repair

重启虚拟机异常:Unmount and run xfs_repair 解决办法: 原因:看出来应该是sda3分区损坏,修复就可以了 1:启动虚拟机E进入单用户模式 2:在linux16开头的哪一行后面添加rd.break,ctrlx进入救援模式…

Unmount and run xfs_repair

开启虚拟机报错:Unmount and run xfs_repair 从错误可以查看到是vda3错误。 解决办法: 1、umount /dev/vda3 2、xfs_repair -L /dev/vda3 3、reboot 就ok了。

Linux mount/unmount命令

开机自动挂载 如果我们想实现开机自动挂载某设备,只要修改/etc/fstab文件即可。 文件挂载的配置文件:/etc/fstab 查看此文件可知 每行定义一个要挂载的文件系统; 其每行的格式如下 要挂载的设备或伪文件系统 挂载点 文件系统类型 挂载选项…

android.permission.MOUNT_UNMOUNT_FILESYSTEMS添加权限报错

<!--这是在sd卡内创建和删除文件权限--> <uses-permission android:name"android.permission.MOUNT_UNMOUNT_FILESYSTEMS" /> <uses-permission android:name"android.permission.WRITE_SETTINGS" /> 出现报错有两种解决方法&#xff1…

Centos7 虚拟机非法关机导致系统无法启动报Unmount and run xfs_repair的解决方法

1&#xff0c;电脑不正常启动导致我的虚拟机无法启动&#xff0c;报以下错误Unmount and run xfs_repair&#xff0c;大概意思是xfs文件系统出现问题了&#xff0c;导致无法挂载&#xff0c;需要使用xfs_repair进行修复。 2&#xff0c;执行如下命令 xfs_repair /dev/mapper/c…

linux下unmount了移动硬盘之后,硬盘灯还是常亮并且硬盘还在一直转动

linux下unmount了移动硬盘之后&#xff0c;硬盘灯还是常亮并且硬盘还在一直转动 ​ 参考:https://www.zhihu.com/question/23362385 希捷2T移动硬盘 在windows下卸载硬盘之后硬盘灯就不亮了&#xff0c;手摸也没有震动感。 在ubuntu下卸载硬盘之后&#xff0c;硬盘灯仍然常…

centos7异常断电,重启提示Unmount and run xfs_repair

周末服务器由于阵列卡问题&#xff0c;异常重启&#xff0c;重启后前台异常报错&#xff0c;提示磁盘元数据问题&#xff0c;需要修复 如故障图所示&#xff0c;sdb1&#xff0c;sdf1&#xff0c;sdi1 3块磁盘出现问题&#xff0c; 下面的解决办法&#xff1a; 解决办法&…

Android/C/C++ 中解决 USB UnMount(禁止USB端口)

引&#xff1a;因为某些特殊需求&#xff0c;需要在某些设备接入车机的时候&#xff0c;动态UnMount USB设备&#xff0c;因为代码其中有一些方法是自定义过的&#xff0c;所以该文章仅供思路参考。 &#xff08;20200319 更新&#xff09;&#xff1a;在后续跟进中&#xff0…

linux移动硬盘unmount报错处理

备份数据用的移动硬盘unmount时报&#xff1a; 通过fuser命令来kill掉设备进程&#xff0c;再unmount移动设备 先看fuser命令帮助信息&#xff1a; [rootathenadb2 ~]# fuser -helpUsage: fuser [ -a | -s | -c ] [ -n SPACE ] [ -SIGNAL ] [ -kimuv ] NAME... [ - ] [ -n SPAC…

虚拟机 报错:Unmount and run xfs_repair

1&#xff0c;启动虚拟机的时候&#xff0c;摁 E 键 找到linux16 这一行(在fi下一行) 的最后&#xff0c;添加&#xff1a; rd.break 摁 &#xff1a;ctrlx进入救援模式 2&#xff0c;执行&#xff1a;umount /dev/sda3 xfs_repair -L /dev/sda3 …

VMware 安装Centos7 虚拟机 报Unmount and run xfs_repair

VMware 安装Centos7 虚拟机 报Unmount and run xfs_repair 问题描述 安装完虚拟机后重启无法进入用户登录界面 报错&#xff1a;Unmount and run xfs_repair 原因&#xff1a; dm-0分区损坏 解决办法 卸载目录 umount /dev/mapper/centos-root 修复目录 xfs_repair -L…

linux 开机遇见unmount and run xfs_repair

vmware 开机提示 看不懂反正提示 dm-0 没有正确挂载&#xff0c;需要修复 直接上干货执行如下两条命令 ls -l /dev/mapper xfs_repair /dev/mapper/cl_root 或是 xfs_repair -L /dev/mapper/cl_root echo $? 如果返回零&#xff0c;代表成功 最后重启服务器即可 init 6