【机器学习】LDA算法 (主题模型算法)

article/2025/9/18 20:09:00

随着互联网的发展,文本分析越来越受到重视。由于文本格式的复杂性,人们往往很难直接利用文本进行分析。因此一些将文本数值化的方法就出现了。LDA就是其中一种很NB的方法。 LDA有着很完美的理论支撑,而且有着维度小等一系列优点。本文对LDA算法进行介绍,欢迎批评指正。

 

本文目录:

1、Gamma函数

2、Dirichlet分布

3、LDA文本建模

4、吉普斯抽样概率公式推导

5、使用LDA

 

 

1、Gamma函数

T(x)= ∫ tx-1 e-tdt    T(x+1) = xT(x)

若x为整数,则有 T(n) = (n-1)!

 

2、Dirichlet分布

这里抛出两个问题:

问题1: (1) X1, X2......Xn 服从Uniform(0,1)

            (2) 排序后的顺序统计量为X(1), X(2), X(3)......X(n)

    (3) 问X(k1)和X(k1+k2)的联合分布式什么

把整个概率区间分成[0,X1) ,  [X1, X1+Δ),   [X1+Δ, X1+X2),    [X1+X2, X1+X2+Δ),     [X1+X2+Δ,1]

X(k1) 在区间[X1, X1+Δ), X(k1+k2) 在区间[X1+X2, X1+X2+Δ)。 我们另X3 = 1-X1-X2.

则,

                            

即Dir(x1, x2, x3| k1, k2, n-k1-k2+1)

问题2: (1) X1, X2......Xn 服从Uniform(0,1), 排序后的顺序统计量为X(1), X(2), X(3)......X(n)

    (2) 令p1 = [0, X(k1)], p2 = [X(k1), X(k1+k2)], p3 = 1-p1-p2 

    (3) 另外给出新的信息, Y1, Y2.....Ym服从Uniform(0, 1), Yi落到[0,X(k1)],  [X(k1), X(k1+k2)], [X(k1+k2), 1]的数目分别是m1, m2, m3

           (4) 问后验概率 p(p1,p2,p3|Y1,Y2,....Ym)的分布。

其实这个问题和问题1很像,只是在同样的范围内多了一些点而已。 因此这个概率分布为 Dir(x1,x2,x3| k1+m1, k2+m2, n-k1-k2+1+m3)。

我们发现这么一个规律     Dir(p|k) + multCount(m) = Dir(p|k+m)。 即狄利克雷分布是多项分布的共轭分布。

狄利克雷分布有这么一个性质:如果则,

                                               

 

3、 LDA文本建模

 首先我们想一篇文章是如何形成的:作者在写一篇文章的时候首先会想这个文章需要包含什么主题呢。比如在写武侠小说的时候,首先会想小说里边需要包含武侠、爱情、亲情、搞笑四个主题。并且给这四个主题分配一定的比例(如武侠0.4,爱情0.3,亲情0.2,搞笑0.1)。每个主题会包含一些word,不同word的概率也是不一样的。 因此我们上帝在生成一篇文章的时候流程是这个样子的:

(1)上帝有两个坛子的骰子,第一个坛子装的是doc-topic骰子,第二个坛子装的是topic-wod骰子。

(2)上帝随机的从二个坛子中独立抽取了k个topic-doc骰子,编号1-K。

(3)每次生成一篇新的文档前,上帝先从第一个坛子中随机抽取一个doc-topic骰子,然后重复如下过程生成文档中的词。

        <1>、投掷这个doc-topic骰子,得到一个topic的编号z。

        <2>、选择K个topic-word骰子中编号为z的的那个,投掷这个骰子, 于是就得到了这个词。

假设语料库中有M篇文章, 所有的word和对应的topic如下表示:

                                                             

我们可以用下图来解释这个过程:  

                                          

一共两个物理过程:

第一个过程: ,这个过程分两个阶段。第一个阶段是上帝在生成一篇文档之前,先抽出一个主题分布的骰子,这个分布选择了狄利克雷分布(狄利克雷分布是多项分布的共轭分布)。 第二个阶段根据来抽样得到每个单词的topic。这是一个多项分布。 整个过程是符合狄利克雷分布的。

第二个过程:,这个过程也分两个阶段。第一个阶段是对每个主题,生成word对应的概率,即选取的骰子,这个分布也是选择了狄利克雷分布。 第二个阶段是根据,对于确定的主题选择对应的word,这是一个多项分布。因此,整个过程是狄利克雷分布。

 

4、吉普斯抽样概率公式推导

LDA的全概率公式为: 。 由于是观测到的已知数据,只有是隐含的变量,所以我们需要关注的分布为:。 我们利用Gibbs Sampling进行抽样。 我们要求的某个位置i(m,n)对应的条件分布为 

                                                  

                                                                      是一个定值,因此原公式成立。

下边是公式的推导:

                              

又由于根据狄利克雷分布的特性:

                               

 

抽样的时候,首先随机给每个单词一个主题,然后用进行Gibbs抽样,抽样后更新这两个值,一直迭代到收敛(EM过程)。

至此抽样就结束了。

 

 

5、使用LDA

抽样结束后,我们可以统计来得到

对于LDA我们的目标有两个:

  (1)得到文章库中每篇文章的主题分布

      (2)对于一篇新来的文章,能得到它的主题分布

第一个目标很容易就能达到。下面主要介绍如果计算 一篇新文章的主题分布。这里我们假设是不会变化的。因此对于一篇新文章到来之后,我们直接用Gibbs Sampling得到新文章的就好了。 具体抽样过程同上。

由于工程上对于计算新的文章没有作用,因此往往只会保存


http://chatgpt.dhexx.cn/article/4fmHWcOv.shtml

相关文章

LDA算法和PCA算法的总结(原理和思想)

LDA和PCA的对比(并没有公式推导&#xff0c;改日会写) 先补一补数学(不需要)&#xff1a; 方差——概率论和统计方差衡量随机变量或一组数据时离散程度的度量&#xff1b;概率论中方差用来度量随机变量和其数学期望之间的偏离程度。统计中的方差&#xff08;样本方差&#xff…

LDA算法原理及LDA与PCA的比较

1. LDA算法简介 LDA&#xff08;线性判别式分析 Linear Discriminant Analysis&#xff09;属于机器学习中的监督学习算法&#xff0c;常用来做特征提取、数据降维和任务分类。在人脸识别、人脸检测等领域发挥重要作用。LDA算法与PCA算法都是常用的降维技术。二者的区别在于&a…

LDA算法调研报告

LDA算法调研报告 1、LDA算法概述 本文所阐述的LDA算法全称为Latent Dirichlet Allocation&#xff08;网上没有标准的中文名称&#xff0c;我称之为潜在狄利克雷分配算法&#xff09;&#xff0c;不是线性判别分析算法&#xff08;Linear Discriminant Analysis&#xff09;。L…

【机器学习】LDA算法原理

问题 线性判别分析(Linear Discriminant Analysis,LDA)是机器学习中常用的降维方法之一,本文旨在介绍LDA算法的思想,其数学推导过程可能会稍作简化。 LDA的思想 ● LDA是一种线性的、有监督的降维方法,即每个样本都有对应的类别标签(这点和PCA不同)。 ● 主要思想:…

Spark机器学习-LDA算法09

LDA算法 LDA即文档主题生成模型,该算法是一种无监督学习 将主题对应聚类中心,文档作为样本,则LDA也是一种聚类算法 该算法用来将多个文档划分为K个主题,与Kmeans类似 LDA是一种基于概率统计的生成算法 LDA算法—种常用的主题模型,可以对文档主题进行聚类,同样也可以用…

LDA算法实现鸢尾花数据集降维

目录 1. 作者介绍2. LDA降维算法2.1 基本概念2.2 算法流程 3. LDA算法实现3.1 数据集介绍3.2 代码实现3.3 结果展示 1. 作者介绍 唐杰&#xff0c;男&#xff0c;西安工程大学电子信息学院&#xff0c;2022级研究生 研究方向&#xff1a;机器视觉与人工智能 电子邮件&#xff…

秒懂---LDA算法

线性判别分析LDA原理总结 在主成分分析&#xff08;PCA&#xff09;原理总结中&#xff0c;我们对降维算法PCA做了总结。这里我们就对另外一种经典的降维方法线性判别分析&#xff08;Linear Discriminant Analysis, 以下简称LDA&#xff09;做一个总结。LDA在模式识别领域&…

基于Sklearn实现LDA算法

文章目录 一、LDA算法二、sklearn实现LDA三、结果如图四、总结五、参考 一、LDA算法 1.线性判别分析&#xff08;Linear Discriminant Analysis, LDA&#xff09;方法常被用于数据预处理中的降维&#xff08;dimensionality reduction&#xff09;步骤。LDA在保证良好的类别区…

LDA算法推导

LDA算法是什么 简单地说LDA算法就是向低维度投影&#xff0c;让同一类别数据投影点更接近&#xff0c;不同类别数据点距离更远。 LDA原理 定义&#xff0c;已知 我们要把两类数据都投影到w直线上。 让不同类别的数据的类别中心之间的距离尽可能的大&#xff0c; 同一种类别数…

线性判别分析LDA原理总结

转自http://www.cnblogs.com/pinard/p/6244265.html 在主成分分析&#xff08;PCA&#xff09;原理总结中&#xff0c;我们对降维算法PCA做了总结。这里我们就对另外一种经典的降维方法线性判别分析&#xff08;Linear Discriminant Analysis, 以下简称LDA&#xff09;做一个总…

线性判别分析(Linear Discriminant Analysis, LDA)算法分析

LDA算法入门 一. LDA算法概述: 线性判别式分析(Linear Discriminant Analysis, LDA),也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD),是模式识别的经典算法,它是在1996年由Belhumeur引入模式识别和人工智能领域的。性鉴别分析的基本思想是将高维的模式样本投影到…

机器学习笔记17-LDA算法

1. LDA算法简介 LDA&#xff08;线性判别式分析 Linear Discriminant Analysis&#xff09;属于机器学习中的监督学习算法&#xff0c;常用来做特征提取、数据降维和任务分类。在人脸识别、人脸检测等领域发挥重要作用。LDA算法与PCA算法都是常用的降维技术。二者的区别在于&a…

数据结构层次遍历二叉树

2022.11.19 计算二叉树的深度和节点个数 任务描述相关知识编程要求测试说明C/C代码 任务描述 本关任务&#xff1a;给定一棵二叉树&#xff0c;借助队列实现层次遍历二叉树。 相关知识 为了完成本关任务&#xff0c;你需要掌握&#xff1a;1.队列基本操作&#xff0c;2.二叉…

树的层次遍历

二叉树的前序、中序、后序遍历我想大家应该都很熟悉了&#xff0c;那我们今天就来讲一下二叉树的层次遍历。 二叉树的前序、中序、后序遍历需要用到栈&#xff08;递归的过程也就是一个栈&#xff09;&#xff0c;层次遍历需要借助队列这个数据结构。 层次遍历的思路 我们给…

层次遍历_树

哈喽大家好&#xff0c;这里是蒟蒻hanyiyang的博文&#xff0c;今天&#xff0c;我来给大家&#xff0c;介绍一个关于图的算法&#xff0c;希望能帮助到大家&#xff01;&#xff01;&#xff01; 层次遍历 大家来看一看上面这个图&#xff0c;为什么要说这是层次遍历呢&…

树的应用 —— 二叉树的遍历【层次遍历、遍历序列还原树】

树的应用 —— 二叉树的遍历【层次遍历、遍历序列还原树】 【层次遍历】 二叉树的遍历一般有先序遍历、中序遍历和后序遍历&#xff0c;除了这三种遍历&#xff0c;还有另一种遍历方式——层次遍历&#xff0c;即按照层次的顺序从左向右进行遍历。 一棵树如下图所示。 层次…

二叉树:层次遍历算法(自上而下,从左到右)

层次遍历&#xff08;LevelOrder&#xff09;就是默认为自上而下&#xff0c;从左到右&#xff0c;一层一层进行遍历&#xff0c; 层次遍历需要借助队列来完成&#xff0c; 队列&#xff1a;先进先出&#xff08;FIFO&#xff09;。 分析&#xff1a;如图有一棵二叉树&#xff…

MATLAB符号运算——微分

微分 微分在数学中的定义&#xff1a;由函数Bf(A)&#xff0c;得到A、B两个数集&#xff0c;在A中当dx靠近自己时&#xff0c;函数在dx处的极限叫作函数在dx处的微分&#xff0c;微分的中心思想是无穷分割。 在MATLAB中计算微分 函数&#xff1a;diff 调用格式&#xff1a; …

matlab中常用符号

在使用MATLAB的过程中&#xff0c;经常需要对输出图形中的变量进行标注&#xff0c;其中经常遇到的难题就是如何标注各种上标、下标、斜体、黑体、箭头、上圆圈、正负号等特殊符号&#xff0c;以及如何标注特殊的数学符号。这里第一机电网给大家总结一下&#xff0c;希望对大家…

MATLAB符号运算(七)

目录 1、实验目的&#xff1a; 2、实验内容&#xff1a; 1、实验目的&#xff1a; 1&#xff09;掌握定义符号对象和创建符号表达式的方法&#xff1b; 2&#xff09;掌握符号运算基本命令和规则&#xff1b; 3&#xff09;掌握符号表达式的运算法则以及符号矩阵运算&#xf…