lda php,LDA主题分析代码实现

article/2025/11/10 14:13:36

主题文本分析:

首先读取txt文本,并删除stop_list中存放的停止词汇

f = open('..\\LDA_test.txt')

texts = [[word for word in line.strip().lower().split() if word not in stop_list] for line in f]

print('Text = ')

pprint(texts)  #输出格式处理好的文本内容

然后计算生成文本内容的词典

dictionary = corpora.Dictionary(texts)

print('corpora.Dictionary:')

print(dictionary)

然后将每个文档或者文档中的每个句子(一行)向量化

corpus = [dictionary.doc2bow(text) for text in texts]

print('corpus')

print(corpus)

然后计算词频

corpus_tfidf = models.TfidfModel(corpus)[corpus]

print('corpus_tfidf:')

print(corpus_tfidf)

然后可以条用LSI模型做文本分析

lsi = models.LsiModel(corpus_tfidf, num_topics=2, id2word=dictionary)

topic_result = [a for a in lsi[corpus_tfidf]]

pprint(topic_result) #输出每个文档或者每行句子的主题

1335113

或者输出每个主题的词汇构成

print('LSI Topics:')

pprint(lsi.print_topics(num_topics=2, num_words=5))

1335113

计算文档两两之间的相似度

similarity = similarities.MatrixSimilarity(lsi[corpus_tfidf])   # similarities.Similarity()

print('Similarity:')

pprint(list(similarity))

1335113

也可以用LDA模型来做主题分析

num_topics = 2

lda = models.LdaModel(corpus_tfidf, num_topics=num_topics, id2word=dictionary,

alpha='auto', eta='auto', minimum_probability=0.001, passes=10)

输出每个文档的主题分布:

doc_topic = [doc_t for doc_t in lda[corpus_tfidf]]

print('Document-Topic:\n')

pprint(doc_topic)

1335113

或者:

for doc_topic in lda.get_document_topics(corpus_tfidf):

print(doc_topic)

然后输出每个主题的词分布:

for topic_id in range(num_topics):

print('Topic', topic_id)

# pprint(lda.get_topic_terms(topicid=topic_id))

pprint(lda.show_topic(topic_id))

1335113

计算文档之间的相似度

similarity = similarities.MatrixSimilarity(lda[corpus_tfidf])

print('Similarity:')

pprint(list(similarity))

基于lda第三方库实现的主题分析

需要先安装这个第三方库lda( pip install lda)

首先要把每个文档的格式转换为向量来表示

所以多个文档就形成了一个矩阵,维度为k*n,k为每个文档向量的长度,n为文档个数

例如:矩阵中的每个元素可以用tf—idf词频来表示

1335113

利用LDA模型进行建模

topic_num = 20

model = lda.LDA(n_topics=topic_num, n_iter=800, random_state=1)

model.fit(X)

输出各个主题的词分布

topic_word = model.topic_word_

print(("type(topic_word): {}".format(type(topic_word))))

print(("shape: {}".format(topic_word.shape)))

print((topic_word[:, :5]))  #由于词分布太长了,所以只用输出部分

可以输出每个主题topK个词汇:

n = 7

for i, topic_dist in enumerate(topic_word):

topic_words = np.array(vocab)[np.argsort(topic_dist)][:-(n + 1):-1]

print(('*Topic {}\n- {}'.format(i, ' '.join(topic_words))))

其中vocab为所有文档的词汇元组,就是对应词向量的词汇元组

长度等于每个文档词向量的长度

最终输出我们想要知道的每个文档对应的最有可能的主题:

doc_topic = model.doc_topic_

print(("type(doc_topic): {}".format(type(doc_topic))))

print(("shape: {}".format(doc_topic.shape)))

for i in range(10):

topic_most_pr = doc_topic[i].argmax()

print(("文档: {} 主题: {} value: {}".format(i, topic_most_pr, doc_topic[i][topic_most_pr])))

最后是可视化:

mpl.rcParams['font.sans-serif'] = ['SimHei']

mpl.rcParams['axes.unicode_minus'] = False

# Topic - word

plt.figure(figsize=(7, 6))

# f, ax = plt.subplots(5, 1, sharex=True)

for i, k in enumerate([0, 5, 9, 14, 19]):

ax = plt.subplot(5, 1, i+1)

ax.plot(topic_word[k, :], 'r-')

ax.set_xlim(-50, 4350)   # [0,4258]

ax.set_ylim(0, 0.08)

ax.set_ylabel("概率")

ax.set_title("主题 {}".format(k))

plt.xlabel("词", fontsize=13)

plt.tight_layout()

plt.suptitle('主题的词分布', fontsize=15)

plt.subplots_adjust(top=0.9)

plt.show()

# Document - Topic

plt.figure(figsize=(7, 6))

# f, ax= plt.subplots(5, 1, figsize=(8, 6), sharex=True)

for i, k in enumerate([1, 3, 4, 8, 9]):

ax = plt.subplot(5, 1, i+1)

ax.stem(doc_topic[k, :], linefmt='g-', markerfmt='ro')

ax.set_xlim(-1, topic_num+1)

ax.set_ylim(0, 1)

ax.set_ylabel("概率")

ax.set_title("文档 {}".format(k))

plt.xlabel("主题", fontsize=13)

plt.suptitle('文档的主题分布', fontsize=15)

plt.tight_layout()

plt.subplots_adjust(top=0.9)

plt.show()


http://chatgpt.dhexx.cn/article/M2hOOa68.shtml

相关文章

详解 LDA

详解 LDA 详解 LDA基本概念什么是LDALDA 核心思想LDA 简单二分类实例 实现步骤(python)第一步 标准化处理第二步 计算每一类别特征的均值向量第三步 计算类间散布矩阵S(B)和类内散布矩阵S(W)第四步 计算矩阵S(W)^(-1)S(B)的特征值和对应的特征向量第五步…

LDA 指南

『本文转自:https://wdxtub.com/2017/05/03/lda-guide/』 LDA 作为文本分析中非常有用的算法,无论是在学术界还是工业界都已被广泛运用。本文是写给自己的 LDA 理解指南。 更新历史 2017.05.03: 完成初稿 关于 LDA 算法,网上的资料不胜枚举…

LDA

关于降维算法 机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表…

LDA详解

【几个问题待解决:1.LDA的先计算联合概率体现在哪里 2.对于theta 的采样的理解,下文中的theta1 ,theta2等其实是指theta向量中的第一个,第二个等,也就是不同文章的不同单词的主题,固定其他,分别…

LDA的通俗理解

1.PLSA模型 在讲解LDA模型之前,与LDA模型最为接近的便是下面要阐述的这个pLSA模型,给pLSA加上贝叶斯框架,便是LDA。 1.1什么是pLSA模型 我们假定一篇文档只由一个主题生成,可实际中,一篇文章往往有多个主题&#xff…

LDA模型详解

LDA是自然语言处理中非常常用的一个主题模型,全称是隐含狄利克雷分布(Latent Dirichlet Allocation),简称LDA。作用是将文档集中每篇文档的主题以概率分布的形式给出,然后通过分析分到同一主题下的文档抽取其实际的主题…

机器学习——LDA(线性判别分析)与人脸识别

忆如完整项目/代码详见github:https://github.com/yiru1225(转载标明出处 勿白嫖 star for projects thanks) 目录 系列文章目录 一、LDA的概念与原理 1.LDA简介 2.LDA算法模型 3.LDA的不足与优化 二、LDA运用于人脸识别 1.预处理 1…

线性判别分析(LDA)详解

入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。 目录 一、LDA简介 二、数学原理(以二分类为例子) 1、设定 2、每一类的均值和方差 3、目标函数 4、目标…

LDA算法——线性判别

目录 一、前言 二、什么是LDA? 三、LDA原理 1.二分类问题 2.多分类问题 3.几点说明 四、算法实现 一、前言 之前我们已经介绍过PCA算法,这是一种无监督的降维方法,可以将高维数据转化为低维数据处理。然而,PCA总是能适用吗&…

主题模型:LDA原理详解与应用

LDA算法简介: LDA是一种基于贝叶斯思想的无监督的聚类算法,广泛用于文本聚类,文本分析,文本关键词等场景。具体的,算法 的输入是一个文档的集合D{d1, d2, d3, ... , dn},同时还需要主题Topic的类别数量m&a…

LDA主题模型简介及Python实现

一、LDA主题模型简介 LDA主题模型主要用于推测文档的主题分布,可以将文档集中每篇文档的主题以概率分布的形式给出根据主题进行主题聚类或文本分类。 LDA主题模型不关心文档中单词的顺序,通常使用词袋特征(bag-of-word feature)来…

制作属于自己的个人博客-超详细教程

SpringBoot个人博客 一.博客效果预览 博客首页预览 博客详情预览 博客评论区预览 博客底部栏预览 关于页面预览 二.博客效果在线预览 http://blog.ShaoxiongDu.top 三.项目技术 后端SpringBoot框架 分为控制层(Controller) 业务层(Service) 数据持久层(Dao) 按照Spring…

如何搭建个人博客

新的安装方式:(强烈推荐,简单方便) 利用dockernginx配置halo博客 先碎碎念一下,最近在学习springboot项目,在b站跟着up主研究如何写一个简易的博客来着,后来发现可以直接简易的搭建一个博客(都不用写代码&a…

使用 nodejs 搭建个人博客

"使用nodejs搭建自己的个人博客" 说明运行后端 node 模块后端框架采用的是 express 框架进行接口构建,具体解释如下:数据库参数配置评论邮箱提示付费文件下载配置(支付宝)评论语句检测 关于跨域问题的解决 说明 使用no…

超详细图解:如何使用 WordPress搭建一个个人博客?

前两天我用WordPress 给自己搭建了一个网站,整个过程非常的顺利,体验非常地好,于是我就整个过程、以及其中的一些搭建心得,记录下来。 如果你也正好有搭建个人网站的想法,那么本文会给你一个参考,也许看了这…

个人博客网站的设计与实现

/ 前话 / 纯手工敲代码,代码结构简单,divcss布局html静态个人博客首页网页设计,dreamwaver和hb都可以编辑,文件结构包含了css、fonts、images、js和html,运用html5技术,包括nav标签、header标签和footer标签…

个人博客系统毕业设计开题报告

本文给出的是本科生个人博客系统的毕业设计开题报告,仅供参考!(具体模板和要求按照自己学校给的要求) 毕业设计开题报告 一、选题意义二、博客系统概述三 、毕业设计研究方案四、功能结构图五、进度安排六、参考文献 一、选题意义…

基于HTML个人博客网站项目的设计与实现——个人博客作品展示6页 HTML+CSS

Web前端开发技术 描述 网页设计题材,DIVCSS 布局制作,HTMLCSS网页设计期末课程大作业 | 个人博客网站 | 个人主页介绍 | 个人简介 | 个人博客设计制作 | 等网站的设计与制作 | 大学生个人HTML网页设计作品 | HTML期末大学生网页设计作业 HTML:结构 CSS&…

HTML制作个人网页制作(简单静态HTML个人博客网页作品)

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业: 【📚毕设项目精品实战案例 (10…

个人主页博客网页设计制作HTML5+CSS大作业——清新春暖花开个人博客网站(6页)

HTML5CSS大作业——清新春暖花开个人博客网站(6页) 常见网页设计作业题材有 个人、 美食、 公司、 学校、 旅游、 电商、 宠物、 电器、 茶叶、 家居、 酒店、 舞蹈、 动漫、 明星、 服装、 体育、 化妆品、 物流、 环保、 书籍、 婚纱、 军事、 游戏、 节日、 戒烟、 电影、 摄…