关于gensim的一些使用记录

article/2025/8/22 19:59:49

NLP神器

Gensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。
支持包括TF-IDF，潜在语义分析（Latent Semantic Analysis，LSA），潜狄利克雷分布（Latent Dirichlet Allocation，LDA），和word2vec在内的多种主题模型算法，支持流式训练，并提供了诸如相似度计算，信息检索等一些常用任务的API接口。

概述

概念

名称	说明
语料（`Corpus`）	数字化文档的集合，被用于自动推断文档的结构和主题等。由此，`corpus`也称作`training corpus`，被推断的这些潜在结构用于给新的文档分配主题，无需人为介入，比如给文档打标签，不存在的。
向量（`Vector`）	在向量空间模型中，每个文档被表示成了一组特征，比如，一个单一的特征可能被视为一个问答对。
稀疏向量（`Sparse Vector`）	通常，我们可以略去向量中多余的0元素。此时，向量中的每一个元素是一个(key, value)的元组
模型（`Model`）	是一个抽象的术语。定义了两个向量空间的变换（即从文本的一种向量表达变换为另一种向量表达）。