NLP神器
Gensim
是一款开源的第三方Python
工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。
支持包括TF-IDF
,潜在语义分析(Latent Semantic Analysis
,LSA
),潜狄利克雷分布(Latent Dirichlet Allocation
,LDA
),和word2vec
在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API
接口。
概述
概念
名称 | 说明 |
---|---|
语料(Corpus ) | 数字化文档的集合,被用于自动推断文档的结构和主题等。由此,corpus 也称作training corpus ,被推断的这些潜在结构用于给新的文档分配主题,无需人为介入,比如给文档打标签,不存在的。 |
向量(Vector ) | 在向量空间模型中,每个文档被表示成了一组特征,比如,一个单一的特征可能被视为一个问答对。 |
稀疏向量(Sparse Vector ) | 通常,我们可以略去向量中多余的0元素。此时,向量中的每一个元素是一个(key, value)的元组 |
模型(Model ) | 是一个抽象的术语。定义了两个向量空间的变换(即从文本的一种向量表达变换为另一种向量表达)。 |
注释:以上来自博客:here.
安装
pip install gensim
安装成功后我们可以用下面的语句来测试:
from gensim.models import word2vec
案例可以参考链接:here
值得注意的是,在该模型中可以控制具体的语言模型,即:
sg: 即我们的word2vec两个模型的选择了。如果是0, 则是CBOW模型,是1则是Skip-Gram模型,默认是0即CBOW模型。