基于python中jieba包的详细使用介绍

article/2025/9/27 11:29:12

一,jieba的介绍

jieba 是目前表现较为不错的 Python 中文分词组件,它主要有以下特性:

  • 支持四种分词模式

    • 精确模式
    • 全模式
    • 搜索引擎模式
    • paddle模式
  • 支持繁体分词

  • 支持自定义词典

  • MIT 授权协议

二,安装和使用

1,安装
pip3 install jieba
2,使用
import jieba

三,主要分词功能

1,jieba.cut 和jieba.lcut

lcut 将返回的对象转化为list对象返回

传入参数解析:

def cut(self, sentence, cut_all=False, HMM=True, use_paddle=False):
# sentence: 需要分词的字符串;
# cut_all: 参数用来控制是否采用全模式;
# HMM: 参数用来控制是否使用 HMM 模型;
# use_paddle: 参数用来控制是否使用paddle模式下的分词模式,paddle模式采用延迟加载方式,通过enable_paddle接口安装paddlepaddle-tiny
1)精准模式(默认):

试图将句子最精确地切开,适合文本分析

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("精准模式: " + "/ ".join(seg_list))  # 精确模式# -----output-----
精准模式:/ 来到/ 北京/ 清华大学
2)全模式:

把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list))  # 全模式# -----output-----
全模式:/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
3)paddle模式

利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。
paddle模式使用需安装paddlepaddle-tiny,pip install paddlepaddle-tiny==1.6.1。
目前paddle模式支持jieba v0.40及以上版本。
jieba v0.40以下版本,请升级jieba,pip installjieba --upgrade。 PaddlePaddle官网

import jieba# 通过enable_paddle接口安装paddlepaddle-tiny,并且import相关代码;
jieba.enable_paddle()  # 初次使用可以自动安装并导入代码
seg_list = jieba.cut(str, use_paddle=True)
print('Paddle模式: ' + '/'.join(list(seg_list)))# -----output-----
Paddle enabled successfully......
Paddle模式:/来到/北京清华大学
2,jieba.cut_for_search 和 jieba.lcut_for_search
搜索引擎模式

在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))# -----output-----
小明, 硕士, 毕业,, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所,,,, 日本, 京都, 大学, 日本京都大学, 深造
3,jieba.Tokenizer(dictionary=DEFAULT_DICT)

新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。

import jiebatest_sent = "永和服装饰品有限公司"
result = jieba.tokenize(test_sent) ##Tokenize:返回词语在原文的起始位置
print(result)
for tk in result:# print ("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])    )print (tk)# -----output-----
<generator object Tokenizer.tokenize at 0x7f6b68a69d58>
('永和', 0, 2)
('服装', 2, 4)
('饰品', 4, 6)
('有限公司', 6, 10)    

四,添加自定义词典

开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba有新词识别能力,但是自行添加新词可以保证更高的正确率。

1,添加词典用法:
 jieba.load_userdict(dict_path)    # dict_path为文件类对象或自定义词典的路径。
2,其中自定义字典举例如下:

一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。

创新办 3 i
云计算 5
凱特琳 nz
中信建投
投资公司
3,使用自定义词典示例:
1)使用自定义词典文件
import jiebatest_sent = "中信建投投资公司投资了一款游戏,中信也投资了一个游戏公司"
jieba.load_userdict("userdict.txt")
words = jieba.cut(test_sent)
print(list(words))#-----output------
['中信建投', '投资公司', '投资', '了', '一款', '游戏', ',', '中信', '也', '投资', '了', '一个', '游戏', '公司']
2)使用 jieba 在程序中动态修改词典
import jieba# 定义示例句子
test_sent = "中信建投投资公司投资了一款游戏,中信也投资了一个游戏公司"#添加词
jieba.add_word('中信建投')
jieba.add_word('投资公司')# 删除词
jieba.del_word('中信建投')words = jieba.cut(test_sent)
print(list(words))#-----output------
['中信', '建投', '投资公司', '投资', '了', '一款', '游戏', ',', '中信', '也', '投资', '了', '一个', '游戏', '公司']

五,关键词提取

1,基于TF-IDF算法的关键词提取
1)TF-IDF接口和示例
import jieba.analyse
  • jieba.analyse.extract_tags(sentence, topK=20, withWeight=False,allowPOS=())
    其中需要说明的是:
    • 1.sentence 为待提取的文本
    • 2.topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
    • 3.withWeight 为是否一并返回关键词权重值,默认值为 False
    • 4.allowPOS 仅包括指定词性的词,默认值为空,即不筛选
  • jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件
import jieba
import jieba.analyse
#读取文件,返回一个字符串,使用utf-8编码方式读取,该文档位于此python同以及目录下
content  = open('data.txt','r',encoding='utf-8').read()
tags = jieba.analyse.extract_tags(content,topK=10,withWeight=True,allowPOS=("nr")) 
print(tags)# ----output-------
[('虚竹', 0.20382572423643955), ('丐帮', 0.07839419568792882), ('什么', 0.07287469641815765), ('自己', 0.05838617200768695), ('师父', 0.05459680087740782), ('内力', 0.05353758008018405), ('大理', 0.04885277765801372), ('咱们', 0.04458784837687502), ('星宿', 0.04412126568280158), ('少林', 0.04207588649463058)]
2)关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径

用法:
jieba.analyse.set_idf_path(file_name) # file_name为自定义语料库的路径
自定义语料库示例:

劳动防护 13.900677652 勞動防護 13.900677652 生化学 13.900677652 生化學 13.900677652 奥萨贝尔 13.900677652 奧薩貝爾 13.900677652 考察队员 13.900677652 考察隊員 13.900677652 岗上 11.5027823792 崗上 11.5027823792 倒车档 12.2912397395 倒車檔 12.2912397395 编译 9.21854642485 編譯 9.21854642485 蝶泳 11.1926274509 外委 11.8212361103
3)关键词提取所使用停止词(Stop Words)文本语料库可以切换成自定义语料库的路径
  • 用法: jieba.analyse.set_stop_words(file_name) # file_name为自定义语料库的路径
  • 自定义语料库示例:
import jieba
import jieba.analyse
#读取文件,返回一个字符串,使用utf-8编码方式读取,该文档位于此python同以及目录下
content  = open(u'data.txt','r',encoding='utf-8').read()
jieba.analyse.set_stop_words("stopwords.txt")
tags = jieba.analyse.extract_tags(content, topK=10)
print(",".join(tags))
4)关键词一并返回关键词权重值示例
import jieba
import jieba.analyse
#读取文件,返回一个字符串,使用utf-8编码方式读取,该文档位于此python同以及目录下
content  = open(u'data.txt','r',encoding='utf-8').read()
jieba.analyse.set_stop_words("stopwords.txt")
tags = jieba.analyse.extract_tags(content, topK=10,withWeight=True)
print(tags)
2,词性标注
  • jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器,tokenizer参数可指定内部使用的 jieba.Tokenizer 分词器。 jieba.posseg.dt 为默认词性标注分词器。
  • 标注句子分词后每个词的词性,采用和 ictclas 兼容的标记法。
  • 用法示例
import jieba.posseg as pseg
words = pseg.cut("我爱北京天安门")
for word, flag in words:print('%s %s' % (word, flag))# ----output--------
我 r
爱 v
北京 ns
天安门 ns

词性对照表

在这里插入图片描述

3,并行分词

将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词,然后归并结果,从而获得分词速度的可观提升。用法:

  • jieba.enable_parallel(4):开启并行分词模式,参数为并行进程数
  • jieba.disable_parallel() :关闭并行分词模式

可参考 test_file.py

注意:基于 python 自带的 multiprocessing 模块,目前暂不支持 Windows

4,Tokenize:返回词语在原文的起止位置
1)默认模式

注意,输入参数只接受 unicode

import jieba
import jieba.analyse
result = jieba.tokenize(u'永和服装饰品有限公司')
for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))# ----output-------
word 永和		 start: 0 		 end:2
word 服装		 start: 2 		 end:4
word 饰品		 start: 4 		 end:6
word 有限公司		 start: 6 		 end:10
2)搜索模式
import jieba
import jieba.analyse
result = jieba.tokenize(u'永和服装饰品有限公司', mode='search')
for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))# ----output-------
word 永和		 start: 0 		 end:2
word 服装		 start: 2 		 end:4
word 饰品		 start: 4 		 end:6
word 有限		 start: 6 		 end:8
word 公司		 start: 8 		 end:10
word 有限公司		 start: 6 		 end:10
5,搜索引擎ChineseAnalyzer for Whoosh

使用 jieba 和 whoosh 可以实现搜索引擎功能。
whoosh 是由python实现的一款全文搜索工具包,可以使用 pip 安装它:

pip install whoosh

介绍 jieba + whoosh 实现搜索之前,你可以先看下文 whoosh 的简单介绍。
下面看一个简单的搜索引擎的例子:

import os
import shutilfrom whoosh.fields import *
from whoosh.index import create_in
from whoosh.qparser import QueryParser
from jieba.analyse import ChineseAnalyzeranalyzer = ChineseAnalyzer()schema = Schema(title=TEXT(stored=True),path=ID(stored=True),content=TEXT(stored=True,analyzer=analyzer))
if not os.path.exists("test"):os.mkdir("test")
else:# 递归删除目录shutil.rmtree("test")os.mkdir("test")idx = create_in("test", schema)
writer = idx.writer()writer.add_document(title=u"document1",path="/tmp1",content=u"Tracy McGrady is a famous basketball player, the elegant basketball style of him attract me")
writer.add_document(title=u"document2",path="/tmp2",content=u"Kobe Bryant is a famous basketball player too , the tenacious spirit of him also attract me")
writer.add_document(title=u"document3",path="/tmp3",content=u"LeBron James is the player i do not like")writer.commit()
searcher = idx.searcher()
parser = QueryParser("content", schema=idx.schema)for keyword in ("basketball", "elegant"):print("searched keyword ",keyword)query= parser.parse(keyword)print(query,'------')results = searcher.search(query)for hit in results:print(hit.highlights("content"))print("="*50)

六,延迟加载

ieba 采用延迟加载,import jieba 和 jieba.Tokenizer() 不会立即触发词典的加载,一旦有必要才开始加载词典构建前缀字典。如果你想手工初始 jieba,也可以手动初始化。

import jieba
jieba.initialize()  # 手动初始化(可选)

上面代码中,使用 add_document() 把一个文档添加到了 index 中。在这些文档中,搜索含有 “basketball”和 “elegant” 的文档。

七,其他词典

1,占用内存较小的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small
2,支持繁体分词更好的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big

下载你所需要的词典,然后覆盖 jieba/dict.txt 即可;或者用 jieba.set_dictionary('data/dict.txt.big')


http://chatgpt.dhexx.cn/article/Un66lckP.shtml

相关文章

CRC校验码的计算

循环冗余检验的原理&#xff1a; 在发送端&#xff0c;先把数据划分为组&#xff0c;假定每组k个比特&#xff0c;假定一个待传送的数据M&#xff08;k位&#xff09;&#xff0c;CRC运算就是在数据M的后面添加供差错检测用的n位冗余码&#xff0c;然后构成一个帧发送出去&…

CRC校验简单记录

先聊聊奇偶校验 所谓通讯过程的校验是指在通讯数据后加上一些附加信息&#xff0c;通过这些附加信息来判断接收到的数据是否和发送出的数据相同。校验得通信双方都有才行&#xff0c;接收方收到数据后进行计算得到一个校验值&#xff0c;与发送方发的校验值比较&#xff0c;如果…

CRC校验总结

事实上网上很多CRC校验算法&#xff0c;在接收端进行CRC校验时&#xff0c;余数不为零。这往往是因为CRC校验算法本身是有问题的&#xff0c;但不妨碍我们进行校验。接收端可以对需要校验的字段带入CRC校验算法&#xff0c;计算得到校验值&#xff0c;并与发送数据中的校验值进…

CRC校验码计算,以常用CRC-8为例

CRC即循环冗余校验码&#xff1a;是数据通信领域中最常用的一种查错校验码&#xff0c;其特征是信息字段和校验字段的长度可以任意选定。 CRC校验原理&#xff1a;在要发送的帧后面附加一个数&#xff0c;生成一个新帧发送给接收端。它要使所生成的新帧能与发送端和接收端共同…

CRC校验码举例

CRC校验码举例 一、首先复习一下异或运算&#xff08;XOR&#xff09;,相同得0&#xff0c;相异得1. 二、多项式算数 使用多项式算数是为了是为了在进行二进制计算时无需考虑进位问题。 CRC中用到的除数正是由多项式的各项系数组成。 比如1&#xff0c;CRC除数为10111。 三、…

CRC校验查表法原理及实现(CRC-16)

绪论 在网上浏览了很多关于CRC校验的文章&#xff0c;基本上都是针对CRC校验原理的阐述以及关于CRC校验查表法的实际应用以及具体软件实现方法。 至于查的表是怎么来的&#xff0c;软件为什么要这样实现很多文章并没有说明。本篇文章就针对这两点问题进行总结和归纳&#xff0…

CRC校验原理

线性分组码中有一种重要的码称为循环码&#xff08;Cyclic code&#xff09;&#xff0c;这种码编码和解码都不太复杂&#xff0c;而且检&#xff08;纠&#xff09;错能力较强。循环码除了具有线性分组码的一般性质外&#xff0c;还具有循环性。循环性是指任一码组循环一位以后…

CRC码计算及校验原理计算

如何根据多项式计算 循环CRC码 5.3.2 循环冗余校验检错方案 奇偶校验码&#xff08;PCC&#xff09;只能校验一位错误&#xff0c;本节所要介绍的循环冗余校验码&#xff08;CRC&#xff09;的检错能力更强&#xff0c;可以检出多位错误。 1. CRC校验原理 CRC校验原理看…

CRC码计算及校验原理的最通俗诠释

在上一篇发布了我的最新著作《深入理解计算机网络》一书的原始目录&#xff08;http://blog.csdn.net/lycb_gz/article/details/8199839&#xff09;&#xff0c;得到了许多读者朋友的高度关注和肯定&#xff0c;本篇接着发一篇关于CRC码校验原理和CRC码计算方面的通俗诠释的试…

最好懂的CRC校验规则讲解

文章目录 前言何为校验如何生成CRC校验码按字节位反转确定左移多少位生成多项式的数值式模二除法其它说明 前言 CRC校验的原理非常复杂&#xff0c;但是用起来却很简单&#xff0c;甚至别人写好了函数&#xff0c;直接拿来调用即可&#xff0c;但是我们还是需要了解一点这个校…

CRC校验原理及代码

参考&#xff1a;CRC校验原理及步骤https://blog.csdn.net/d_leo/article/details/73572373 什么是CRC校验&#xff1f; CRC即循环冗余校验码&#xff1a;是数据通信领域中最常用的一种查错校验码&#xff0c;其特征是信息字段和校验字段的长度可以任意选定。循环冗余检查&am…

CRC 校验计算

一、简介 CRC即循环冗余校验码&#xff08;Cyclic Redundancy Check&#xff09;&#xff1a;是数据通信领域中最常用的一种查错校验码&#xff0c;其特征是信息字段和校验字段的长度可以任意选定。 其根本思想就是先在要发送的帧后面附加校验码&#xff0c;再发送给接收端。…

如何进行CRC校验

为了保证数据传输的可靠性&#xff0c;计算机网络传输数据时&#xff0c;必须采用差错检验措施&#xff0c;数据链路层广泛应用了循环冗余检验CRC&#xff08;Cyclic Redundancy Check&#xff09;的检错技术。 基本原理&#xff1a; CRC检验原理实际上就是在一个p位二进制数…

CRC校验(个人小结)

前言 之前曾经在通信原理课程学习过、也在项目中使用软件模拟过CRC校验。但是仍然有许多困惑的地方&#xff0c;在网上找的资料也是零零散散&#xff0c;于是自己根据课程学习、项目实践以及网上的资料&#xff0c;做一个小结。不当之处请在评论区指出。推荐一个CRC在线校验工…

CRC码校验纠错原理

在接收端收到了CRC码后用生成多项式为G(x)去做模2除&#xff0c;若得到余数为0,则码字无误。若如果有一位出错&#xff0c;则余数不为0&#xff0c;而且不同位出错&#xff0c;其余数也不同。可以证明&#xff0c;余数与出错位的对应关系只与码制及生成多项式有关&#xff0c;而…

CRC校验详解(附代码示例)

目录 1.CRC校验原理 2.生成多项式 3.以CRC-16校验为例讲解编程实现 3.3.1 完全按照CRC原理实现校验 3.3.2 工程中常用CRC校验过程 3.3.3 改进的CRC校验过程 4.以CRC-8校验为例讲解查表法 5.以CRC-16校验为例讲解查表法 5.1.生成表格 5.2.查表法实现 6.代码链接 CRC校…

详述CRC校验码(附代码)

关注星标公众号&#xff0c;不错过精彩内容 来源 | 一口Linux CRC校验应用比较广泛&#xff0c;通常在通信领域用的比较多&#xff0c;即便是自定义通信协议&#xff0c;也可以添加CRC校验码&#xff0c;使其通信更加可靠。 今天就来进一步描述CRC校验码。 一、CRC概念 1. 什么…

【科普】CRC校验(一)什么是CRC校验?

目录 CRC&#xff08;循环冗余校验&#xff09; CRC 校验码的生成 CRC 的发送方与接收方 发送方 接收方 除法异或运算示意图 CRC&#xff08;循环冗余校验&#xff09; CRC&#xff08;Cyclic Redundancy Check&#xff09;循环冗余检验&#xff0c;是一种用于检测数字数…

CRC校验原理及其C语言实现

文章目录 目录前言CRC算法简介CRC参数模型CRC计算CRC校验CRC计算的C语言实现CRC计算工具总结参考资料 目录 前言CRC算法简介CRC计算CRC校验CRC计算的C语言实现CRC计算工具总结 前言 最近的工作中&#xff0c;要实现对通信数据的CRC计算&#xff0c;所以花了两天的时间好好研…

Oracle Toad 导数,麒峰

标签&#xff1a; 补丁下载 x86 ia64 操作系统 迅雷下载 oracle it (2011-05-26 10:28) 标签&#xff1a; 授予的权限 主键约束 对象 角色管理 数据字典 oracle it 系统权限&#xff1a; create table :create any table: drop table: create procedure: execute anycedure: cr…