jieba分词的最详细解读

article/2025/9/27 11:38:39

目录

一,什么是jieba(结巴)库?

二,jieba库的使用规则

三,jieba库具体使用和实例


一,什么是jieba(结巴)库?

字如其名,结巴库主要用于中文分词,很形象的画面想必一下子就出现在了大家的面前,结巴在说话时一个词一个词从嘴里往外蹦的时候,已经成功地模拟了我们jieba函数的处理过程!!!

其次

1:Jieba库是优秀的中文分词第三方库,中文文本需要通过分词获得单个的词语。

2:Jieba库的分词原理:利用一个中文词库,确定汉字之间的关联概率,汉字间概率大的组成词组,形成分词结果。除了分词,用户还可以添加自定义的词组。

3:jieba库提供三种分词模式,最简单只需要掌握一种————

注意:jieba.cuts(s) 返回的是一个可迭代的数据类型,jieba.cuts(s)   后 使用 cut = [w for w in cut if w not in stopWords],处理中文停用词问题时 显示错误,是因为一般stopWord为list 列表[]类型,与cut迭代类型不兼容

,此时出现错误,我们应该了解到jieba.lcuts(s)函数 恰恰返回一个列表类型,此时正常运行。那么就要引入我们一下会讲到的一点jieba库的具体使用

二,jieba库的使用规则

1:jieba分词的三种模式

    精确模式:就是把一段文本精确地切分成若干个中文单词,若干个中文单词之间经过组合,就精确地还原为之前的文本。其中不存在冗余单词。

    全模式:将一段文本中所有可能的词语都扫描出来,可能有一段文本它可以切分成不同的模式,或者有不同的角度来切分变成不同的词语,在全模式下,Jieba库会将各种不同的组合都挖掘出来。分词后的信息再组合起来会有冗余,不再是原来的文本。

    搜索引擎模式:在精确模式基础上,对发现的那些长的词语,我们会对它再次切分,进而适合搜索引擎对短词语的索引和搜索。也有冗余

2:jieba库的一般函数

三,jieba库具体使用和实例

1:简单的分词


import jieba 
cut = jieba.cut(text)  #text为你需要分词的字符串/句子
string = ' '.join(cut)  #将分开的词用空格连接
print(string)

 

2:统计三国演义中的词语出场数

import  jiebatxt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)     # 使用精确模式对文本进行分词
counts = {}     # 通过键值对的形式存储词语及其出现的次数for word in words:if  len(word) == 1:    # 单个词语不计算在内continueelse:counts[word] = counts.get(word, 0) + 1    # 遍历所有词语,每出现一次其对应的值加 1items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)    # 根据词语出现的次数进行从大到小排序for i in range(15):word, count = items[i]print("{0:<5}{1:>5}".format(word, count))

 

3:利用jiebe库的制作WordCloud

jieba分词,再对文本数据处理停用词,作为引用照片,制作词云

k# 基于TextRank算法进行关键词抽取
text=""
for item in data:text=text+item[0]# print(item[0])
cur.close()
con.close()cut =jieba.lcut(text)
cut = [w for w in cut if w not in stopWords]
string=' '.join(cut)img=Image.open(r'.\static\assets\img\tree.jpg')
img_array=np.array(img)
wc=WordCloud(background_color='white',mask=img_array,font_path="STXINGKA.TTF"
)
wc.generate_from_text(string)#绘制图片
fig =plt.figure(1)
plt.imshow(wc)
plt.axis('off')#是否显示坐标轴plt.show()

 


http://chatgpt.dhexx.cn/article/P40Y21wW.shtml

相关文章

python中jieba库使用教程

jieba是python的一个中文分词库&#xff0c;下面介绍它的使用方法。 安装 方式1&#xff1a; pip install jieba方式2&#xff1a; 先下载 http://pypi.python.org/pypi/jieba/ 然后解压&#xff0c;运行 python setup.py install 功能 下面介绍下jieba的主要功能&#xff…

基于python中jieba包的详细使用介绍

一&#xff0c;jieba的介绍 jieba 是目前表现较为不错的 Python 中文分词组件&#xff0c;它主要有以下特性&#xff1a; 支持四种分词模式&#xff1a; 精确模式全模式搜索引擎模式paddle模式 支持繁体分词 支持自定义词典 MIT 授权协议 二&#xff0c;安装和使用 1&am…

CRC校验码的计算

循环冗余检验的原理&#xff1a; 在发送端&#xff0c;先把数据划分为组&#xff0c;假定每组k个比特&#xff0c;假定一个待传送的数据M&#xff08;k位&#xff09;&#xff0c;CRC运算就是在数据M的后面添加供差错检测用的n位冗余码&#xff0c;然后构成一个帧发送出去&…

CRC校验简单记录

先聊聊奇偶校验 所谓通讯过程的校验是指在通讯数据后加上一些附加信息&#xff0c;通过这些附加信息来判断接收到的数据是否和发送出的数据相同。校验得通信双方都有才行&#xff0c;接收方收到数据后进行计算得到一个校验值&#xff0c;与发送方发的校验值比较&#xff0c;如果…

CRC校验总结

事实上网上很多CRC校验算法&#xff0c;在接收端进行CRC校验时&#xff0c;余数不为零。这往往是因为CRC校验算法本身是有问题的&#xff0c;但不妨碍我们进行校验。接收端可以对需要校验的字段带入CRC校验算法&#xff0c;计算得到校验值&#xff0c;并与发送数据中的校验值进…

CRC校验码计算,以常用CRC-8为例

CRC即循环冗余校验码&#xff1a;是数据通信领域中最常用的一种查错校验码&#xff0c;其特征是信息字段和校验字段的长度可以任意选定。 CRC校验原理&#xff1a;在要发送的帧后面附加一个数&#xff0c;生成一个新帧发送给接收端。它要使所生成的新帧能与发送端和接收端共同…

CRC校验码举例

CRC校验码举例 一、首先复习一下异或运算&#xff08;XOR&#xff09;,相同得0&#xff0c;相异得1. 二、多项式算数 使用多项式算数是为了是为了在进行二进制计算时无需考虑进位问题。 CRC中用到的除数正是由多项式的各项系数组成。 比如1&#xff0c;CRC除数为10111。 三、…

CRC校验查表法原理及实现(CRC-16)

绪论 在网上浏览了很多关于CRC校验的文章&#xff0c;基本上都是针对CRC校验原理的阐述以及关于CRC校验查表法的实际应用以及具体软件实现方法。 至于查的表是怎么来的&#xff0c;软件为什么要这样实现很多文章并没有说明。本篇文章就针对这两点问题进行总结和归纳&#xff0…

CRC校验原理

线性分组码中有一种重要的码称为循环码&#xff08;Cyclic code&#xff09;&#xff0c;这种码编码和解码都不太复杂&#xff0c;而且检&#xff08;纠&#xff09;错能力较强。循环码除了具有线性分组码的一般性质外&#xff0c;还具有循环性。循环性是指任一码组循环一位以后…

CRC码计算及校验原理计算

如何根据多项式计算 循环CRC码 5.3.2 循环冗余校验检错方案 奇偶校验码&#xff08;PCC&#xff09;只能校验一位错误&#xff0c;本节所要介绍的循环冗余校验码&#xff08;CRC&#xff09;的检错能力更强&#xff0c;可以检出多位错误。 1. CRC校验原理 CRC校验原理看…

CRC码计算及校验原理的最通俗诠释

在上一篇发布了我的最新著作《深入理解计算机网络》一书的原始目录&#xff08;http://blog.csdn.net/lycb_gz/article/details/8199839&#xff09;&#xff0c;得到了许多读者朋友的高度关注和肯定&#xff0c;本篇接着发一篇关于CRC码校验原理和CRC码计算方面的通俗诠释的试…

最好懂的CRC校验规则讲解

文章目录 前言何为校验如何生成CRC校验码按字节位反转确定左移多少位生成多项式的数值式模二除法其它说明 前言 CRC校验的原理非常复杂&#xff0c;但是用起来却很简单&#xff0c;甚至别人写好了函数&#xff0c;直接拿来调用即可&#xff0c;但是我们还是需要了解一点这个校…

CRC校验原理及代码

参考&#xff1a;CRC校验原理及步骤https://blog.csdn.net/d_leo/article/details/73572373 什么是CRC校验&#xff1f; CRC即循环冗余校验码&#xff1a;是数据通信领域中最常用的一种查错校验码&#xff0c;其特征是信息字段和校验字段的长度可以任意选定。循环冗余检查&am…

CRC 校验计算

一、简介 CRC即循环冗余校验码&#xff08;Cyclic Redundancy Check&#xff09;&#xff1a;是数据通信领域中最常用的一种查错校验码&#xff0c;其特征是信息字段和校验字段的长度可以任意选定。 其根本思想就是先在要发送的帧后面附加校验码&#xff0c;再发送给接收端。…

如何进行CRC校验

为了保证数据传输的可靠性&#xff0c;计算机网络传输数据时&#xff0c;必须采用差错检验措施&#xff0c;数据链路层广泛应用了循环冗余检验CRC&#xff08;Cyclic Redundancy Check&#xff09;的检错技术。 基本原理&#xff1a; CRC检验原理实际上就是在一个p位二进制数…

CRC校验(个人小结)

前言 之前曾经在通信原理课程学习过、也在项目中使用软件模拟过CRC校验。但是仍然有许多困惑的地方&#xff0c;在网上找的资料也是零零散散&#xff0c;于是自己根据课程学习、项目实践以及网上的资料&#xff0c;做一个小结。不当之处请在评论区指出。推荐一个CRC在线校验工…

CRC码校验纠错原理

在接收端收到了CRC码后用生成多项式为G(x)去做模2除&#xff0c;若得到余数为0,则码字无误。若如果有一位出错&#xff0c;则余数不为0&#xff0c;而且不同位出错&#xff0c;其余数也不同。可以证明&#xff0c;余数与出错位的对应关系只与码制及生成多项式有关&#xff0c;而…

CRC校验详解(附代码示例)

目录 1.CRC校验原理 2.生成多项式 3.以CRC-16校验为例讲解编程实现 3.3.1 完全按照CRC原理实现校验 3.3.2 工程中常用CRC校验过程 3.3.3 改进的CRC校验过程 4.以CRC-8校验为例讲解查表法 5.以CRC-16校验为例讲解查表法 5.1.生成表格 5.2.查表法实现 6.代码链接 CRC校…

详述CRC校验码(附代码)

关注星标公众号&#xff0c;不错过精彩内容 来源 | 一口Linux CRC校验应用比较广泛&#xff0c;通常在通信领域用的比较多&#xff0c;即便是自定义通信协议&#xff0c;也可以添加CRC校验码&#xff0c;使其通信更加可靠。 今天就来进一步描述CRC校验码。 一、CRC概念 1. 什么…

【科普】CRC校验(一)什么是CRC校验?

目录 CRC&#xff08;循环冗余校验&#xff09; CRC 校验码的生成 CRC 的发送方与接收方 发送方 接收方 除法异或运算示意图 CRC&#xff08;循环冗余校验&#xff09; CRC&#xff08;Cyclic Redundancy Check&#xff09;循环冗余检验&#xff0c;是一种用于检测数字数…