【NLP学习】中文分词

article/2025/9/13 17:47:53

word segmentation

  • 1.概述
  • 2.分词方法
    • (1)基于词典的机械分词法
      • ①正向最大匹配(FMM)
      • ②逆向最大匹配(BMM)
      • ③双向最大匹配
    • (2)基于统计的分词法
      • ①基于互信息的分词方法
      • ②最大概率分词方法
  • 3.分词粒度
  • 4.中文分词工具
  • 5.总结

1.概述

*◆ 何为中文分词?*中文分词指的是将一个汉字序列切分成一个个单独的词。句子1:北京人在纽约分词结果:**北京人**/**在**/**纽约***◆ 出现分词歧义怎么办?*句子2:地面积了厚厚的雪
分词结果1:**地面**/**积**/**了**/**厚厚的**/**雪**
分词结果2:**地**/**面积**/**了**/**厚厚的**/**雪**由人来判断,结果1是分词正确的,但是对于计算机来说,两者都有可能,那该如何分词?

2.分词方法

(1)基于词典的机械分词法

基于词典匹配的机械分词方法,主要依据词典的信息,根据一定的规则将输入的字符串与词典中的词逐条匹配,匹配成功则进行相应的切分处理。

①正向最大匹配(FMM)

假设自动分词词典中最长的词所含字数为M,则将字符串前M个字作为待匹配字符串,在词典中进行查找,如果该M个字与词典中的某个词匹配成功,则将其切分出来;若未匹配成功,则将最后一个字从待匹配字符串中删除,再将待匹配字符串与词典进行匹配,以此类推,直到匹配成功为止。
FMM分词流程图

  *举例*
输入句子:S1=“计算语言学课程有意思”
定义:MaxLen=5;S2=“”;J=“/”;
词表:计算语言学,课程,意思,有意,思......;原始句子:计算语言学课程有意思
第1次分词:**计算语言学**/课程有意思
第2次分词:**计算语言学**/**课程**/有意思
第3次分词:**计算语言学**/**课程**/**有意**/思
第4次分词:**计算语言学**/**课程**/**有意**/**思**

②逆向最大匹配(BMM)

从句子的右边取候选子串,匹配不成功时去掉候选子串最前面的一个字,其他规则与FMM相同。

*举例*
输入句子:S1=“计算语言学课程有意思”
定义:MaxLen=5;S2=“”;J=“/”;
词表:计算语言学,课程,意思,有意,思......;原始句子:计算语言学课程有意思
第1次分词:计算语言学课程有/**意思**
第2次分词:计算语言学课程/**有**/**意思**
第3次分词:计算语言学/**课程**/**有**/**意思**
第4次分词:**计算语言学**/**课程**/**有**/**意思**

③双向最大匹配

先根据标点对文档进行粗切分,把文档分解成若干个句子,然后再对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同,则认为分词正确,否则,按最小分词集处理。如果两种方法切分的次数一样时,则采用一些规则处理。

正向分词结果:计算语言学/课程/有意/*思*
逆向分词结果:**计算语言学**/**课程**/**有**/**意思**

(2)基于统计的分词法

统计分词以概率论为理论基础,将汉字上下文中汉字组合串的出现抽象成随机过程,随机过程的参数需要通过大规模语料库训练得到。

①基于互信息的分词方法

◆ 方法
根据字与字同时出现的概率大小来判断是否为一个词,几个相邻的字同时出现的次数越多,则其构成词的概率越大。
◆ 公式
对于字符串x和字符串y,计算其互信息值 M𝐼(𝑥,𝑦),用互信值得大小判断x和y之间的结合程度。M𝐼(𝑥,𝑦)= log2⁡(𝑝(𝑥, 𝑦)/𝑝(𝑥,𝑦) )
如果M𝐼(𝑥,𝑦)>0,表示x和y会同时出现,MI值越大,共同出现程度越大;
如果M𝐼(𝑥,𝑦)=0,表示x和y是独立出现;
如果M𝐼(𝑥,𝑦)<0,表示x和y会互斥出现。

②最大概率分词方法

◆ 方法
利用语料库计算每种切分结果的概率,选取概率最高的切分作为最优分词切分,一般采用的是链式计算其概率值。

◆ N-gram模型
n元模型就是在估算条件概率时,忽略距离≥n的上文词的影响。以N=2为例,根据词典找到字串S中所有可能的词,并且根据训练语料库,根据所有S中出现的词 w i w_i wi w i − 1 w_{i−1} wi1计算 p ( w i ∣ w i − 1 ) p(w_i |w_{i−1}) p(wiwi1),然后把所有可能的切分词串都找出来,计算 p ( W ) p(W) p(W),并且从这些词串中找出一条概率最大的路径作为分词结果。
p ( W ) = p ( w 1 , w 2 , … , w n ) = ∏ i = 1.... n p ( w i ∣ w i − 1 ) p(W)= p(w_1,w_2,…,w_n)=\prod_{i=1....n}p(w_i |w_{i−1}) p(W)=p(w1,w2,,wn)=i=1....np(wiwi1)
当N=3时,概率值为 p ( w i ∣ w i − 2 , w i − 1 ) p(w_i |w_{i−2},w_{i−1}) p(wiwi2,wi1)。显然,当n≥2时,该模型可以保留一定的词序信息,n越大,保留的词序信息越丰富,但计算量也呈指数级增长。

3.分词粒度

*◆ 何为分词粒度?*分词粒度是一个中文词包含汉字的个数。*◆ 举例*“电视机”—— 分词粒度为3“高清电视机”—— 分词粒度为5“高清/电视/机”—— 分词粒度为2*◆ 粒度大小与准确性*在搜索引擎建立索引时,如果分词粒度过大,会导致只有输入特定关键词才能搜索到相应结果;如果分词粒度过小,则影响搜索引擎查询的准确性。因此选择合适的分词粒度是构建搜索引擎的重要因素。

4.中文分词工具

Jieba分词 https://github.com/fxsjy/jieba
SnowNLP http://github.com/isnowfy/snownlp
LTP http://www.ltp-cloud.com/
HanNLP https://github.com/hankcs/HanLP/

Jieba是一个在自然语言处理中用的最多的工具之一,目前已经能够实现包括分词、词性标注以及命名实体识别等多种功能。
Jieba提供了三种分词模式:精确模式,试图将句子最精确的切开,适合文本分析;全模式,把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再切分,适合用于搜索引擎分词。

import jiebasent = '中文分词是文本处理不可或缺的一步!'seg_list = jieba.cut(sent, cut_all=True)
print('全模式:', '/'.join(seg_list))seg_list = jieba.cut(sent, cut_all=False)
print('精确模式:', '/'.join(seg_list))seg_list = jieba.cut_for_search(sent)
print('搜索引擎模式:', '/'.join(seg_list))

运行结果:jieba分词

5.总结

中文分词与英文分词有很大的不同,英文一个单词就是一个词,而汉语是以字为基本的书写单位,中文分词的处理较为困难。主要对中文分词技术进行了介绍,介绍了基于词典和基于统计的分词方法,对分词的粒度与准确性做了相关的评价,最后给出一种开源的中文分词工具Jieba。总之,在自然语言处理、信息搜索引擎、情感分析等方面,中文分词技术占有着重要地位。


http://chatgpt.dhexx.cn/article/GlLxmxr2.shtml

相关文章

基于字典的中文分词

中文分词介绍 中文分词就是将一个汉语句子中的词切分出来。为机器翻译、文本挖掘、情感分析等任务打好基础。为什么一定要先进行分词呢&#xff1f;这就像 26 个字母一样&#xff0c;单个字母并不能表达某个意思&#xff0c;将其组合起来成为一个英文单词才有意义。 中文虽然有…

【ElasticSearch】中文分词器

ES默认的analyzer&#xff08;分词器&#xff09;&#xff0c;对英文单词比较友好&#xff0c;对中文分词效果不好。不过ES支持安装分词插件&#xff0c;增加新的分词器。 1、如何指定analyzer&#xff1f; 默认的分词器不满足需要&#xff0c;可以在定义索引映射的时候&#…

Elasticsearch之中文分词器

&#x1f4e2;&#x1f4e2;&#x1f4e2;&#x1f4e3;&#x1f4e3;&#x1f4e3; 哈喽&#xff01;大家好&#xff0c;我是【一心同学】&#xff0c;一位上进心十足的【Java领域博主】&#xff01;&#x1f61c;&#x1f61c;&#x1f61c; ✨【一心同学】的写作风格&#x…

各种中文分词工具的使用方法

诸神缄默不语-个人CSDN博文目录 本文将介绍jieba、HanLP、LAC、THULAC、NLPIR、spacy、stanfordcorenlp、pkuseg等多种中文分词工具的简单使用方法。 对于可以在多种语言上使用的工具&#xff0c;本文仅介绍其在Python语言上的使用。 文章目录 1. jieba2. HanLP3. LAC4. THULA…

中文分词方法

词条化 分词又叫做词条化&#xff08;tokenlize&#xff09;&#xff0c;指的是将原始的字符流转换成一个一个词条&#xff08;token&#xff09;的过程。词条化属于自然语言处理中预处理的一个步骤&#xff0c;它是分析语义的基础。下图是一个词条化的例子。 在不同的语言中&…

细说中文分词

完整的中文自然语言处理过程一般包括以下五种中文处理核心技术&#xff1a;分词、词性标注、命名实体识别、依存句法分析、语义分析。其中&#xff0c;分词是中文自然语言处理的基础&#xff0c;搜素引擎、文本挖掘、机器翻译、关键词提取、自动摘要生成等等技术都会用到中文分…

【Grails4+spring security】

Grails4spring security实现单用户登录 描述1、新建项目目录结构如图所示2、打开根目录下的build.gradle文件&#xff0c;dependencies中添加spring-security依赖3、创建用户、角色的domain4、创建登录控制器LoginController5、创建注销控制器 LogoutController6、自定义一个Co…

Grails配置-基本配置-如何覆盖默认配置,在哪里进行自定义配置

文章目录 Grails配置基本配置⎮Grails4风格配置⎮Grails2风格的Groovy配置⎮使用GrailsApplication对象访问配置信息 在控制器中使用grailsApplication对象 能获取到的配置信息有哪些 在业务层中使用grailsApplication对象方式一 在业务层中使用grailsApplication对象方式二…

Grails 的插件开发

警告&#xff1a;本文还未整理&#xff0c;可读性差&#xff0c;还只是草稿 文档 Grails Plugin Develop Document grails-spring-security-core 插件文档 grails-spring-security-rest插件 文档 创建插件 执行命令行 grails create-plugin <<PLUGIN NAME>>即…

Grails配置-启动类配置,数据源配置,连接Mysql数据库

文章目录 Grails配置1. 启动类配置Application.groovy启动类中可以做哪些事情1. 启动Grails应用程序2. 自定义包扫描路径3. 注册bean4. 应用程序生命周期管理 2. 环境配置2.1 默认的多环境配置2.2 预设的环境2.3 打包和运行使用不同的环境2.4 在代码启动过程中判断当前环境2.5 …

java grails mave_Grails 与 Maven 集成

Grails 与 Maven 集成 杨 健 2013 年 9 月 09 日发布 概述 Grails 简介&#xff1a;Grails 是一个开源的 Web 开发框架&#xff0c;它采用动态语言 Groovy 进行开发&#xff0c;并且可以和用 Java 开发的项目进行集成。Grails 充分体现了约定优于配置的原则&#xff0c;将项目的…

Grails4.0.11入门

文章目录 Grails4.0.11介绍相关依赖入门⎮Java环境搭建⎮Grails环境搭建⎮如何创建grails应用⎮如何选择开发工具IDEA如何导入Grails项目 ⎮目录结构&#xff0c;约定优于配置⎮如何部署Grails项目1. 使用默认内嵌的Tomcat8部署2. 使用外部Tomtcat8部署3. 使用外部Tomcat7部署 …

grails java_Grails

十二、Grails 如今的Java Web开发对于需求来说已经变得过于复杂。当今众多Java领域的Web开发框架不仅使用复杂&#xff0c;而且并没有很好的遵循Don’t Repeat Yourself(DRY)原则。像Rails&#xff0c;Django和TurboGears这样的动态框架在Web开发领域开辟了一条新的道路&#x…

JAVA AIO编程

Asynchronous IO&#xff1a; 异步非阻塞的编程方式 与NIO不同&#xff0c;当进行读写操作时&#xff0c;只须直接调用API的read或write方法即可。这两种方法均为异步的&#xff0c;对于读操作而言&#xff0c;当有流可读取时&#xff0c;操作系统会将可读的流传入read方法的缓…

java aio_Java AIO详解

JDK1.7升级了NIO类库&#xff0c;升级后的NIO类库被称为NIO 2.0。 Java正式提供了异步文件I/O操作&#xff0c;同时提供了与UNIX网络编程事件驱动I/O对应的AIO。 AIO编程 NIO 2.0引入了新的异步通道的概念&#xff0c;并提供了异步文件通道和异步套接字通道的实现。 异步通道获…

Java I/O 模型之 AIO

❤️ 个人主页&#xff1a;水滴技术 &#x1f680; 支持水滴&#xff1a;点赞&#x1f44d; 收藏⭐ 留言&#x1f4ac; &#x1f338; 订阅专栏&#xff1a;Java 教程&#xff1a;从入门到精通 大家好&#xff0c;我是水滴~~ 文章目录 服务端API创建服务端套接字的异步通道接…

如何用AIO技术提高程序性能

写在前面 这是一篇关于 AIO 的文章。本篇文章详细对比了几个常见的I/O模型&#xff0c;并且介绍了AIO相关的一些API。 我把英文原文翻译过来整理成这篇文章。目的一个是自己学习&#xff0c;一个是方便不习惯看英文资料的同学进行学习。 英文原文地址&#xff1a; https://…

08【AIO编程】

八、AIO编程 8.1 AIO编程简介 8.1.1 AIO编程概述 AIO也叫异步非阻塞&#xff0c;JDK1.7之后的新特性&#xff0c;AIO引入异步通道的概念&#xff0c;采用了 Proactor 模式&#xff0c;简化了程序编写&#xff0c;有效的请求才启动线程&#xff0c;它的特点是先由操作系统完成…

linux aio进程简介,Linux AIO机制

Linux的I/O机制经历了一下几个阶段的演进&#xff1a; 1. 同步阻塞I/O: 用户进程进行I/O操作&#xff0c;一直阻塞到I/O操作完成为止。 2. 同步非阻塞I/O: 用户程序可以通过设置文件描述符的属性O_NONBLOCK&#xff0c;I/O操作可以立即返回&#xff0c;但是并不保证I/O操作成功…

关于aio

AIO 是异步非阻塞 同步意味着&#xff0c;在进行读写操作时&#xff0c;线程需要等待结果&#xff0c;还是相当于闲置 异步意味着&#xff0c;在进行读写操作时&#xff0c;线程不必等待结果&#xff0c;而是将来由操作系统来通过回调方式由另外的线程来获得结果 AIO的read方…