中文分词技术及应用

article/2025/9/23 0:32:32
			中文分词技术及应用

中文分词算法有5大类:
1、 基于词典的方法
2、基于统计的方法
3、基于规则的方法
4、基于字标注的方法
5、基于人工智能的技术(基于理解)的方法
中文分词目前有4个瓶颈:
1、分词歧义
2、未登陆词识别
3、分词粒度问题(表达相同意思的同一字串,在语料中存在不同的切分方式)
4、错别字与谐音字规范化
中文分词有5大评价标准:
1、分词正确率
2、切分速度
3、功能完备性
4、易扩展性与可维护性
中文信息处理包括3个层次:
1、词法分析(中文分词是第一步,词性标注)
2、句法分析:对输入的文本句子进行分析以得到句子的句法结构的处理过程,句法分析的输出结果常作为语义分析的输入。
2.1、短语结构句法分析:识别处句子中的短语结果以及短语间的层次句法关系
2.2、依存句法分析:识别句子中词汇与词汇之间的相互依存关系,属于浅层句法分析
2.3、深层文法句法分析:利用深层文法,如词汇化树邻接文法、词汇功能文法、组合范畴文法等,对句子进行深层句法分析。
3、语义分析:理解句子表达的真实语义
3.1、语义角色标注:属于浅层语义分析技术
在这里插入图片描述

1、基于词典的方法:字符串匹配,机器分词方法
原理:按照一定策略将待分析的汉字穿与一个“大词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。
1.1、按照扫描方向的不同:正向匹配&逆向匹配
1.2、按照长度的不同:最大匹配&最小匹配
1.3、按照是否与词性标注过程相结合:单纯分词方法&分词与标注相结合
1.1.1、基于字符串匹配方法:正向最大匹配算法(MM)
步骤:
1、从左向右取切分汉字句的m个字符串作为匹配字段,m为大机器词典中最长词条数
2、查找大机器词典并进行匹配,若匹配成功,则将这个匹配字段作为一个词切分出来,否则,则将这个匹配字段的最后一个词去掉,剩下的字符串继续匹配字段,直到以上过程切分到所有词为止。
优点:简单,易于实现
缺点:匹配速度慢,存在歧义切分问题,缺乏自学习的智能性。
2、基于统计的分词(无字典分词)
主要思想是:上下文中,相邻的字同时出现的次数越多,就越可能构成一个词。可以对训练文本中相邻出现的频度进行统计,计算他们之间的互现信息。互现信息体系了汉字之间结合的紧密程度。当紧密程度高于某一个阈值时,便可以认为此字组可能构成一个词。该方法又称无字典分词。
主要统计模型有:N 元文法模型、隐马尔科夫模型等
在实际应用中一般将其与基于词典的分词方法结合起来使用,即可以发挥分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
2.1、N-gram模型
N-gram模型思想:第n个词的出现只![在这里插入图片描述](htt
与前面n-1个词相关,整句的概率就是各个词出现概率的乘积。
2.2、隐马尔科夫模型
原理:根据观测者序列找到真正的隐藏状态值序列
中文分词的应用:在这里插入图片描述

3、具体应用
中文分词是大部分下游应用的基础,小到POS词性标注、NER命名实体识别,大到自动分类、自动摘要、语音模型、自动摘要、搜索引擎、机器翻译、语音合成等。
以下具体阐述:中文分词在搜索引擎中的应用:
搜索引擎针对用户提交查询的关键词串进行查询处理后,根据用户的关键词串用各种匹配方法进行分词。
搜索引擎的查询处理:
1、首先到数据库里搜索相关信息
2、若用户提交的字符串不超过3个汉字,则直接去数据库索引
3、分词:若超过4个字符串,则用分隔符把用户提交的字符串分割成N个子字符串查询
4、检索用户提供的字符串里有无重复词汇,若有则去掉,默认为一个词汇,检索用户提交的字符串是否有字母和数字,若有则把字母与数字当作一个词


http://chatgpt.dhexx.cn/article/xVmr1mR1.shtml

相关文章

【NLP】为什么中文分词比英文分词更难?有哪些常用算法?(附代码)

导读:人类文明的重要标志之一是语言文字的诞生。数千年来,几乎人类所有知识的传播都是以语言和文字作为媒介。 自然语言处理是使用计算机科学与人工智能技术分析和理解人类语言的一门学科。在人工智能的诸多范畴中,自然语言的理解以其复杂性、…

正向最大匹配中文分词算法

中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的…

NLP|中文分词技术及应用

摘要:中文分词是中文信息处理的重要基础,本文详细阐述了目前主要的几种中文分词算法的技术原理 、中文分词目前的瓶颈和评价准则,以及中文分词的具体应用。 中文分词指将一个汉字序列切分成一个个单独的词。现有的中文分词算法有五大类:基于词典的方法,基于统计的方法,基…

入门科普:一文看懂NLP和中文分词算法(附代码举例)

导读:在人类社会中,语言扮演着重要的角色,语言是人类区别于其他动物的根本标志,没有语言,人类的思维无从谈起,沟通交流更是无源之水。 所谓“自然”乃是寓意自然进化形成,是为了区分一些人造语言…

中文分词算法—— 基于词典的方法

1、基于词典的方法(字符串匹配,机械分词方法) 定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。 按照扫描方向的不同:正向匹配和逆向匹配…

【NLP】中文分词:原理及分词算法

一、中文分词 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。 Lucene中…

常见分词算法综述

常见分词算法综述 文章目录 常见分词算法综述一、基于词典的分词1. 最大匹配分词算法2. 最短路径分词算法:2.1基于dijkstra算法求最短路径:2.2N-dijkstra算法求最短路径:2.3. 基于n-gram model的分词算法: 二、基于字的分词算法生…

中文分词原理及分词工具介绍

转自:https://blog.csdn.net/flysky1991/article/details/73948971 本文首先介绍下中文分词的基本原理,然后介绍下国内比较流行的中文分词工具,如jieba、SnowNLP、THULAC、NLPIR,上述分词工具都已经在github上开源,后…

中文分词常见方法

中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法树等模块的效果…

自然语言处理之中文分词技术与算法

1 正向最大匹配法 1.1 正向最大匹配(Maximum Match Method, MM法)的基本思想: 假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词&#…

列举:中文分词算法你知道几种?

列举:中文分词算法你知道几种? 摘要:看似普通的一句话,甚至几个词,在机器眼里都要经过好几道“程序”。这个过程主要靠中文分词算法,这个算法分为三大类:机械分词算法、基于n元语法的分词算法、…

(转)Linux下管道的原理

7.1.1 Linux管道的实现机制 在Linux中,管道是一种使用非常频繁的通信机制。从本质上说,管道也是一种文件,但它又和一般的文件有所不同,管道可以克服使用文件进行通信的两个问题,具体表现为: 限制管…

Linux之进程间通信——管道

文章目录 前言一、进程间通信1.概念2.目的3.进程间通信分类 二、管道1.管道介绍2.管道分类1.匿名管道pipi创建管道文件,打开读写端fork子进程关闭父进程的写入端,关闭子进程的读取端读写特征管道特征 2.命名管道mkfifo创建管道文件删除管道文件通信 三、…

Linux系统中的管道通信

目录 管道如何通信 管道的访问控制机制: 匿名管道 匿名管道数据传输的原理 如何使用(代码案例) 用C/C代码编译实现父子进程间通信案例 : 思路 实现 命名管道 为什么要有命名管道 回归进程间通信的本质 匿名管道的短板…

linux 管道 (单管道与双管道)

管道的局限性: ①数据不能进程自己写,自己读。 ②管道中数据不可反复读取。-旦读走, 管道中不再存在。 ③采用半双工通信方式,数据只能在单方向上流动。 ④只能在有公共祖先的进程间使用管道 单通道将小写字母改为大写例程: #in…

Linux 管道文件

管道分为无名管道和有名管道两种管道,管道文件是建立在内存之上可以同时被两个进程访问的文件。 先来说说有名管道: mkfifo函数创建有名管道,属于系统调用。 在linux操作系统中为实现下述功能, 先创建一个有名管道文件fifo。 …

【Linux】Linux 管道命令Cut、sort、wc、uniq、tee、tr【一】

目录 🐋Cut— 根据条件 从命令结果中 提取 对应内容 🐋sort—可针对文本文件的内容,以行为单位来排序。 🐋wc命令— 显示/统计 指定文件 字节数, 单词数, 行数 信息. 🐋 uniq— 用于检查及删除文本文件中重复出现的…

Linux管道命令(pipe)全

目录 选取命令:cut、grep 传送门 排序命令:sort、wc、uniq 传送门 双向重定向:tee 字符转换命令:tr、col、join、paste、expand 传送门 划分命令:split 传送门 参数代换:xargs 传送门 关于减号…

Linux中管道命令的用法

原文地址:http://blog.csdn.net/wirelessqa/article/details/8968381 一. 管道命令 管道命令操作符是:”|”,它只能处理经由前面一个指令传出的正确输出信息,对错误信息信息没有直接处理能力。然后,传递给下一个命令,…

Linux管道符

管道 1、管道符 管道符:| 作用:管道是一种通信机制,通常用于进程间的通信。它表现出来的形式将前面每一个进程的输出(stdout)直接作为下一个进程的输入(stdin)。 2、过滤功能 # ls / | gr…