Elasticsearch 英文分词中文分词

Elasticsearch 英文分词中文分词

article/2025/9/13 16:43:28

对于倒排索引来说，很重要的一件事情就是需要对文本进行分词，经过分词可以获取情感、词性、质性、词频等等的数据。

Elasticsearch 分词工作原理

在 Elasticsearch 中进行行分词的需要经过分析器的3个模块，字符过滤器将文本进行替换或者删除，在由分词器进行拆分成单词，最后由Token过滤器将一些无用语气助词删掉。
在这里插入图片描述

英文分词

在Elasticsearch 中共支持5种不同的分词模式，在不同的场景下发挥不同的效果。

standard (过滤标点符号)

GET /_analyze
{"analyzer": "standard","text": "The programmer's holiday is 1024!"
}

在这里插入图片描述

simple (过滤数字和标点符号)

GET /_analyze
{"analyzer": "simple","text": "The programmer's holiday is 1024!"
}

在这里插入图片描述

whitespace (不过滤，按照空格分隔)

GET /_analyze
{"analyzer": "whitespace","text": "The programmer's holiday is 1024!"
}

在这里插入图片描述

stop (过滤停顿单词及标点符号，例如is are等等)

GET /_analyze
{"analyzer": "stop","text": "The programmer's holiday is 1024!"
}

在这里插入图片描述

keyword (视为一个整体不进行任何处理)

GET /_analyze
{"analyzer": "keyword","text": "The programmer's holiday is 1024!"
}

在这里插入图片描述

中文分词

因为 Elasticsearch 默认的分词器只能按照单字进行拆分，无法具体分析其语意等，所以我们使用 analysis-icu 来代替默认的分词器。

GET /_analyze
{"analyzer": "standard","text": "南京市长江大桥"
}

在这里插入图片描述

通过命令./bin/elasticsearch-plugin install analysis-icu进行安装

GET /_analyze
{"analyzer": "icu_analyzer","text": "南京市长江大桥"
}

在这里插入图片描述

其他的中文分词器

elasticsearch-thulac-plugin 支持中文分词和词性标注功能
https://github.com/microbun/elasticsearch-thulac-plugin

elasticsearch-analysis-ik 支持热更新分词字典及自定义词库
https://github.com/medcl/elasticsearch-analysis-ik

http://chatgpt.dhexx.cn/article/l9J8UQPJ.shtml

相关文章

【ElasticSearch】分词器（ElasticSearchIK分词器）

【ElasticSearch】分词器（ElasticSearchIK分词器）

1. 分词器介绍 •IKAnalyzer 是一个开源的，基于java语言开发的轻量级的中文分词工具包•是一个基于Maven构建的项目•具有60万字/秒的高速处理能力•支持用户词典扩展定义 2. ik 分词器安装 IK 分词器安装 3. 分词器的使用 IK分词器有两种分词模式：ik…

阅读更多...

ElasticSearch中文分词，看这一篇就够了

ElasticSearch中文分词，看这一篇就够了

写在前面：我是「且听风吟」，目前是某上市游戏公司的大数据开发工程师，热爱大数据开源技术，喜欢分享自己的所学所悟，现阶段正在从头梳理大数据体系的知识，以后将会把时间重点放在Spark和Flink上面。如果你…

阅读更多...

Ik分词器（自定义分词-mysql）

Ik分词器（自定义分词-mysql）

引言：ik分词器的分词范围不够广泛。某些特定行业的专业用语分词能力就不够了，此时就需要自定义分词，与停顿词。 1、下载ik分词器源码 git地址：https://github.com/medcl/elasticsearch-analysis-ik/releases?page2 下载对应的…

阅读更多...

分词器详解

分词器详解

在全文搜索（Fulltext Search）中，**词（Term）**是一个搜索单元，表示文本中的一个词，**标记（Token）**表示在文本字段中出现的词，由词的文本、在原始文本中的开始…

阅读更多...

ES-分词器

ES-分词器

简介分词器是es中的一个组件，通俗意义上理解，就是将一段文本按照一定的逻辑，分析成多个词语，同时对这些词语进行常规化的一种工具；ES会将text格式的字段按照分词器进行分词，并编排成倒排索引，…

阅读更多...

IK分词器

IK分词器

IK分词器是ES的一个插件，主要用于把一段中文或者英文的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词器是将每个字看成一个词,比如"我爱技术"会被分为"我…

阅读更多...

Elasticsearch连续剧之分词器

Elasticsearch连续剧之分词器

目录一、前言二、默认分词器三、IK分词器1.主要算法2.安装IK分词器2.1 关闭es服务2.2 上传ik分词器到虚拟机2.3 解压2.4 启动ES服务2.5 测试分词器效果2.6 IK分词器词典四、拼音分词器1.安装2.测试分词效果五、自定义分词器1.创建自定义分词器2.测试一、前言 ES文档的数据…

阅读更多...

jieba分词

jieba分词

一、jieba简介 jieba库是一款优秀的 Python 第三方中文分词库，jieba 支持三种分词模式：精确模式、全模式和搜索引擎模式，下面是三种模式的特点。精确模式： 试图将语句最精确的切分，不存在冗余数据，适合做…

阅读更多...

NLP-分词综述

NLP-分词综述

NLP-分词综述一、什么是分词？二、为什么要分词1、将复杂问题转化为数学问题2. 词是⼀个⽐较合适的粒度3. 深度学习时代，部分任务中也可以「分字」三、中英⽂分词的3个典型区别1.分词⽅式不同，中⽂更难2.英⽂单词有多种形态3.中⽂分词需要考…

阅读更多...

Jieba中文分词 (一) ——分词与自定义字典

Jieba中文分词 (一) ——分词与自定义字典

jieba分词特点支持四种分词模式： 精确模式试图将句子最精确地切开，适合文本分析；全模式把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式在精确模式的基础上，对长词再次…

阅读更多...

【NLP学习】中文分词

【NLP学习】中文分词

word segmentation 1.概述2.分词方法(1)基于词典的机械分词法①正向最大匹配（FMM）②逆向最大匹配（BMM）③双向最大匹配 (2)基于统计的分词法①基于互信息的分词方法②最大概率分词方法 3.分词粒度4.中文分词工具5.总结 1.概述 *◆…

阅读更多...

基于字典的中文分词

基于字典的中文分词

中文分词介绍中文分词就是将一个汉语句子中的词切分出来。为机器翻译、文本挖掘、情感分析等任务打好基础。为什么一定要先进行分词呢？这就像 26 个字母一样，单个字母并不能表达某个意思，将其组合起来成为一个英文单词才有意义。中文虽然有…

阅读更多...

【ElasticSearch】中文分词器

【ElasticSearch】中文分词器

ES默认的analyzer（分词器），对英文单词比较友好，对中文分词效果不好。不过ES支持安装分词插件，增加新的分词器。 1、如何指定analyzer？ 默认的分词器不满足需要，可以在定义索引映射的时候&#…

阅读更多...

Elasticsearch之中文分词器

Elasticsearch之中文分词器

📢📢📢📣📣📣 哈喽！大家好，我是【一心同学】，一位上进心十足的【Java领域博主】！😜😜😜 ✨【一心同学】的写作风格&#x…

阅读更多...

各种中文分词工具的使用方法

各种中文分词工具的使用方法

诸神缄默不语-个人CSDN博文目录本文将介绍jieba、HanLP、LAC、THULAC、NLPIR、spacy、stanfordcorenlp、pkuseg等多种中文分词工具的简单使用方法。对于可以在多种语言上使用的工具，本文仅介绍其在Python语言上的使用。文章目录 1. jieba2. HanLP3. LAC4. THULA…

阅读更多...

中文分词方法

中文分词方法

词条化分词又叫做词条化（tokenlize），指的是将原始的字符流转换成一个一个词条（token）的过程。词条化属于自然语言处理中预处理的一个步骤，它是分析语义的基础。下图是一个词条化的例子。在不同的语言中&…

阅读更多...

细说中文分词

细说中文分词

完整的中文自然语言处理过程一般包括以下五种中文处理核心技术：分词、词性标注、命名实体识别、依存句法分析、语义分析。其中，分词是中文自然语言处理的基础，搜素引擎、文本挖掘、机器翻译、关键词提取、自动摘要生成等等技术都会用到中文分…

阅读更多...

【Grails4+spring security】

【Grails4+spring security】

Grails4spring security实现单用户登录描述1、新建项目目录结构如图所示2、打开根目录下的build.gradle文件，dependencies中添加spring-security依赖3、创建用户、角色的domain4、创建登录控制器LoginController5、创建注销控制器 LogoutController6、自定义一个Co…

阅读更多...

Grails配置-基本配置-如何覆盖默认配置，在哪里进行自定义配置

Grails配置-基本配置-如何覆盖默认配置，在哪里进行自定义配置

文章目录 Grails配置基本配置⎮Grails4风格配置⎮Grails2风格的Groovy配置⎮使用GrailsApplication对象访问配置信息在控制器中使用grailsApplication对象能获取到的配置信息有哪些在业务层中使用grailsApplication对象方式一在业务层中使用grailsApplication对象方式二…

阅读更多...

Grails 的插件开发

Grails 的插件开发

警告：本文还未整理，可读性差，还只是草稿文档 Grails Plugin Develop Document grails-spring-security-core 插件文档 grails-spring-security-rest插件文档创建插件执行命令行 grails create-plugin <<PLUGIN NAME>>即…

阅读更多...

推荐文章