智能语言-中科院分词系统ICTCLAS(NLPIR)

article/2025/10/15 19:26:33

智能语言的处理中,第一个步骤就是分词。一个句子处理的第一步就是分词了,目前而言中文分词中效果最好的就是中科院分词系统。在2014版本以及之前称为ICTCLAS,之后的版本都更名为NLPIR。
我给出一个最简单的使用教程,能够帮助新手快速上手使用。
我使用的开发环境是eclipse,32位操作系统
首先是下载,下载两个压缩包,一个是分词包一个接口包,ICTCLAS是纯C编写,在java上使用需要JNI也就是c语言加一个java接口,NLPIR有java版本,我使用的是ICTCLAS加一个接口的方法。
点击转至下载地址,代码为U1115的是32位分词包U1105是64位。http://ictclas.nlpir.org/newsdownloads?DocId=384 下载JNI。
分别解压后待用。
解压开分词包,新建一个项目,将Data目录拷贝到file目录;解压开JNI包将NLPIR.dll动态链接库放到项目目录下,与file目录同级。想利用原有文献测试的话把test也复制过去。我的图传不上来,借用一张图。
这里写图片描述
复制一点代码测试一下

public class TestUTF8 {
public static void main(String[] args) {try {testUTF8();} catch (Exception e) {e.printStackTrace();}
}static void testUTF8() throws Exception {// 创建接口实例NLPIR nlpir = new NLPIR();if (!NLPIR.NLPIR_Init("./file/".getBytes("utf-8"), 1)) {System.out.println("NLPIR初始化失败...");return;}String temp = "每天的日报都记得要发送, 以配合经理掌握项目的进度情况.";// 要统一编码, 否则分词结果会产生乱码byte [] resBytes = nlpir.NLPIR_ParagraphProcess(temp.getBytes("UTF-8"), 1);//byte [] resBytes = nlpir.NLPIR_ParagraphProcess(temp.getBytes("UTF-8"), 0);System.out.println("分词结果: " + new String(resBytes, "UTF-8"));String utf8File = "./test/test-utf8.TXT";String utf8FileResult = "./test/test-utf8_result.TXT";nlpir.NLPIR_FileProcess(utf8File.getBytes("utf-8"), utf8FileResult.getBytes("utf-8"), 1);
//  nlpir.NLPIR_FileProcess(utf8File.getBytes("utf-8"), utf8FileResult.getBytes("utf-8"), 0);//不带有词性标注的分词结果 // 退出, 释放资源NLPIR.NLPIR_Exit();
}
}

试试看,如果出现一行错误,那么恭喜你,你下载的分词包过期了^-^下载一个最新的版本,也就是NLPIR或者是ICTCLAS2015,把里面的data文件夹复制替换了,这里好多博客都写错了,并不完全是编码的问题data过期才是最主要的。


http://chatgpt.dhexx.cn/article/HxCq6GUr.shtml

相关文章

NLPIR(北理工张华平版中文分词系统)的SDK(C++)调用方法

一、本文内容简介 关于中文分词的基本概念关于NLPIR(北理工张华平版中文分词系统)的基本情况具体SDK模块(C版)的组装方法 二、具体内容 1. 中文分词的基本概念 中文分词是自然语言处理的一个分支,自然语言即人们在日常生活中使用的语言,包含书面语,口…

哈工大中文分词系统LTP(pyltp)学习笔记

一、LTP简介 介绍:语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术。经过 哈工大社会计算与信息检索研究中心 11 年的持续研发和推广,LTP已经成为国内外最具影响力的中文…

比较热门好用的开源中文分词软件系统有哪些?

在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务&…

中科院分词系统整理笔记

NLPIR简介 一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。可以使用该软件对自己的数据进行处理。 NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统,从2009年开始&…

NLPIR汉语分词系统

灵玖软件:www.lingjoin.com 应各位ICTCLAS用户的要求,张华平博士正式发布ICTCLAS2013 版本,为了与以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检索共享平台,从本版本开始,系统名称调整为NLPIR汉…

使用NLPIR汉语分词系统进行分词

今天尝试了用张华平博士打造的汉语分词系统进行分词测试,遇到了一些问题,最终还是分词成功,首先感谢NLPIR提供的源码及资料,现将使用过程中遇到的问题及解决方法分享出来,仅供参考。 NLPIR提供了多种开发接口&#xf…

php中文分词nlp,几种常见的PHP中文分词系统

因为要做毕业设计,可能需要相关知识,所以在此总结一下常见的中文分词系统。 1)HTTPCWS – 基于HTTP协议的开源中文分词系统 张宴的作品,基于ICTCLAS 3.0 共享版,分词精度98.45%。可以采用HTTP方式调用借口。 2)SCWS – 简易中文分…

基于Java实现的中文分词系统

资源下载地址:https://download.csdn.net/download/sheziqiong/85941192 资源下载地址:https://download.csdn.net/download/sheziqiong/85941192 目录 1.问题描述 2.相关工作 3.系统框架和算法设计 3.1系统整体框架 3.2基于HMM模型分词算法设计 3…

基于Python的汉语分词系统

资源下载地址:https://download.csdn.net/download/sheziqiong/86776599 资源下载地址:https://download.csdn.net/download/sheziqiong/86776599 汉语分词系统 目录 汉语分词系统 1 摘要 1 1 绪论 1 2 相关信息 1 2.1 实验目标 1 2.2 编程语言与环境 2 …

ICTCLAS分词系统研究(一)

ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是该版的Free版开放了源代码,为我们很多初学者提供了宝贵的学习材料。 但有一点不完美的是,该源代码没有配套的文档,阅读起来可能有一定的障碍,尤其是对C/C++不熟的人来说.本…

自然语言处理——分词系统(正向最大匹配法)

算法分析 正向最大匹配法,对于输入的一段文本从左至右、以贪心的方式切分出当前位置上长度最大的词。正向最大匹配法是基于词典的分词方法,其分词原理是:单词的颗粒度越大,所能表示的含义越确切。该算法主要分两个步骤: 该算法主要分为两个步…

LTE学习-信道均衡(ZF)

前面学习了信道估计和插值,现在说说信道均衡,信道均衡的作用就是根据信道估计和插值的结果尽可能恢复发射数据。信道均衡技术主要有两种,迫零(ZF)均衡和最小均方误差(MMSE)均衡,实际上还有一个最大似然(ML)均衡,但计算…

解调去载波后均衡信道与实际信道的关系

关注公号【逆向通信猿】更精彩!!! 通常,信号经过调制后发送,会经过信道作用,示意图可以表示为 其中 x ( t ) x(t) x(t)为基带信号, e

WLAN信道利用率

WLAN空口/信道利用率监控大致如下 参数 说明 Ctl channel 主信道号 Channel Band 信道带宽 Ext Channel-11N产品支持 辅信道类型(Bellow/Above) Bellow:辅信道向下绑定 Above:辅信道向上绑定 CtlBusy(%) 主信道利用率 TxBusy(%) 发送帧利用率 RxBusy(%) 接收帧利用…

第7章:OFDM 信道估计与均衡(1)

第7章(1)内容如下: 一、OFDM相关书籍二、OFDM基本原理三、OFDM经过高斯白噪声信道的误码率分析三、总结 本人最近搞懂了OFDM的一些知识,便给本章取名为第7章——OFDM信道估计、均衡。本文所有代码下载地址是:123kevin4…

信道利用率

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接: https://blog.csdn.net/weixin_42682806/article/details/84592569 这又是计算机网络中的一个计算题所在,真题…

无线通信——基于MATLAB实现OFDM系统(信道估计与均衡)

基于MATLAB实现OFDM系统基带信号在频率选择性衰落信道条件下的发送与接收 题目及要求: 仿真系统构成:信号输入(为随机比特流)、OFDM调制、仿真信道传输、OFDM解调、信号输出(可能存在误码的比特率)&#…

信道模型

下面是4种信道模型: 什么是信道模型?信道模型是用数学表达式来描述信道特性的,H_rx_tx,例如h21表示1发2收,下图的n表示噪声加在每个接收天线上,在实际中,很多噪声进入一个接收天线中,例如n1是所…

第7章:OFDM 信道估计与均衡(4)

第7章(4)内容如下: 一、导频结构与图案二、基于导频的信道估计算法和插值方法 本文所有可运行代码下载地址是:123kevin456/OFDM- 一、导频结构与图案 前三讲介绍了OFDM经过AWGN信道和衰落信道的误码率情况,其中在第&…

信道均衡之线性均衡——迫零滤波器

在通讯系统中,信道是影响信号传输质量的最重要因素,而信道均衡目的是则为了消除信道的影响。 一个基带传输的通信系统的简单示意图如图1,数字信号m(n)经过单位冲激响应为ht(t)的发送滤波器后,变成模拟信号 s(t), 然后通过的单位冲…