NLPIR(北理工张华平版中文分词系统)的SDK(C++)调用方法

article/2025/10/15 19:29:00

一、本文内容简介

  1. 关于中文分词的基本概念
  2. 关于NLPIR(北理工张华平版中文分词系统)的基本情况
  3. 具体SDK模块(C++版)的组装方法

二、具体内容

1. 中文分词的基本概念

中文分词是自然语言处理的一个分支,自然语言即人们在日常生活中使用的语言,包含书面语,口语,例如报纸上的一篇通讯,博客里面的一篇文章。之所以称其为自然语言,是因为它区别于计算机语言,计算机语言的文法与组织方式较为规范,自然语言则贴近人们生活。自然语言处理作为一项技术,在搜索引擎,机器语义理解和对话系统中有着基础和决定性的作用和价值,这方面比较知名的例如微软的cortana(微软小娜),以及国内各个互联网公司发布的智能音箱等。

2.关于NLPIR(北理工张华平版中文分词系统)的基本情况

北理工张华平版中文分词系统(NLPIR),又名中科院分词系统,是国内高校院所中开源力度相当大的一家(下文将简称北理工分词系统),另一家是哈工大中文分词系统(LTP)。北理工分词系统功能丰富,目前已经包含了以下功能:

  • 全文检索
  • 新词发现
  • 分词标注
  • 统计分析与术语翻译大数据聚类与热点分析
  • 大数据文本过滤
  • 自动摘要
  • 关键词提取
  • 文档去重
  • HTML正文提取
  • 编码自动识别与转换
  • NLPIR提供的组件包中含有13种SDK组件包:

  • Classify规则组件
  • Cluster聚类组件
  • DeepClassifier训练分类组件
  • DocExtractor实体抽取组件
  • HTMLPaser网站正文提取组件
  • NLPIR-ICTCLAS分词组件
  • JZsearch精准搜索组件
  • JZSearch精准搜索客户端组件
  • KeyExtract关键词提取组件
  • RedupRemover文档去重组件
  • Sentiment情感组件
  • SentimentAnalysis情感分析组件
  • Summary摘要组件

每个组件包内容介绍

  • doc:使用说明文档和API文档
  • include:头文件
  • lib:linux32,linux64,win32,win64等不同版本的库
  • projects:开发工程包
  • sample:C#,C++,java等不同语言的案例
  • Data:数据库

3.具体SDK模块(C++)的组装方式

注:以下组装方式以实体抽取模块(DocExtractor)为例,平台为VS2012

①准备内容:

前往Github下载源码,源码的数据量在740MB左右,因为DNS被禁的原因,一般网络的下载速度比较慢,几十kb的样子。博主的解决方法是使用国内的代码托管平台,例如本人使用的是码云( https://gitee.com),可以与Github关联同一个账户,将Github中的项目fork到码云中再进行下载,速度可以上每秒0.5MB。解压之后,如下图所示 项目所含文件> 实体抽取组件的路径为:NLPIR\NLPIR SDK\DocExtractor,其中包含的文件如下图SDK所含文件

②开始组装

emsp;1.点击新建—>项目—>其他语言—>Visual C++ —>空项目,名称为:DocExtractorCppTest,解决方案名称为:NLPIR-DE;如下图所示新建项目
 2.将路径(NLPIR\NLPIR SDK\DocExtractor\projects\DocExtractor_c++)中的main.cpp文件拷贝到项目目录下(我的路径为NLPIR-DE\DocExtractorCppTest\)。
 3.把路径(NLPIR\NLPIR SDK\DocExtractor\lib\win32)下的DocExtractor.dll以及DocExtractor.lib两个文件拷贝到项目目录下(我的路径为NLPIR-DE\DocExtractorCppTest\)。
 4.将(NLPIR\License\license for a month\DocExtractor文档提取授权)下面的DocExtractor.user拷贝到路径NLPIR\NLPIR SDK\DocExtractor\Data下
 5.将DATA文件夹拷贝到新建的解决方案目录下
 6.将路径NLPIR\NLPIR SDK\DocExtractor\include下的文件DocExtractor.h拷贝到项目目录下,我的路径为NLPIR-DE\DocExtractorCppTest
 7.经过以上操作,新建项目文件如下图解决方案内容项目内容
 9.在VS中右键单击项目—>添加—>现有项,把项目目录下的四个文件 DocExtractor.dll,DocExtractor.h,DocExtractor.lib,main.cpp添加进去,点击运行,而后报错,如下图所示,正常现象,这是因为部分代码没有修改的缘故。
 10.将如图所示的红色框中的代码去掉就可以,使dll文件及lib文件正确读取。去代码
 11.去掉之后再点击运行就可以正常运行了,效果如下最终运行效果# 三.注意事项
1. 之所以去掉红框中标注的代码是要把dll与lib的文件路径修改正确2. license授权文件每月更新一次,因此DATA文件夹下的授权文件DocExtractor.user要保持最新版本
2018.4.6


http://chatgpt.dhexx.cn/article/8SGHRmea.shtml

相关文章

哈工大中文分词系统LTP(pyltp)学习笔记

一、LTP简介 介绍:语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术。经过 哈工大社会计算与信息检索研究中心 11 年的持续研发和推广,LTP已经成为国内外最具影响力的中文…

比较热门好用的开源中文分词软件系统有哪些?

在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务&…

中科院分词系统整理笔记

NLPIR简介 一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。可以使用该软件对自己的数据进行处理。 NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统,从2009年开始&…

NLPIR汉语分词系统

灵玖软件:www.lingjoin.com 应各位ICTCLAS用户的要求,张华平博士正式发布ICTCLAS2013 版本,为了与以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检索共享平台,从本版本开始,系统名称调整为NLPIR汉…

使用NLPIR汉语分词系统进行分词

今天尝试了用张华平博士打造的汉语分词系统进行分词测试,遇到了一些问题,最终还是分词成功,首先感谢NLPIR提供的源码及资料,现将使用过程中遇到的问题及解决方法分享出来,仅供参考。 NLPIR提供了多种开发接口&#xf…

php中文分词nlp,几种常见的PHP中文分词系统

因为要做毕业设计,可能需要相关知识,所以在此总结一下常见的中文分词系统。 1)HTTPCWS – 基于HTTP协议的开源中文分词系统 张宴的作品,基于ICTCLAS 3.0 共享版,分词精度98.45%。可以采用HTTP方式调用借口。 2)SCWS – 简易中文分…

基于Java实现的中文分词系统

资源下载地址:https://download.csdn.net/download/sheziqiong/85941192 资源下载地址:https://download.csdn.net/download/sheziqiong/85941192 目录 1.问题描述 2.相关工作 3.系统框架和算法设计 3.1系统整体框架 3.2基于HMM模型分词算法设计 3…

基于Python的汉语分词系统

资源下载地址:https://download.csdn.net/download/sheziqiong/86776599 资源下载地址:https://download.csdn.net/download/sheziqiong/86776599 汉语分词系统 目录 汉语分词系统 1 摘要 1 1 绪论 1 2 相关信息 1 2.1 实验目标 1 2.2 编程语言与环境 2 …

ICTCLAS分词系统研究(一)

ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是该版的Free版开放了源代码,为我们很多初学者提供了宝贵的学习材料。 但有一点不完美的是,该源代码没有配套的文档,阅读起来可能有一定的障碍,尤其是对C/C++不熟的人来说.本…

自然语言处理——分词系统(正向最大匹配法)

算法分析 正向最大匹配法,对于输入的一段文本从左至右、以贪心的方式切分出当前位置上长度最大的词。正向最大匹配法是基于词典的分词方法,其分词原理是:单词的颗粒度越大,所能表示的含义越确切。该算法主要分两个步骤: 该算法主要分为两个步…

LTE学习-信道均衡(ZF)

前面学习了信道估计和插值,现在说说信道均衡,信道均衡的作用就是根据信道估计和插值的结果尽可能恢复发射数据。信道均衡技术主要有两种,迫零(ZF)均衡和最小均方误差(MMSE)均衡,实际上还有一个最大似然(ML)均衡,但计算…

解调去载波后均衡信道与实际信道的关系

关注公号【逆向通信猿】更精彩!!! 通常,信号经过调制后发送,会经过信道作用,示意图可以表示为 其中 x ( t ) x(t) x(t)为基带信号, e

WLAN信道利用率

WLAN空口/信道利用率监控大致如下 参数 说明 Ctl channel 主信道号 Channel Band 信道带宽 Ext Channel-11N产品支持 辅信道类型(Bellow/Above) Bellow:辅信道向下绑定 Above:辅信道向上绑定 CtlBusy(%) 主信道利用率 TxBusy(%) 发送帧利用率 RxBusy(%) 接收帧利用…

第7章:OFDM 信道估计与均衡(1)

第7章(1)内容如下: 一、OFDM相关书籍二、OFDM基本原理三、OFDM经过高斯白噪声信道的误码率分析三、总结 本人最近搞懂了OFDM的一些知识,便给本章取名为第7章——OFDM信道估计、均衡。本文所有代码下载地址是:123kevin4…

信道利用率

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接: https://blog.csdn.net/weixin_42682806/article/details/84592569 这又是计算机网络中的一个计算题所在,真题…

无线通信——基于MATLAB实现OFDM系统(信道估计与均衡)

基于MATLAB实现OFDM系统基带信号在频率选择性衰落信道条件下的发送与接收 题目及要求: 仿真系统构成:信号输入(为随机比特流)、OFDM调制、仿真信道传输、OFDM解调、信号输出(可能存在误码的比特率)&#…

信道模型

下面是4种信道模型: 什么是信道模型?信道模型是用数学表达式来描述信道特性的,H_rx_tx,例如h21表示1发2收,下图的n表示噪声加在每个接收天线上,在实际中,很多噪声进入一个接收天线中,例如n1是所…

第7章:OFDM 信道估计与均衡(4)

第7章(4)内容如下: 一、导频结构与图案二、基于导频的信道估计算法和插值方法 本文所有可运行代码下载地址是:123kevin456/OFDM- 一、导频结构与图案 前三讲介绍了OFDM经过AWGN信道和衰落信道的误码率情况,其中在第&…

信道均衡之线性均衡——迫零滤波器

在通讯系统中,信道是影响信号传输质量的最重要因素,而信道均衡目的是则为了消除信道的影响。 一个基带传输的通信系统的简单示意图如图1,数字信号m(n)经过单位冲激响应为ht(t)的发送滤波器后,变成模拟信号 s(t), 然后通过的单位冲…

4.4.5 信道均衡(二)

4.4.5 信道均衡(二) 基本上 《XILINX FPGA的OFDM通信系统基带设计》一书已经带有各部分的代码,我做的工作就是将代码整合到一起,并按照仿真修改,让其能正常工作。本文将对实现中的重点部分做解释,并指出…