文本关键词提取:ansj

article/2025/9/21 20:06:54

背景

因为文本内容里面,需要提取出关键词给到seo作关键词。

同时内容是中文的,需要找个对应的中文分词和提取工具。

ansj

根据官方介绍,感觉还是比较厉害的样子。

官方说明:

这是一个基于n-Gram+CRF+HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上。目前实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能。可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。

上手试用

maven

<dependency><groupId>org.ansj</groupId><artifactId>ansj_seg</artifactId><version>5.1.1</version>
</dependency>

然后传入文本进行调用。调用代码只有以下两行

//设置关键词数量
KeyWordComputer kwc = new KeyWordComputer(5);//文本抽取关键字。title是标题;content文本Collection<Keyword> result = kwc.computeArticleTfidf(title, content);

提取例子

/*** 关键词提取的例子* @author ansj**/public class KeyWordCompuerDemo {public static void main(String[] args) {KeyWordComputer kwc = new KeyWordComputer(5);String title = "维基解密否认斯诺登接受委内瑞拉庇护";String content = "有俄罗斯国会议员,9号在社交网站推特表示,美国中情局前雇员斯诺登,已经接受委内瑞拉的庇护,不过推文在发布几分钟后随即删除。俄罗斯当局拒绝发表评论,而一直协助斯诺登的维基解密否认他将投靠委内瑞拉。  俄罗斯国会国际事务委员会主席普什科夫,在个人推特率先披露斯诺登已接受委内瑞拉的庇护建议,令外界以为斯诺登的动向终于有新进展。  不过推文在几分钟内旋即被删除,普什科夫澄清他是看到俄罗斯国营电视台的新闻才这样说,而电视台已经作出否认,称普什科夫是误解了新闻内容。  委内瑞拉驻莫斯科大使馆、俄罗斯总统府发言人、以及外交部都拒绝发表评论。而维基解密就否认斯诺登已正式接受委内瑞拉的庇护,说会在适当时间公布有关决定。  斯诺登相信目前还在莫斯科谢列梅捷沃机场,已滞留两个多星期。他早前向约20个国家提交庇护申请,委内瑞拉、尼加拉瓜和玻利维亚,先后表示答应,不过斯诺登还没作出决定。  而另一场外交风波,玻利维亚总统莫拉莱斯的专机上星期被欧洲多国以怀疑斯诺登在机上为由拒绝过境事件,涉事国家之一的西班牙突然转口风,外长马加略]号表示愿意就任何误解致歉,但强调当时当局没有关闭领空或不许专机降落。";Collection<Keyword> result = kwc.computeArticleTfidf(title, content);System.out.println(result);}}

参考:https://github.com/NLPchina/ansj_seg/wiki/%E5%85%B3%E9%94%AE%E8%AF%8D%E6%8A%BD%E5%8F%96icon-default.png?t=M5H6https://github.com/NLPchina/ansj_seg/wiki/%E5%85%B3%E9%94%AE%E8%AF%8D%E6%8A%BD%E5%8F%96

总结

这个关键词抽取是个附带的功能,它主要还是分词


http://chatgpt.dhexx.cn/article/Gum5fQqd.shtml

相关文章

[转]NLP关键词提取方法总结及实现

最近在研究关键词的提取算法&#xff0c;看到一篇关于关键词提取算法的总结&#xff0c;比较全面了&#xff0c;在这里分享给大家&#xff0c;希望能够帮助同学们~ 原文链接&#xff1a;https://blog.nowcoder.net/n/ac016f8256f54c4b8c8784e99bccf28a (ps&#xff1a;作者同意…

文本中的关键词提取方法

目录 1. TF-IDF&#xff08;Term Frequency-Inverse Document Frequency&#xff09;算法&#xff1a; 2. TextRank算法&#xff1a; 3. LDA&#xff08;Latent Dirichlet Allocation&#xff09;算法&#xff1a; 4. RAKE&#xff08;Rapid Automatic Keyword Extraction&…

关键词抽取方法

1、关键词提取 为了方便用户快速了解文章的中心主题&#xff0c;会抽取文章的一些中心词来表达文章的中心思想。关键词抽取就是通过一定的方法抽取出能表达文章的中心主题的一系列方法。 2、关键词抽取方法分类 2.1、有监督无监督抽取方法 无监督关键词提取方法主要有三类&…

自然语言处理之——关键词提取(一)

一&#xff0e; 摘要 本次的分享中&#xff0c;我们将了解目前较常用的关键词提取技术。关键词是代表文章重要内容的一组词。在文本的分类聚类、自动摘要等方面有着重要的作用。还可以让人们更直观便捷的浏览文本信息。在现实的常用文本中是不包含关键词的&#xff0c;所以自动…

记一次 watchbog 挖矿病毒的清理

突然发现服务器上的mysql数据库连接不上遂使用xshell连接服务器查看进程发现被一个叫watchbog的进程沾满了cpu 通过查阅资料发现该病毒通过定时器 不断下载挖矿程序脚本 先清除 crontab中不属于自己的内容 kill掉所有的watchbog进程 bog 不是dog 查找到服务器上所有的…

手工清除Windows服务器上的Steam挖矿病毒:HackTool/CoinMiner.a及Trojan/Miner.ac

手工清除Windows服务器上的Steam挖矿病毒:HackTool/CoinMiner.a及Trojan/Miner.ac 起因&#xff1a; 最近服务器群里的两台Windows虚拟服务器上的CPU占用率超级高&#xff08;已经达到了91%&#xff09;&#xff0c;严重影响公司程序的正常运行&#xff0c;但是又不能安装杀毒软…

2019上半年恶意挖矿趋势报告

上一期&#xff0c;深信服安全团队对勒索病毒进行2019半年度总结&#xff0c;主要盘点了高发勒索家族、受灾区域分布、勒索病毒发展走向等。本期深信服安全团队对另一流行病毒类型——挖矿木马进行深入分析&#xff0c;给大家揭秘2019上半年挖矿木马的所作所为。 一、2019上半…

服务器被加了挖矿代码

2019独角兽企业重金招聘Python工程师标准>>> 平时很少使用的一台服务器&#xff0c;24G内存&#xff0c;在上面搭建了Hadoop环境。 突然发现负载好高&#xff0c;top看了一下&#xff0c;一个java进程占用了很多cpu 疑似国内来源的“8220挖矿团伙”追踪溯源分析 挖矿…

威胁快报|Nexus Repository Manager 3新漏洞已被用于挖矿木马传播,建议用户尽快修复...

2019独角兽企业重金招聘Python工程师标准>>> 背景 近日&#xff0c;阿里云安全监测到watchbog挖矿木马使用新曝光的Nexus Repository Manager 3远程代码执行漏洞(CVE-2019-7238)进行攻击并挖矿的事件。 值得注意的是&#xff0c;这一攻击开始的时间&#xff08;2月2…

威胁快报|ProtonMiner挖矿蠕虫扩大攻击面,加速传播

2019独角兽企业重金招聘Python工程师标准>>> 背景 近日&#xff0c;阿里云安全监测到一种挖矿蠕虫&#xff0c;正在互联网上加速传播。阿里云安全根据它使用ProtonMail邮箱地址作为矿池用户名的行为&#xff0c;将其命名为ProtonMiner。据分析&#xff0c;这种蠕虫与…

记一次mykings暗云挖矿木马的排查与解决

微信公众号&#xff1a;运维开发故事&#xff0c;作者&#xff1a;wanger 起因 之前有一台做测试的Windows server2012阿里云服务器的防火墙关掉之后开机总是启动&#xff0c;想了很多办法也没找到原因就提了工单问了售后&#xff0c;结果售后也没发现问题&#xff0c;并提示我…

应急响应流程以及入侵排查

归纳转载于&#xff1a; 应急响应的整体思路和基本流程 - FreeBuf网络安全行业门户不管是普通的企业&#xff0c;还是专业的安全厂商&#xff0c;都不可避免的需要掌握和运用好信息安全的知识、技能&#xff0c;以便在需要的时候&#xff0c;能够御敌千里。https://www.freebu…

阿里云服务器被挖矿程序minerd入侵的终极解决办法

突然发现阿里云服务器CPU很高&#xff0c;几乎达到100%&#xff0c;执行 top c 一看&#xff0c;吓一跳&#xff0c;结果如下&#xff1a; 3798 root 20 0 386m 7852 1272 S 300.0 0.1 4355:11 /tmp/AnXqV -B -a cryptonight -o stratumtcp://xmr.crypto-pool.fr:44…

如何更有效的消灭watchdogs挖矿病毒?华为云DCS Redis为您支招

2019独角兽企业重金招聘Python工程师标准>>> 漏洞概述 近日&#xff0c;互联网出现watchdogs挖矿病毒&#xff0c;攻击者可以利用Redis未授权访问漏洞入侵服务器&#xff0c;通过内外网扫描感染更多机器。被感染的主机出现 crontab 任务异常、系统文件被删除、CPU 异…

2t3ik与ddgs挖矿病毒处理

为什么80%的码农都做不了架构师&#xff1f;>>> http://ju.outofmemory.cn/entry/351669 转载于:https://my.oschina.net/lgfei/blog/1809898

Linux 服务器上有挖矿病毒 kdevtmpfsi 如何处理?

本文转载自&#xff1a;https://my.oschina.net/u/4437985/blog/3168526 侵删 症状表现 服务器CPU资源使用一直处于100%的状态&#xff0c;通过 top 命令查看&#xff0c;发现可疑进程 kdevtmpfsi。通过 google搜索&#xff0c;发现这是挖矿病毒。 排查方法 首先&#xf…

[问题已处理]-阿里云与本地机房中挖矿病毒处理,又又又中毒了

导语&#xff1a;被挖矿的现象是cpu异常的高。正常服务被系统杀掉。 先是发现线上业务挂了。紧接着发现本地机房也挂了。判断病毒应该是由本地机房的跳板机或者开放的端口&#xff0c;或dubbo框架漏洞进来的 基本判断是confluence最新的漏洞导致的 http://www.hackdig.com/0…

IDEA连接阿里云ECS运行的docker,及处理挖矿病毒kdevtmpfsi的经历

文章目录 前置条件docker版本&#xff1a;1.13.1相关参考文章 1.修改docker相关配置1.1 修改docker配置文件1.2 重新加载配置文件1.3 重启docker 2.配置阿里云ECS开放端口23753.配置IDEA的原生插件连接Docker4.配置IDEA的AlibabaCloudToolkit插件连接Docker5.因为开放了远程连接…

【安全攻防系列】教你如何 ssh暴力破解、捕捉短连接、清理挖矿病毒、盖茨木马和DDOS病毒

文章目录 ssh暴力破解0x00 前言0x01 应急场景0x02 日志分析系统账号情况/var/log/secure/var/log/auth.log0x03 处理措施0x04 我的实战记录捕捉短连接0x00 前言0x01 应急场景0x02 分析0x03 小结挖矿病毒0x00 前言0x01 应急场景0x02 事件分析A、排查过程B、溯源分析C、清除病毒D…

某云服务器挖矿病毒查杀日记

接手的某项目部署于某云平台centos服务器上&#xff0c;由tomcat作为中间件提供应用&#xff0c;且购买了该平台的域名服务&#xff0c;从2019年底上线运营&#xff0c;一直运行比较平稳&#xff0c;可能还没正式用起来&#xff0c;用的人也不是很多吧。但凡事总有个但是&#…