SpringBoot项目实现敏感词汇过滤

article/2025/9/30 22:43:22

记录背景:SpringBoot项目实现敏感词汇过滤

一:敏感词汇文件放置位置


二:说明:如果txt文件不能编译,pom文件添加下面配置

  <build><resources><resource><directory>src/main/resources</directory><includes><include>**/*.*</include></includes></resource></resources></build>

三:简单的内存缓存敏感词汇类

public class Cache {/*** 键值对集合*/private final static ConcurrentHashMap<String, List<String>> MAP = new ConcurrentHashMap<>();/*** 添加缓存  */public synchronized static void put(String key, List<String> data) {//清除原键值对Cache.remove(key);//不设置过期时间MAP.put(key, data);}/*** 读取缓存    */public static List<String> get(String key) {return MAP.get(key);}/*** 清除缓存*/public synchronized static void remove(String key) {MAP.remove(key);}
}

四:敏感词汇过滤替换为*

package cloud.exec.common.wordfilterutils;
import lombok.extern.slf4j.Slf4j;
import org.apache.commons.collections.CollectionUtils;
import org.apache.commons.lang3.StringUtils;
import org.springframework.core.io.DefaultResourceLoader;
import org.springframework.core.io.Resource;
import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.nio.charset.StandardCharsets;
import java.util.*;
/*** 敏感词汇过滤替换为** 说明:部分代码来源于互联网*/
@Slf4j
public class WordFilter {private final static String WORDS = "WORDS";private final static String REPLACE_CHAR = "*";private static HashMap sensitiveWordMap;/**     * 最小匹配规则     */private static int minMatchTYpe = 1;/**     * 最大匹配规则     */private static int maxMatchType = 2;/*** 敏感词汇过滤替换为*     ** @param text 待检测文字* @return 替换后文字*/public static String replaceWords(String text) {if (StringUtils.isBlank(text)) {return text;}//缓存获取敏感词汇原记录List<String> words = Cache.get(WORDS);if (CollectionUtils.isEmpty(words)) {//读取敏感词汇文件,存入缓存words = readWordsFile();Cache.put(WORDS, words);}if (CollectionUtils.isEmpty(words)) {return text;}//屏蔽敏感词汇return WordFilter.replaceSensitiveWord(words, text, WordFilter.minMatchTYpe);}/*** 读取敏感词汇文件*/private static List<String> readWordsFile() {List<String> list = new ArrayList<>();InputStream inputStream = null;InputStreamReader inputStreamReader = null;BufferedReader bufferedReader = null;try {Resource resource = new DefaultResourceLoader().getResource("classpath:words.txt");inputStream = resource.getInputStream();inputStreamReader = new InputStreamReader(inputStream, StandardCharsets.UTF_8);bufferedReader = new BufferedReader(inputStreamReader);String txt = "";while (StringUtils.isNotBlank(txt = bufferedReader.readLine())) {list.addAll(Arrays.asList(StringUtils.split(StringUtils.deleteWhitespace(StringUtils.replace(txt, ",", ",")),",")));}bufferedReader.close();inputStreamReader.close();inputStream.close();} catch (Exception e) {log.error("读取敏感词汇文件出错", e);} finally {try {if (bufferedReader != null) {bufferedReader.close();}if (inputStreamReader != null) {inputStreamReader.close();}if (inputStream != null) {inputStream.close();}} catch (Exception e) {log.error("读取敏感词汇文件出错", e);}}return list;}/*** 替换敏感字字符** @param data      敏感字集合* @param txt       待检查文本* @param matchType 匹配规则*/private static String replaceSensitiveWord(List<String> data, String txt, int matchType) {if (sensitiveWordMap == null) {addSensitiveWord(data);}String resultTxt = txt;//获取所有的敏感词List<String> set = getSensitiveWord(txt, matchType);Iterator<String> iterator = set.iterator();while (iterator.hasNext()) {resultTxt = resultTxt.replaceAll(iterator.next(), REPLACE_CHAR);}return resultTxt;}/*** 读取敏感词库,将敏感词放入HashSet中,构建一个DFA算法模型:* 说明:该方法来源于互联网*/private static void addSensitiveWord(List<String> datas) {sensitiveWordMap = new HashMap(datas.size());Iterator<String> iterator = datas.iterator();Map<String, Object> now = null;Map now2 = null;while (iterator.hasNext()) {now2 = sensitiveWordMap;String word = iterator.next().trim(); //敏感词for (int i = 0; i < word.length(); i++) {char key_word = word.charAt(i);Object obj = now2.get(key_word);if (obj != null) { //存在now2 = (Map) obj;} else { //不存在now = new HashMap<String, Object>();now.put("isEnd", "0");now2.put(key_word, now);now2 = now;}if (i == word.length() - 1) {now2.put("isEnd", "1");}}}}/*** 获取内容中的敏感词*说明:该方法来源于互联网* @param text      内容* @param matchType 匹配规则 1=不最佳匹配,2=最佳匹配* @return*/private static List<String> getSensitiveWord(String text, int matchType) {List<String> words = new ArrayList<String>();Map now = sensitiveWordMap;int count = 0; //初始化敏感词长度int start = 0; //标志敏感词开始的下标for (int i = 0; i < text.length(); i++) {char key = text.charAt(i);now = (Map) now.get(key);if (now != null) { //存在count++;if (count == 1) {start = i;}if ("1".equals(now.get("isEnd"))) { //敏感词结束now = sensitiveWordMap; //重新获取敏感词库words.add(text.substring(start, start + count)); //取出敏感词,添加到集合count = 0; //初始化敏感词长度}} else { //不存在now = sensitiveWordMap;//重新获取敏感词库if (count == 1 && matchType == 1) { //不最佳匹配count = 0;} else if (count == 1 && matchType == 2) { //最佳匹配words.add(text.substring(start, start + count));count = 0;}}}return words;}public WordFilter() {super();}
}

五:测试


http://chatgpt.dhexx.cn/article/kfEb9FQX.shtml

相关文章

敏感词过滤的php代码,ThinkPHP敏感词汇过滤

如果内容中包含敏感词汇&#xff0c;则返回False&#xff0c;否则返回True。 很简单的代码。 请将文件放置于 "项目/ORG/SensitiveFilter.class.php"下。 其中 “ SensitiveThesaurus.php”是一个敏感词汇数组&#xff0c;大家可以任意添加内容。 1.[代码][PHP]代码&…

JavaWeb 敏感词汇过滤器

1&#xff0c;基本功能 在提交数据时&#xff0c;常常需要检查数据中是否含有敏感词汇&#xff0c;有的话&#xff0c;需要屏蔽敏感词汇 2&#xff0c;实现原理 我们可以使用Filter过滤器&#xff0c;对数据进行检查与处理&#xff0c;将处理完毕的数据放行。因此&#xff0c;…

Filter 敏感词汇过滤案例

文章目录 一、需求分析二、案例实现 一、需求分析 &#xff08;1&#xff09;对案例录入的数据进行敏感词汇过滤 &#xff08;2&#xff09;敏感词汇参考敏感词汇.txt &#xff08;3&#xff09;如果是敏感词汇&#xff0c;替换为 *** 可以确定 Filter 和 servlet 中的 reques…

5分钟搞定敏感词过滤!

函数工作流(FunctionGraph,FGS)是一项基于事件驱动的函数托管计算服务,托管函数具备以毫秒级弹性伸缩、免运维、高可靠的方式运行。通过函数工作流,开发者无需配置和管理服务器,只需关注业务逻辑,编写函数代码,以无服务器的方式构建应用,便能开发出一个弹性高可用的后…

基础编程题目集 7-32 说反话-加强版 (20分)

#include <stdio.h> //标准c&#xff0c;没有用c的string&#xff0c;这样首先读取字符串就是个问题了 #define MAX 500000 //先处理字符串&#xff0c;删除多余的空格&#xff0c;形成新字符串 //Hello World Here I Come int main() {char s; //指单独一个字符c…

PTA 7-32 说反话-加强版

思路&#xff1a; 读入字符串str&#xff0c;那么用output数组存储每个单词的首字母&#xff0c;及尾字母后一字母在字符串的下标。那么已知这两个数据便可以输出该单词。 考虑到逆序输出的需要&#xff0c;逆序读取字符串。 如字符串”#apple##“&#xff08;#表示空格&#…

C++ 1009 说反话(20 分)

注意点1:转载自:https://blog.csdn.net/u011421608/article/details/44591579 我们先来看一段输入流cin>>和getline混用的代码: #include<iostream> #include<string> using namespace std;int main() {int age;string name;cout<<"请输入年…

7-32 说反话-加强版

7-32 说反话-加强版&#xff08;20 分&#xff09; 给定一句英语&#xff0c;要求你编写程序&#xff0c;将句中所有单词的顺序颠倒输出。 输入格式&#xff1a; 测试输入包含一个测试用例&#xff0c;在一行内给出总长度不超过500 000的字符串。字符串由若干单词和若干空格组成…

Sql Server char nchar varchar nvarchar 区别

一、 用快捷键AltF1 打开的表结构&#xff0c; 我们看到的length, nchar和nvarchar 需要除以2才是储存的真正长度 二 、 类型前缀的意思1.有var前缀的&#xff0c;表示是实际存储空间是变长的&#xff0c;varchar,nvarchar 所谓定长就是长度固定的&#xff0c;当输入的数据长度…

Sqlserver 中nchar(n)、varchar(n)、nvarchar(n)和nvarchar(max)的区别

nchar(n): 固定大小字符串数据。 n 用于定义字符串大小&#xff08;以双字节为单位&#xff09;&#xff0c;并且它必须是 1 到 4,000 之间的值。 存储大小为 n 字节的两倍。 varchar(n): 长度为 n 个字节的可变长度且非 Unicode 的字符数据。n 必须是一个介于 1 和 8,000 之间…

通过实战探索数据库中的char、varchar、varchar2、nvarchar2的部分区别

前言 注&#xff1a;本文的实践是在oracle数据库中进行的&#xff0c;主要基于字节与字符以及定长与变长方面考虑&#xff0c;探索这四个类型的部分区别 Oracle数据库中&#xff0c;char、varchar、varchar2、nvarchar2是我们常用到的数据类型 &#xff08;MySQL中没有varch…

nvarchar 和varchar区别

有时候设计字段的时候&#xff0c;碰到nvarchar和varchar时候&#xff0c;是有点犹豫。所以今天就来探个究竟把。 (一) varchar是非Unicode可变长度类型&#xff0c;nvarchar是Unicode编码可变长度类型 DECLARE name AS VARCHAR(50)我是中国人test SELECT name AS Name, DATAL…

oracle NVARCHAR2 数据类型

参考地址 https://docs.oracle.com/cd/B19306_01/server.102/b14225/ch7progrunicode.htm#sthref807 英语不好的看中文直译 utf8可能会影响性能&#xff0c;因为它是一个可变宽度字符集。NChar字段的空白填充过多会降低性能。考虑使用nvarchar数据类型或更改为nchar数据类型的a…

【ORACLE】谈一谈NVARCHAR2、NCHAR、NCLOB等数据类型和国家字符集

一、背景 一直以来&#xff0c;很多用过ORACLE数据库的开发人员&#xff0c;都知道在ORACLE中&#xff0c;字符类型可以为varchar2&#xff0c;也可以为nvarchar2&#xff0c;但是很多人都不知道这两种类型有什么区别&#xff0c;同样还有char/nchar,clob/nclob这些&#xff0…

Oracle NCHAR与NVARCHAR2 最大字符数和最大字节数

根据官方文档和实验测试整理一下常见问题以及相关结论&#xff0c;以NVARCHAR2为主。 一、 含义及用途 NCHAR和NVARCHAR2都是Unicode数据类型&#xff0c;存储Unicode字符数据。NCHAR和NVARCHAR2数据类型的对应的国家字符集&#xff08;NLS_NCHAR_CHARACTERSET&#xff09;只能…

foreach 中如何给数组赋值

最近发现&#xff0c;在foreach中给数组赋值&#xff0c;在foreach外&#xff0c;数组是没有变化的&#xff0c;对此情况&#xff0c;有特定的处理方法&#xff0c;特此记录一下&#xff1a; 如下&#xff0c;就是在foreach中&#xff0c;加上 $res[$k] $v;给$res重新赋值&am…

数组与数组赋值

int类型数组赋值 #include<stdio.h> int main() { int a[] {1,2,3,4,5,7}; printf("a[3]%d", a[3]); return 0; } char类型数组赋值 1.直接字符串赋值 char a[] "q,0/d"; 2.逐个赋值 char b[] { d,b,3,&am…

VBA 不能给数组赋值,其实只是不能给静态数组整体赋值

1 问题&#xff1a;VBA报错&#xff1a;不能给数组赋值&#xff01; 其实并不是 所有数组不能赋值其实是不能给静态数组&#xff0c;整体赋值&#xff01;只是因为当前处理的是一个静态数组 2 什么是静态数组 &#xff08;只是大小静态&#xff01;&#xff01; 赋值可变&…

天呐!java从键盘给数组赋值

开头 该文档在Github上收获5K+star的Java核心神技(这参数,质量多高就不用我多说了吧)非常全面,包含基础知识、Java集合、JVM、多线程并发、spring原理、微服务、Netty 与RPC 、Kafka、日记、设计模式、Java算法、数据库、Zookeeper、分布式缓存、数据结构等等内容非常丰富…

php数组赋值方式,php数组赋值方式

推荐操作系统&#xff1a;windows7系统、PHP5.6、DELL G3电脑 1、两种赋值 (1)传值赋值 在PHP中&#xff0c;传递赋值是默认的传递方式。如果某个变量的值被赋予了另一个变量&#xff0c;那么改变其中一个的值对其他变量没有影响。 (2)引用赋值 引用赋值意味着新变量简单地引用…