DFA算法实战-敏感词过滤

前言

这里的项目实战, 我们使用的是 SpringBoot2.x+JDK1.8搭建的,核心思想是借助了Hutool工具类的 WordTree。想了解更多DFA算法的实现可以参考DFA算法的实现

实战案例

1. 引入Hutool的工具类

<dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.8.18</version>
</dependency>

2. 自定义铭感词过滤处理器

Hutool工具类中定义了 SensitiveProcessor 接口,它的作用是把敏感词替换成 *

package cn.hutool.dfa;/*** @author 肖海斌* 敏感词过滤处理器,默认按字符数替换成**/
public interface SensitiveProcessor {/*** 敏感词过滤处理* @param foundWord 敏感词匹配到的内容* @return 敏感词过滤后的内容,默认按字符数替换成**/default String process(FoundWord foundWord) {int length = foundWord.getFoundWord().length();StringBuilder sb = new StringBuilder(length);for (int i = 0; i < length; i++) {sb.append("*");}return sb.toString();}
}

我们可以根据不同的业务需求,实现不同的处理器。这里可以定义了一个默认处理器高亮处理器

SensitiveDefaultProcessor 默认处理器和原逻辑一样,可以直接调用父类的process()方法实现把铭感词替换为*

import cn.hutool.dfa.FoundWord;
import cn.hutool.dfa.SensitiveProcessor;/*** 自定义敏感词*号替代处理器*/
public class SensitiveDefaultProcessor implements SensitiveProcessor {}

SensitiveHighlightProcessor 定义了敏感词进行高亮处理,可以在铭感词前后打上对应的标签。


import cn.hutool.dfa.FoundWord;
import cn.hutool.dfa.SensitiveProcessor;/*** 自定义敏感词高亮处理器*/
public class SensitiveHighlightProcessor implements SensitiveProcessor {private static final String SHIELD_START = "<shield>";private static final String SHIELD_END = "</shield>";private static final String DST_START = "<dst>";private static final String DST_END = "</dst>";private static final String WARN_START = "<warn>";private static final String WARN_END = "</warn>";@Overridepublic String process(FoundWord foundWord) {String word = foundWord.getFoundWord();StringBuilder sb = new StringBuilder();sb.append(WARN_START).append(word).append(WARN_END);return sb.toString();}public String process(FoundWord foundWord, SensitiveWordModeEnum mode) {String word = foundWord.getFoundWord();StringBuilder sb = new StringBuilder();if (SensitiveWordModeEnum.SHIELD.equals(mode)) {sb.append(SHIELD_START).append(word).append(SHIELD_END);} else if (SensitiveWordModeEnum.DST.equals(mode)) {sb.append(DST_START).append(word).append(DST_END);} else if (SensitiveWordModeEnum.WARN.equals(mode)) {sb.append(WARN_START).append(word).append(WARN_END);}return sb.toString();}
}

其中 SensitiveWordModeEnum 是自己定义的一个敏感词模式枚举

import com.baomidou.mybatisplus.annotation.EnumValue;
import com.fasterxml.jackson.annotation.JsonValue;
import lombok.AllArgsConstructor;
import lombok.Getter;/*** 敏感词模式枚举**/
@AllArgsConstructor
@Getter
public enum SensitiveWordModeEnum {SHIELD("SHIELD", "屏蔽"),DST("DST", "脱敏"),WARN("WARN", "警告");@EnumValue@JsonValueprivate final String code;private final String name;
}

3. 定义铭感词初始化工具

通常来说,铭感词的内容是相对固定的。我们在项目启动时可以进行预加载。当铭感词变更时,我们可以通过更新本地缓存,定时刷新的方法进行处理。

Tips: 我们可以定义初始化类,它实现了ApplicationRunner接口。这个类中的 run方法将会在Boot项目的程序的入口方法 main 执行完毕之后被调用。在该类中可以定义一些应用程序启动后需要进行初始化的操作任务


/*** 敏感词工具类*/
@Slf4j
@Component
public class SensitiveWordUtil implements ApplicationRunner {// 一个定义铭感词查找的Dao层 [查询数据库中的敏感词数据]@Resourceprivate SensitiveWordConfigDao sensitiveWordConfigDao;// DFA敏感词树private static final WordTree SENSITIVE_TREE = new WordTree();// 定义了一个初始化的敏感词容器private static final ConcurrentHashMap<String, SensitiveWordConfigVO> SENSITIVE_WORDS_MAP = new ConcurrentHashMap<>();@Overridepublic void run(ApplicationArguments args) {// 1.查询数据库中的铭感词列表List<SensitiveWordConfig> sensitiveWordConfigList = sensitiveWordConfigDao.list();if (ObjectUtil.isEmpty(sensitiveWordConfigList)) {return;}for (SensitiveWordConfig sensitiveWord : sensitiveWordConfigList) {// 1.1 敏感词VO对象的转换SensitiveWordConfigVO sensitiveWordConfigVO = new SensitiveWordConfigVO();BeanUtils.copyProperties(sensitiveWord, sensitiveWordConfigVO);                       //1.2 本地容器缓存的初始化SENSITIVE_WORDS_MAP.put(sensitiveWordConfigVO.getWord(), sensitiveWordConfigVO);}// 1.3 初始DFA敏感词树this.init(ListUtil.toList(SENSITIVE_WORDS_MAP.keys()), true);log.info("初始化敏感词库完毕, 共" + sensitiveWordConfigList.size() + "个敏感词");}/*** 初始化敏感词树* @param isAsync        是否异步初始化* @param sensitiveWords 敏感词列表*/public void init(final Collection<String> sensitiveWords, boolean isAsync) {if (isAsync) {ThreadUtil.execAsync(() -> {init(sensitiveWords);return true;});} else {init(sensitiveWords);}}/*** 初始化敏感词树** @param sensitiveWords 敏感词列表*/public void init(Collection<String> sensitiveWords) {SENSITIVE_TREE.clear();SENSITIVE_TREE.addWords(sensitiveWords);}
}

上面的工具类调用 run() 方法后,就能实现铭感词容器的初始化
除了定义一些最基础的初始化步骤外,我们可以把一些添加铭感词,移除敏感词,查找等方法都定义在该类中。

// 添加敏感词
public static void addSensitiveWord(SensitiveWordConfig sw) {SensitiveWordConfigVO vo = new SensitiveWordConfigVO();BeanUtils.copyProperties(sensitiveWord, vo);      SENSITIVE_WORDS_MAP.put(sw.getWord(), vo);SENSITIVE_TREE.addWord(sw.getWord());
}// 移除敏感词
public static void removeSensitiveWord(String word) {SENSITIVE_WORDS_MAP.remove(word);SENSITIVE_TREE.clear();SENSITIVE_TREE.addWords(ListUtil.toList(SENSITIVE_WORDS_MAP.keySet()));
}/*** 查找敏感词,返回找到的第一个敏感词** @param text 文本* @return 敏感词* @since 5.5.3*/
public static FoundWord getFoundFirstSensitive(String text) {return SENSITIVE_TREE.matchWord(text);
}// 还可以通过上面的processor处理器进行敏感词处理

至此,我们在项目中只要引入SensitiveWordUtil 工具类,就能实现敏感词的基本操作了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/614241.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 基础【八】--数据类型-字典【2024.1.11】

1.定义 字典的内容在花括号 {} 内&#xff0c;键-值&#xff08;key-value&#xff09;之间用冒号 : 分隔&#xff0c;键值对之间用逗号 , 分隔&#xff0c;比如创建字典 &#xff0c;如下所示&#xff1a; d{name:小明,age:18}# 使用 dict 函数&#xff1a;强转 # 方式一&am…

mysql group by 之后要把名字放到一个字段里边

分组后的其他字段去重 count(DISTINCT(product)) num_sold,分组后数据存放到一个字段 &#xff08;带着排序&#xff0c;在保存到一个字段&#xff09; group_concat(distinct product order by product separator ‘,’) select sell_date,count(DISTINCT(product)) num_so…

PX4开源项目中遇到的问题

开源项目 kaiyuanxiangmkmonemati/PX4-ROS2-Gazebo-YOLOv8: Aerial Object Detection using a Drone with PX4 Autopilot and ROS 2. PX4 SITL and Gazebo Garden used for Simulation. YOLOv8 used for Object Detection. (github.com) 首先创建python虚拟环境&#xff0c;克…

【一文详解】知识分享:(ASP.Net Core基础学习及快速入门)

背景知识 相关术语 .Net .NET是微软的一个开发平台&#xff0c;这个平台的一大特点就是跨语言性&#xff0c;不管是什么语言&#xff0c;c、c、c#、F#、J#、vb等语言都可以用这个平台合作开发&#xff1b; .NET&#xff0c;它是微软创建的一个用于构建多种不同类型的应用程…

python——combinations()函数详解

combinations() 函数位于 Python 的 itertools 模块中&#xff0c;用于生成一个可迭代对象&#xff0c;包含输入集合中所有长度为 r 的组合。 定义&#xff1a; combinations(iterable, r) 函数接受一个可迭代对象 iterable 和一个整数 r&#xff0c;返回一个包含所有长度为 r…

书生·浦语大模型实战营-学习笔记2

目录 轻松玩转书生浦语大模型趣味Demo1. 大模型及 InternLM 模型介绍2. InternLM-Chat-7B 智能対话 Demo3. Lagent 智能体工具调用 Demo4. 浦语•灵笔图文创作理解 Demo5. 通用环境配置实验记录6. 课后作业 视频地址&#xff1a; (2)轻松玩转书生浦语大模型趣味Demo 文档教程&a…

xtu oj 1237 孪生素数

题目描述 如果n和n2都是素数&#xff0c;我们称其为孪生素数&#xff0c;比如3和5&#xff0c;5和7都是孪生素数。 给你一个区间[a,b],请问期间有多少对孪生素数&#xff1f; 输入 第一行是一个整数K(K≤ 10000)&#xff0c;表示样例的个数。 以后每行一个样例&#xff0c;为两…

C#用string.Replace方法批量替换某一类字符串

目录 一、关于字符串及其操作常识 二、String.Replace 方法 1.重载 2.Replace(Char, Char) 3.Replace(String, String) &#xff08;1&#xff09;实例&#xff1a; &#xff08;2&#xff09;生成结果&#xff1a; 4.Replace(String, String, StringComparison) 5.…

python堆排序

堆排序是一种基于二叉堆数据结构的排序算法。它将待排序的数组看作是一个完全二叉树&#xff0c;并利用堆的性质进行排序。 堆排序的基本思想是先将待排序的数组构建成一个最大堆&#xff08;或最小堆&#xff09;&#xff0c;然后依次将堆顶元素与堆的最后一个元素交换&#…

2023年低代码无代码产业大会:核心内容与学习收获(附大会核心PPT下载)

2023年低代码无代码产业大会聚焦了行业最前沿的趋势与技术&#xff0c;为企业数字化转型提供新的思路和方法。在这次大会上&#xff0c;我们可以深入了解到低代码/无代码技术的最新发展&#xff0c;以及如何利用这些技术来提高业务效率和创新能力。 一、大会的核心内容 1、低代…

net8 golang python性能比较

net8正式版出来两个月&#xff0c;现在性能到底如何呢&#xff0c;做个简单的例子和其他语言比较一下&#xff0c;测试内容是查找1000000以内的质数&#xff0c;代码不多&#xff0c;但包含了循环计算和Math库函数调用&#xff0c;直观的看一下语言之间差距是多少&#xff0c;心…

【AI视野·今日Robot 机器人论文速览 第七十三期】Tue, 9 Jan 2024

AI视野今日CS.Robotics 机器人学论文速览 Tue, 9 Jan 2024 Totally 40 papers &#x1f449;上期速览✈更多精彩请移步主页 Daily Robotics Papers Digital Twin for Autonomous Surface Vessels for Safe Maritime Navigation Authors Daniel Menges, Andreas Von Brandis, A…

8.【TypeScript 教程】Never 与 Unknown

TypeScript Never 与 Unknown 本节介绍 never 和 unknown 类型&#xff0c;其中 unknown 类型作为 any 类型对应的安全类型使用起来更加安全&#xff0c;如果有 any 类型的使用需求&#xff0c;应尽量使用 unknown 类型来替代 any 类型。 1. 解释 never 类型表示那些永不存在…

Matlab | SISO系统差分方程求解(附matlab源码)

===================================================== github:https://github.com/MichaelBeechan CSDN:https://blog.csdn.net/u011344545 ===================================================== SISO系统差分方程求解 最小二乘法原理分析实验程序实验结果

JWT---JSON Web Token

JSON Web Token是什么 JSON Web Token (JWT)是一个开放标准(RFC 7519)&#xff0c;它定义了一种紧凑的、自包含的方式&#xff0c;用于作为JSON对象在各方之间安全地传输信息。该信息可以被验证和信任&#xff0c;因为它是数字签名的。 JSON Web Token的结构是什么样的 JSON…

QTableView如何设置显示风格?

1. 利用样式表设定样式风格 QTableView 控件本身没有直接的显示风格设置。然而&#xff0c;您可以通过使用样式表来自定义 QTableView 的外观&#xff0c;以实现不同的显示风格。以下是一些样式属性和伪状态类&#xff0c;您可以在样式表中使用来自定义 QTableView 的显示风格…

【每日一题】构造有效字符串的最少插入数

文章目录 Tag题目来源解题思路方法一&#xff1a;考虑 abc 的个数 写在最后 Tag 【字符串】【2024-01-11】 题目来源 2645. 构造有效字符串的最少插入数 解题思路 方法一&#xff1a;考虑 abc 的个数 思路 如果答案由 t 个 “abc” 组成&#xff0c;那么需要插入字符个数为…

QEMU源码全解析 —— PCI设备模拟(3)

接前一篇文章&#xff1a; 2. PCI设备的模拟 QEMU模拟的设备很多都是PCI设备&#xff0c;本节介绍PCI设备的模拟。与所有设备类似&#xff0c;PCI设备的父设备也是TYPE_DEVICE&#xff0c;其定义在QEMU源码根目录/hw/pci/pci.c中&#xff0c;代码如下&#xff1a; static con…

概率论与数理统计-第7章 假设检验

假设检验的基本概念 二、假设检验的基本思想 假设检验的基本思想实质上是带有某种概率性质的反证法&#xff0c;为了检验一个假设H0,是否正确&#xff0c;首先假定该假设H0正确&#xff0c;然后根据抽取到的样本对假设H0作出接受或拒绝的决策&#xff0c;如果样本观察值导致了…

二叉树的创建与遍历

对于前序遍历&#xff0c;首先访问当前节点&#xff0c;然后递归地遍历左子树和右子树。 这就是为什么前序遍历的代码中&#xff0c;首先是 printf("%d ", root->data);。中序遍历&#xff1a; 对于中序遍历&#xff0c;首先递归地遍历左子树&#xff0c;然后访问…