写一个高性能的敏感词检测组件

最近写了一个高性能的敏感词检测组件【ToolGood.Words】。

一、高性能,它的效率到底有多快?

如果将正则表达式的算法效率设为1,高性能可达到正则表达式的1.5万倍。

 

二、选一个巧妙的算法:

AC自动机Aho-Corasick Automation)算法在1975年产生于贝尔实验室,是著名的多模式匹配算法之一;一个常见的例子就是给定N个单词,给定包含M个字符的文章,要求确定多少个给定的单词在文章中出现过;AC自动机在匹配文本时不需要回溯,处理时间复杂度与pattern无关,仅是target的长度O(N);构建AC自动机的时间复杂度。

AC自动机的构建主要由三个步骤:

2.1、针对所有模式串构建Trie树。

2.2、针对所有Trie树上的接点构建Fail指针:Fail指针指向的是如果当前节点匹配失败,则从通过Fail指针指向的新的节点开始匹配,但新的节点必须满足所在在新节点模式串的前缀必须是转移前的节点所在模式串的子串,也就是已经匹配成功的部分。

2.3、正式匹配过程:
a)从Trie树root节点开始,每次根据读入的字符沿着自动机向下移动。
b)当读入的字符,在分支中不存在时,递归走Fail指针路径。如果走Fail指针路径走到了root节点,则跳过该字符,处理下一个字符。
c)因为AC自动机是沿着文本移动的,所以在读取完所有输入文本后,最后递归走失败路径,直到到达根节点,这样可以检测出所有的模式。

 

三、优化AC自动机算法

细看AC自动算法匹配过程,在(b)步骤我们会发现节点匹配失败后会顺Fail指针继续执行,这个步骤可以优化,优化Fail指针,将相同的节点合并成一个同一个节点。

 

四、填平性能低洼地

优化AC自动机算法后,测试代码后会发现代码性能没有太大提升。

经测试发现,TrieNode获取下一节点的方法(TryGetValue)占用了90%的计算量。

分析Trie树有两个特点:1root节点下有大量子节点,2、中间节点的子节点数量很少。

优化TryGetValue方法:

1、root的子节点转成数组类型

2、修改TryGetValue方法内:

 

public  class  TrieNode
{
     public  bool  End {  get set ; }
     public  List< string > Results {  get set ; }
     private  Dictionary< char , TrieNode> m_values;
     private  uint  minflag =  uint .MaxValue;
     private  uint  maxflag =  uint .MinValue;
     //....
     public  bool  TryGetValue( char  c,  out  TrieNode node)
     {
         if  (minflag <= ( uint )c && maxflag >= ( uint )c) {
             return  m_values.TryGetValue(c,  out  node);
         }
         node =  null ;
         return  false ;
     }
}

 

五、优化后的代码段

 

public  class  StringSearch
{
         TrieNode _root =  new  TrieNode();
         TrieNode[] _first =  new  TrieNode[ char .MaxValue + 1];
         //.....
         public  bool  ContainsAny( string  text)
         {
             TrieNode ptr =  null ;
             for  ( int  i = 0; i < text.Length; i++) {
                 TrieNode tn;
                 if  (ptr ==  null ) {
                     tn = _first[text[i]];
                 else  {
                     if  (ptr.TryGetValue(text[i],  out  tn) ==  false ) {
                         tn = _first[text[i]];
                     }
                 }
                 if  (tn !=  null ) {
                     if  (tn.End) {
                         return  true ;
                     }
                 }
                 ptr = tn;
             }
             return  false ;
         }
}

 

 六、性能对比图,10W次对比

ToolGood.Words内的非法词(敏感词)检测类:StringSearchWordsSearchIllegalWordsSearchIllegalWordsQuickSearch;

注:C#自带正则很慢,StringSearch.ContainsAnyRegex.IsMatch效率的1.5万倍。

Regex.Matches的运行方式跟IQueryable的类似,只返回MatchCollection,还没有计算。

TrieFilter,FastFilter来源: http://www.cnblogs.com/yeerh/archive/2011/10/20/2219035.html

 

七、开源项目

码云: https://git.oschina.net/toolgood/ToolGood.Words

GitHub: https://github.com/toolgood/ToolGood.Words

原文地址:http://www.cnblogs.com/toolgood/p/6284718.html


.NET社区新闻,深度好文,微信中搜索dotNET跨平台或扫描二维码关注

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/327132.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JAVA正则表达式 Pattern和Matcher

转载自 JAVA正则表达式 Pattern和Matcher java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包。 1.简介&#xff1a; java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包。 它包括两个类&#xff1a;Pattern和Match…

win10系统excel2019单元格显示完整的年月日时分秒设置方法

https://www.pianshen.com/article/88671983757/ win10系统excel2019单元格显示完整的年月日时分秒设置方法 技术标签&#xff1a; Windows excel显示年月日时分秒 excel显示完整的详细时间 excel2019显示完整时间 excel2019显示具体时间 excel显示具体的时间 描述&#…

字符VS字节

什么是字节 字节是指一小组相邻的二进制数码。通常是8位作为一个字节。它是构成信息的一个小单位&#xff0c;并作为一个整体来参加操作&#xff0c;比字小&#xff0c;是构成字的单位。 字节(Byte) 是一种计量单位&#xff0c;表示数据量的多少&#xff0c;它是计算机信息技术…

Servlet使用适配器模式进行增删改查案例(IDeptService.java)

/*** */ package org.service;import java.util.List;import org.entity.Dept;/*** author muxiongxiong**/ public interface IDeptService {/*** * Description: 该方法的主要作用&#xff1a;添加部门信息* Title: save* param param dept* param param tag* param retur…

Visual Studio现可使用EditorConfig

Visual Studio 2017的首个候选发布版&#xff08;VS2017RC&#xff09;中提供了支持EditorConfig标准的特性。秉承该标准可使开发人员一次性地定义一种编码风格&#xff0c;即可轻易地在不同的编辑器中使用该风格。另一显著优点是对于在EditorConfig文件中定义的风格&#xff0…

分库分表的事务处理机制

转载自 分库分表的事务处理机制 分布式事务 由于我们将单表的数据切片后存储在多个数据库甚至多个数据库实例中&#xff0c;所以依靠数据库本身的事务机制不能满足所有场景的需要。但是&#xff0c;我们推荐在一个数据库实例中的操作尽可能使用本地事务来保证一致性&#xff0…

Servlet使用适配器模式进行增删改查案例(IEmpService.java)

/** * Title: IEmpService.java * Package org.service * Description: TODO该方法的主要作用&#xff1a; * author A18ccms A18ccms_gmail_com * date 2017-9-10 下午8:28:15 * version V1.0 */ package org.service;import java.util.List;import org.entity.Emp;/** …

如何优雅的使用RabbitMQ

RabbitMQ无疑是目前最流行的消息队列之一&#xff0c;对各种语言环境的支持也很丰富&#xff0c;作为一个.NET developer有必要学习和了解这一工具。消息队列的使用场景大概有3种&#xff1a; 1、系统集成&#xff0c;分布式系统的设计。各种子系统通过消息来对接&#xff0c;这…

Servlet使用适配器模式进行增删改查案例(DeptServiceImpl.java)

/*** */ package org.service.impl;import java.util.List;import org.dao.IDeptDao; import org.dao.impl.DeptDaoImpl; import org.entity.Dept; import org.service.IDeptService;/*** * * 项目名称&#xff1a;test_BaseDao * 类名称&#xff1a;DeptServiceImpl …

hutool中身份证工具-IdcardUtil

JAVA工具例大全--根据身份编号获取户籍省份 发布于 2020-10-10 | 后端技术 | 浏览&#xff08;61&#xff09; | 评论&#xff08;0&#xff09;开场语(刷新后不一样):人生若只如初见&#xff0c;何事秋风悲画扇。作为一名IT人&#xff0c;你当然也想有自己一片天地&…

[Asp.Net Core轻量级Aop解决方案]AspectCore Project 介绍

AspectCore Project 介绍 什么是AspectCore Project ? AspectCore Project 是适用于Asp.Net Core 平台的轻量级 Aop(Aspect-oriented programming) 解决方案&#xff0c;它更好的遵循Asp.Net Core的模块化开发理念&#xff0c;使用AspectCore可以更容易构建低耦合、易扩展的We…

放松眼球的网站

http://www.spielzeugz.de/html5/liquid-particles-3D/

java的BASE64Encoder,BASE64Decoder加密与解密

https://blog.csdn.net/weixin_44876457/article/details/89102723 https://blog.csdn.net/weixin_44876457/article/details/89102723 java的BASE64Encoder,BASE64Decoder加密与解密 package com.app.common;import java.io.ByteArrayOutputStream; import java.io.File; imp…

java各种集合的线程安全

转载自 java各种集合的线程安全 线程安全首先要明白线程的工作原理&#xff0c;jvm有一个main memory&#xff0c;而每个线程有自己的working memory&#xff0c;一个线程对一个variable进行操作时&#xff0c;都要在自己的working memory里面建立一个copy&#xff0c;操作完…

异步广度优先搜索算法

为什么要异步&#xff1f; CPU的工艺越来越小&#xff0c;Cannon Lake架构的Intel CPU已经达到10nm技术&#xff0c;因此在面积不变的情况下&#xff0c;核心数可以明显提升。单纯的提升主频将造成发热量大、需要的电压大、功耗大的问题。而传统的算法与数据结构是针对单核心单…

Servlet使用适配器模式进行增删改查案例(EmpServiceImpl.java)

/** * Title: EmpServiceImpl.java * Package org.service.impl * Description: TODO该方法的主要作用&#xff1a; * author A18ccms A18ccms_gmail_com * date 2017-9-10 下午8:33:06 * version V1.0 */ package org.service.impl;import java.util.List;import org.da…

Java读取properties配置文件时,中文乱码解决方法

转载自 关于java.util.Properties读取中文乱码的正确解决方案&#xff08;不要再用native2ascii.exe了&#xff09; 碰到了用java.util.Properties读取中文内容&#xff08;UTF-8格式&#xff09;的配置文件&#xff0c;发生中文乱码的现象&#xff0c; Properties propnew Pro…

jQuery 所有版本在线引用

https://www.cnblogs.com/xpwi/p/9806663.html jQuery 所有版本在线引用 jquery-3.1.1&#xff08;最新&#xff09; 官网jquery压缩版引用地址:<script src"https://code.jquery.com/jquery-3.1.1.min.js"></script> jquery-3.0.0 官网jquery压缩版…