【数据结构与算法】字符串匹配 AC自动机

  1. 单模式串匹配
    BF 算法和 RK 算法
    BM 算法和 KMP 算法
  2. 多模式串匹配算法
    Trie 树和 AC 自动机

AC 自动机

AC 自动机实际上就是在 Trie 树之上,加了类似 KMP 的 next 数组,只不过此处的 next 数组是构建在树上罢了。

在这里插入图片描述

AC 自动机的构建

  • 将多个模式串构建成 Trie 树;
  • -在 Trie 树上构建失败指针(相当于 KMP 中的失效函数 next 数组)。

public void buildFailurePointer() {Queue<AcNode> queue = new LinkedList<>();root.fail = null;queue.add(root);while (!queue.isEmpty()) {AcNode p = queue.remove();for (int i = 0; i < 26; ++i) {AcNode pc = p.children[i];if (pc == null) continue;if (p == root) {pc.fail = root;} else {AcNode q = p.fail;while (q != null) {AcNode qc = q.children[pc.data - 'a'];if (qc != null) {pc.fail = qc;break;}q = q.fail;}if (q == null) {pc.fail = root;}}queue.add(pc);}}
}

在这里插入图片描述

AC 自动机的匹配

在这里插入图片描述


public void match(char[] text) { // text是主串int n = text.length;AcNode p = root;for (int i = 0; i < n; ++i) {int idx = text[i] - 'a';while (p.children[idx] == null && p != root) {p = p.fail; // 失败指针发挥作用的地方}p = p.children[idx];if (p == null) p = root; // 如果没有匹配的,从root开始重新匹配AcNode tmp = p;while (tmp != root) { // 打印出可以匹配的模式串if (tmp.isEndingChar == true) {int pos = i-tmp.length+1;System.out.println("匹配起始下标" + pos + "; 长度" + tmp.length);}tmp = tmp.fail;}}
}

时间复杂度

AC 自动机算法包含两个部分,第一部分是将多个模式串构建成 AC 自动机,第二部分是在 AC 自动机中匹配主串。第一部分又分为两个小的步骤,一个是将模式串构建成 Trie 树,另一个是在 Trie 树上构建失败指针。
将多个模式串构建成 AC 自动机
Trie 树构建的时间复杂度是 O(mlen),其中 len 表示敏感词的平均长度,m 表示敏感词的个数。
每个节点构建失败指针的时间复杂度是 O(len)。整个失败指针的构建过程就是 O(k
len)。
AC 自动机做匹配
for 循环依次遍历主串中的每个字符,for 循环内部最耗时的部分也是 while 循环,而这一部分的时间复杂度也是 O(len),所以总的匹配的时间复杂度就是 O(n*len)。
实际情况下,可能近似于 O(n),所以 AC 自动机做敏感词过滤,性能非常高。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/424840.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第六十一期:中国农民花3000块,发明史上最牛输入法!曾火遍中国20年

投递人 itwriter “王旁青头戋(兼)五一&#xff0c;土十二干士寸雨” 如果你还能熟练的背出这段口诀&#xff0c;恭喜你&#xff0c;又暴露年龄了。 倒回到十几年前&#xff0c;在刀哥被老师带到穿鞋套才能进神秘的机房&#xff0c;练习打字的时候&#xff0c;会五笔的人简直是…

第六十二期:腾讯云发布“小程序·云开发十大优秀实践”:猫眼、唯品会等入选

作者&#xff1a;周小白 【TechWeb】10 月 19 日消息&#xff0c;今日&#xff0c;腾讯云首次对外公布了“小程序云开发十大优秀实践”&#xff0c;包括白鹭引擎、千墨科技、腾讯新闻、即速应用、微盟、唯品会、猫眼、香格里拉、微信读书、微信支付等&#xff0c;涉及多个行业。…

[Leetcode][第17题][JAVA][电话号码的字母组合][回溯]

【问题描述】[中等] 【解答思路】 用哈希表/数组存储每个数字对应的所有可能的字母&#xff0c;然后进行回溯操作。 回溯过程中维护一个字符串&#xff0c;表示已有的字母排列&#xff08;如果未遍历完电话号码的所有数字&#xff0c;则已有的字母排列是不完整的&#xff09;…

(68)zabbix windows性能计数器使用详解

概述 windows下的性能计数器让zabbix监控更加轻松&#xff0c;直接获取性能计数器的数值即可完成windows监控。性能计数器如下&#xff1a; 1perf_counter["\Processor(0)\Interrupts/sec"]或 1perf_counter["\Processor(0)\Interrupts/sec", 10]获取所有性…

第六十三期:微软与阿里云合作推出“开放应用模型(OAM)”

投递人 itseeker 英文原文&#xff1a;Announcing the Open Application Model (OAM) 原文标题&#xff1a;微软与阿里云合作推出“开放应用模型&#xff08;OAM&#xff09;” 用于 Kubernetes 及更多平台的应用开发、运行的开放标准 Kubernetes 已经成为业界领先的容器编排环…

【数据结构与算法】【算法思想】贪心算法

贪心算法 回溯算法 分治算法 动态规划 四种基本的算法思想&#xff1a;贪心算法&#xff0c;分治算法&#xff0c;回溯算法&#xff0c;动态规划&#xff0c;他们不是具体算法&#xff0c;常用来指导我们设计具体的算法和编码等。 一&#xff1a;贪心算法有很多经典应用 霍夫…

第六十四期:微软将不再把 .NET Framework API 移植到 .NET Core 3.0

投递人 itwriter 目前 .NET Core 3.0 拥有的 API 总数约为 .NET Framework API 的 80%&#xff0c;剩下尚未从 .NET Framework 移植到 .NET Core 的 API&#xff0c;微软考虑以开源的形式发布。 微软方面表示&#xff0c;通过 .NET Core 3.0&#xff0c;他们现在已具备轻松移植…

第六十五期:IBM净利润下降38%,旧时代巨头如何自救?

投递人 itwriter 图片来自“123RF” 10 月 17 日&#xff0c;IBM 发布 2019 年第三季度财报&#xff0c;数据显示&#xff0c;其营收为 180.28 亿美元&#xff0c;同比下降 3.9%&#xff0c;其利润为 16.72 亿美元&#xff0c;同比下降约 38%。我们看到 IBM 的营收和利润都呈现…

【数据结构与算法】【算法思想】分治算法

贪心算法 回溯算法 分治算法 动态规划 MapReduce本质就是分治算法&#xff0c;是Google大数据处理的三驾马车之一&#xff0c;另外两个是GFS和Bigtable。它在倒排索引&#xff0c;PageRank计算&#xff0c;网页分析等搜索引擎相关的技术中都有大量的应用。 MapReduce 框架只是…

第六十六期:软件架构之道的一次感悟

张泰峰 6月3日 写在前面 2019悄悄溜走一半&#xff0c;无论是离别的忧愁&#xff0c;还是成长路途的艰辛&#xff0c;都在心中滚烫。 距离上一篇文章已经很久了... 懒惰的博主不能将这一切归结于我的时间、我的规划、我的工作&#xff0c;只能怪自己懒......正所谓学如逆水行…

[Leetcode][第332题][JAVA][重新安排行程][欧拉回路 / 欧拉通路][优先队列][DFS]

【问题描述】[中等] 【解答思路】 递归 复杂度 class Solution {Map<String, PriorityQueue<String>> map new HashMap<String, PriorityQueue<String>>();List<String> itinerary new LinkedList<String>();public List<String&g…

不会配置HTTPS?给我5分钟,手把手教你

本文针对不会配置HTTPS或者小白开发着&#xff0c;请大佬们自动忽略。非广告&#xff0c;心得分享&#xff0c;勿喷&#xff0c;谢谢。 正文开始 01、关于 FreeSSL.cnFreeSSL.cn 是一个免费提供 HTTPS 证书申请、HTTPS 证书管理和 HTTPS 证书到期提醒服务的网站&#xff0c;旨在…

第三十三期:使用wireshark抓包分析-抓包实用技巧

杰哥很忙 7月9日 前言 本文整理一下日常抓包使用的一些方法及抓包分析的一些方法。 本文基于wireshark2.2.6版本进行抓包处理。其他版本使用方式大同小异。 自定义捕获条件 wireshark可以将抓包数据保存到硬盘上。若需要长时间抓包的话&#xff0c;需要防止内存过大&#x…

Floyd判圈算法

leetcode习题287 Find the Duplicate Number 在答案中看到了floyd’s tortoise and hare 算法&#xff0c;知道了如果有限状态机、迭代函数或者链表存在环&#xff0c;那么是需要算法检测环是否存在。检测算法有三种:Floyd龟兔算法、Brent算法、Gosper算法。 Floyd龟兔算法 算…

Idea debug时报错:Command line is too long

问题&#xff1a;git pull下的项目&#xff0c;debug时&#xff0c;报错如下图 解决方法 在项目/.idea/workspace.xml文件中添加一行代码如下 <component name"PropertiesComponent">...<property name"dynamic.classpath" value"true"…

第三十四期:一次非常有意思的sql优化经历

风过无痕的博客 6月24日 场景 我用的数据库是mysql5.6&#xff0c;下面简单的介绍下场景 课程表&#xff1a; create table Course(c_id int PRIMARY KEY,name varchar(10)) 数据100条 学生表: create table Student(id int PRIMARY KEY,name varchar(10)) 数据70000条…

[Leetcode][第657题][JAVA][机器人能否返回原点][数组][HashMap]

【问题描述】[简单] 【解答思路】 遍历方向 看是否回到原点 或者 “上下” “左右”两个方向的数量是否相等 1. 方向 时间复杂度&#xff1a;O(N) 空间复杂度&#xff1a;O(1) class Solution {public boolean judgeCircle(String moves) {int x 0,y 0;int len moves.len…

2019 DDCTF 部分writeup

网上的wp已经很多了&#xff0c;但wp普遍很简略。我尽量写的详细一点。 一、WEB 滴~ 拿到题目后首先右键查看源代码&#xff0c;发现图片是以base64传送的 而且看url发现里面应该是包含了文件名&#xff0c;并且用了某个编码。测试过后是转16进制ascii码后两层bases64 &#xf…

[Leetcode][第322题][JAVA][零钱兑换][回溯][记忆化搜索][动态规划]

【问题描述】[中等] 【解答思路】 1. 递归&#xff08;超时&#xff09; class Solution {int res Integer.MAX_VALUE;public int coinChange(int[] coins, int amount) {if(coins.length 0){return -1;}findWay(coins,amount,0);// 如果没有任何一种硬币组合能组成总金额&…

用BST解决729. My Calendar I 731. My Calendar II 732. My Calendar III

My Calendar的book方法实现指定开始时间、结束时间&#xff0c;在重叠次数要求不同的情况下怎么实现。 729 My Calendar I 要求任意两个事件之间不能重叠。如果要插入的事件和已经插入的事件不重叠&#xff0c;则插入&#xff1b;否则不插入。 731 MyCalendar II 要求任意三个…