【数据结构与算法】字符串匹配 AC自动机

  1. 单模式串匹配
    BF 算法和 RK 算法
    BM 算法和 KMP 算法
  2. 多模式串匹配算法
    Trie 树和 AC 自动机

AC 自动机

AC 自动机实际上就是在 Trie 树之上,加了类似 KMP 的 next 数组,只不过此处的 next 数组是构建在树上罢了。

在这里插入图片描述

AC 自动机的构建

  • 将多个模式串构建成 Trie 树;
  • -在 Trie 树上构建失败指针(相当于 KMP 中的失效函数 next 数组)。

public void buildFailurePointer() {Queue<AcNode> queue = new LinkedList<>();root.fail = null;queue.add(root);while (!queue.isEmpty()) {AcNode p = queue.remove();for (int i = 0; i < 26; ++i) {AcNode pc = p.children[i];if (pc == null) continue;if (p == root) {pc.fail = root;} else {AcNode q = p.fail;while (q != null) {AcNode qc = q.children[pc.data - 'a'];if (qc != null) {pc.fail = qc;break;}q = q.fail;}if (q == null) {pc.fail = root;}}queue.add(pc);}}
}

在这里插入图片描述

AC 自动机的匹配

在这里插入图片描述


public void match(char[] text) { // text是主串int n = text.length;AcNode p = root;for (int i = 0; i < n; ++i) {int idx = text[i] - 'a';while (p.children[idx] == null && p != root) {p = p.fail; // 失败指针发挥作用的地方}p = p.children[idx];if (p == null) p = root; // 如果没有匹配的,从root开始重新匹配AcNode tmp = p;while (tmp != root) { // 打印出可以匹配的模式串if (tmp.isEndingChar == true) {int pos = i-tmp.length+1;System.out.println("匹配起始下标" + pos + "; 长度" + tmp.length);}tmp = tmp.fail;}}
}

时间复杂度

AC 自动机算法包含两个部分,第一部分是将多个模式串构建成 AC 自动机,第二部分是在 AC 自动机中匹配主串。第一部分又分为两个小的步骤,一个是将模式串构建成 Trie 树,另一个是在 Trie 树上构建失败指针。
将多个模式串构建成 AC 自动机
Trie 树构建的时间复杂度是 O(mlen),其中 len 表示敏感词的平均长度,m 表示敏感词的个数。
每个节点构建失败指针的时间复杂度是 O(len)。整个失败指针的构建过程就是 O(k
len)。
AC 自动机做匹配
for 循环依次遍历主串中的每个字符,for 循环内部最耗时的部分也是 while 循环,而这一部分的时间复杂度也是 O(len),所以总的匹配的时间复杂度就是 O(n*len)。
实际情况下,可能近似于 O(n),所以 AC 自动机做敏感词过滤,性能非常高。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/424840.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第六十一期:中国农民花3000块,发明史上最牛输入法!曾火遍中国20年

投递人 itwriter “王旁青头戋(兼)五一&#xff0c;土十二干士寸雨” 如果你还能熟练的背出这段口诀&#xff0c;恭喜你&#xff0c;又暴露年龄了。 倒回到十几年前&#xff0c;在刀哥被老师带到穿鞋套才能进神秘的机房&#xff0c;练习打字的时候&#xff0c;会五笔的人简直是…

数学归纳法证明Nicomachus's Theorem

今天看了《计算机程序设计艺术卷1》的部分内容。也希望更深入了解一下数学归纳法。所以将网页基本算重新写了一遍&#xff0c;写下证明过程。 理论Theorem 1311312335233533791133791143131517194313151719… 总的来说&#xff1a; ∀n∈N>0,n3∑ni1(n2−n2∗i−1)(n2−n…

第六十二期:腾讯云发布“小程序·云开发十大优秀实践”:猫眼、唯品会等入选

作者&#xff1a;周小白 【TechWeb】10 月 19 日消息&#xff0c;今日&#xff0c;腾讯云首次对外公布了“小程序云开发十大优秀实践”&#xff0c;包括白鹭引擎、千墨科技、腾讯新闻、即速应用、微盟、唯品会、猫眼、香格里拉、微信读书、微信支付等&#xff0c;涉及多个行业。…

[Leetcode][第17题][JAVA][电话号码的字母组合][回溯]

【问题描述】[中等] 【解答思路】 用哈希表/数组存储每个数字对应的所有可能的字母&#xff0c;然后进行回溯操作。 回溯过程中维护一个字符串&#xff0c;表示已有的字母排列&#xff08;如果未遍历完电话号码的所有数字&#xff0c;则已有的字母排列是不完整的&#xff09;…

(68)zabbix windows性能计数器使用详解

概述 windows下的性能计数器让zabbix监控更加轻松&#xff0c;直接获取性能计数器的数值即可完成windows监控。性能计数器如下&#xff1a; 1perf_counter["\Processor(0)\Interrupts/sec"]或 1perf_counter["\Processor(0)\Interrupts/sec", 10]获取所有性…

欧几里得算法以及推论

欧几里得算法euclids algorithm 欧几里得算法又称辗转相除法&#xff0c;用于计算两个正整数a、b的最大公约数(greatest common divisor)。计算公式gcd(a,b) gcd(b, a%b)。用于RSA加密。 证明过程&#xff1a;参见 欧几里得算法扩展 给定两个正整数a、b&#xff0c;在计算…

第六十三期:微软与阿里云合作推出“开放应用模型(OAM)”

投递人 itseeker 英文原文&#xff1a;Announcing the Open Application Model (OAM) 原文标题&#xff1a;微软与阿里云合作推出“开放应用模型&#xff08;OAM&#xff09;” 用于 Kubernetes 及更多平台的应用开发、运行的开放标准 Kubernetes 已经成为业界领先的容器编排环…

Java基础课程---将一个字符串反转,将字符串中指定部分进行反转,比如,abcdefg, 反转为abfedcg...

1 将一个字符串反转&#xff0c;将字符串中指定部分进行反转&#xff0c;比如&#xff0c;"abcdefg", 反转为"abfedcg" 方式一 public class StringDemo {// 方式一 转为 char[]public String reverse(String str,int startIndex,int endIndex){if(str !n…

【数据结构与算法】【算法思想】贪心算法

贪心算法 回溯算法 分治算法 动态规划 四种基本的算法思想&#xff1a;贪心算法&#xff0c;分治算法&#xff0c;回溯算法&#xff0c;动态规划&#xff0c;他们不是具体算法&#xff0c;常用来指导我们设计具体的算法和编码等。 一&#xff1a;贪心算法有很多经典应用 霍夫…

第六十四期:微软将不再把 .NET Framework API 移植到 .NET Core 3.0

投递人 itwriter 目前 .NET Core 3.0 拥有的 API 总数约为 .NET Framework API 的 80%&#xff0c;剩下尚未从 .NET Framework 移植到 .NET Core 的 API&#xff0c;微软考虑以开源的形式发布。 微软方面表示&#xff0c;通过 .NET Core 3.0&#xff0c;他们现在已具备轻松移植…

array专题5

#561 Array Partition I# 思路&#xff1a;题目要求数组中所有数字配对后&#xff0c;每一对中最小值加和sum&#xff0c;sum要尽可能大。我的第一反应就是暴力枚举。下标为0的数值可能匹配的下标有&#xff1a;1,2,3…n-1&#xff1b;接着计算下标为1的数值可能匹配的下标有哪…

第六十五期:IBM净利润下降38%,旧时代巨头如何自救?

投递人 itwriter 图片来自“123RF” 10 月 17 日&#xff0c;IBM 发布 2019 年第三季度财报&#xff0c;数据显示&#xff0c;其营收为 180.28 亿美元&#xff0c;同比下降 3.9%&#xff0c;其利润为 16.72 亿美元&#xff0c;同比下降约 38%。我们看到 IBM 的营收和利润都呈现…

【数据结构与算法】【算法思想】分治算法

贪心算法 回溯算法 分治算法 动态规划 MapReduce本质就是分治算法&#xff0c;是Google大数据处理的三驾马车之一&#xff0c;另外两个是GFS和Bigtable。它在倒排索引&#xff0c;PageRank计算&#xff0c;网页分析等搜索引擎相关的技术中都有大量的应用。 MapReduce 框架只是…

arry-718 Maximum Length of Repeated Subarray

题目&#xff1a;Input: A: [1,2,3,2,1] B: [3,2,1,4,7] Output: 3 Explanation: The repeated subarray with maximum length is [3, 2, 1]. 思路&#xff1a;要找到两个数组中重复数据最长的子数组的长度。暴力枚举&#xff1a;每个A的下标i&#xff0c;分别与B的每个下…

第六十六期:软件架构之道的一次感悟

张泰峰 6月3日 写在前面 2019悄悄溜走一半&#xff0c;无论是离别的忧愁&#xff0c;还是成长路途的艰辛&#xff0c;都在心中滚烫。 距离上一篇文章已经很久了... 懒惰的博主不能将这一切归结于我的时间、我的规划、我的工作&#xff0c;只能怪自己懒......正所谓学如逆水行…

[Leetcode][第332题][JAVA][重新安排行程][欧拉回路 / 欧拉通路][优先队列][DFS]

【问题描述】[中等] 【解答思路】 递归 复杂度 class Solution {Map<String, PriorityQueue<String>> map new HashMap<String, PriorityQueue<String>>();List<String> itinerary new LinkedList<String>();public List<String&g…

不会配置HTTPS?给我5分钟,手把手教你

本文针对不会配置HTTPS或者小白开发着&#xff0c;请大佬们自动忽略。非广告&#xff0c;心得分享&#xff0c;勿喷&#xff0c;谢谢。 正文开始 01、关于 FreeSSL.cnFreeSSL.cn 是一个免费提供 HTTPS 证书申请、HTTPS 证书管理和 HTTPS 证书到期提醒服务的网站&#xff0c;旨在…

第三十三期:使用wireshark抓包分析-抓包实用技巧

杰哥很忙 7月9日 前言 本文整理一下日常抓包使用的一些方法及抓包分析的一些方法。 本文基于wireshark2.2.6版本进行抓包处理。其他版本使用方式大同小异。 自定义捕获条件 wireshark可以将抓包数据保存到硬盘上。若需要长时间抓包的话&#xff0c;需要防止内存过大&#x…

Floyd判圈算法

leetcode习题287 Find the Duplicate Number 在答案中看到了floyd’s tortoise and hare 算法&#xff0c;知道了如果有限状态机、迭代函数或者链表存在环&#xff0c;那么是需要算法检测环是否存在。检测算法有三种:Floyd龟兔算法、Brent算法、Gosper算法。 Floyd龟兔算法 算…

【数据结构与算法】【算法思想】【联系与区别】回溯 贪心 动态规划 分治

4种算法思想比较与联系 如果将贪心&#xff0c;分治&#xff0c;回溯和动态规划四种算法思想分类&#xff0c;那贪心&#xff0c;回溯&#xff0c;动态规划可归为一类&#xff0c;而分治单独可以作为一类&#xff0c;因为它跟其他是三个都不大一样。 因为前三个算法解决问题的…