浅谈WM算法

1.  WM(Wu-Manber)算法的简单理解:
(1)WM算法需要的参数:
∑:字母集
c: 字母集数目
m:模式串集合中,字符串长度最小的模式串的长度
B:字符块长度,是shift表的索引,一般取2或者3
h:当前扫描过程中长度为B的模式串子串
T:文本串
N:文本串总长度
P={P1, P2....Pk}:模式串集合
k:模式串的数目
C:前缀长度(PREFIX表使用)
(2)WM算法的时间复杂度:
O(BN/kM),由此可以看出,WM使用于大规模的模式串集合且模式串集合中最小长度较大的场景!
(3)WM算法的核心思想:
WM算法是对BM算法的延伸继承,用BM算法的核心框架,用字符块来计算shift表(取代坏字符表)进行跳转,在进行匹配时,用hash和prefix计算前后缀的hash值来从众多可选的模式串中快速筛选出正确匹配的模式串。
(4)WM算法的三张核心表:
shift表:用于记录文本串向右移动的长度,即一张跳转表(ps:有点类似BM算法的坏字符表,不过BM是针对单字符,WM是针对字符块)。
hash表:hash表记录了所有模式串后缀(长度为B)与模式串本身的映射关系。当shift[h]=0时,B与对应模式串P的映射关系,但是存在一对多的映射,因为模式串集合中存在相同后缀的模式串,所以hash表的value应该是一个链表的形式,存储多个模式串(ps:当shift[h]=0时,说明匹配到了某模式串,此时要用hash表查匹配到了哪个模式串P)
prefix表:prefix记录了所有模式串前缀(长度为B)与模式串本身的映射关系。同hash表一样,B与对应模式串P的映射关系存在一对多,所以prefix表的value也是一个链表的形式,存储多个模式串。(ps:hash与prefix两个表取交集极大地缩小了需要匹配的次数)
2.  WM(Wu-Manber)算法的匹配过程:
当B个字符构成的子串h在模式串集合中没有匹配,即shift[h]<0,则跳转的距离是:m-B+1(相对保守的策略)
当B个字符构成的子串h在模式串集合中有匹配且非后缀,即shift[h]>0,则跳转的距离是:shift[h](相对安全的滑动)
当B个字符构成的子串h在模式串集合中且是后缀,即shift[h]=0,则查hash和prefix表确定匹配到了哪个模式串
3.  WM(Wu-Manber)算法的简单例子(来自joylnwang专栏-WM算法详解):
目标串target[1...10]=dcbacabcde,模式结合P={abcde,bcbde,abcabe}(ps:m=5,B=2,k=3,C=2),预处理后得到的三张表如下所示:

    

WM算法的匹配过程是:
    (1)从i=5(因为m=5)开始执行算法,首先我们发现target[4...5] = ac(target[i-B+1](5-2+1)),SHIFT表中不存在ac,所以i = i+4 (shift表中没找到,则 i += m-B+1
(2)此时i=9,发现target[8...9]=cd,查SHIFT[cd]=1,所以i += SHIFT[cd]
(3)此时i=10,然后发现target[9...10]=de, 查SHIFT[de]=0,表明可能出现匹配到模式串的情况。
(4)查HASH[de]有两个模式串abcde和bcbde;在target中取长度为C的从i-m+1开始的子串,即target[6...7] = ab,查PREFIX[ab] = abcde。此时确定模式串是abcde。
4.  WM(Wu-Manber)算法的程序实例:
  

 

转载于:https://www.cnblogs.com/ladawn/p/9281509.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485702.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Leetcode--845. 数组中的最长山脉

我们把数组 A 中符合下列属性的任意连续子数组 B 称为 “山脉”&#xff1a; B.length > 3 存在 0 < i < B.length - 1 使得 B[0] < B[1] < ... B[i-1] < B[i] > B[i1] > ... > B[B.length - 1] &#xff08;注意&#xff1a;B 可以是 A 的任意子数…

AI研习丨专题:因果推断与因果性学习研究进展

来源&#xff1a;《中国人工智能学会通讯》2020年 第10卷 第5期 机器学习及其应用专题0 引言因果关系一直是人类认识世界的基本方式和现代科学的基石。爱因斯坦就曾指出&#xff0c;西方科学的发展是以希腊哲学家发明形式逻辑体系&#xff0c;以及通过系统的实验发现有可能找…

php api命名历史,PHP历史上的今天查询api源码

PHP历史上的今天查询API源码&#xff0c;本地新建PHP文件上传到服务器即可使用&#xff0c;非储存性&#xff0c;直接解析网址<?php function showjson($json){header("Access-Control-Allow-Origin:*");header(Content-type: application/json);exit(json_encod…

vuex调用接口

1、安装vue、vuex在main.js中引入 import Vue from vueimport store from ./vueximport server from ./server2、server中文件adapter.jsimport Axios from "axios";getServerList() {class Processor { constructor(result) { return result } }; return new Promis…

传感器的未来: 10年后我们将会生活在一个极端透明的世界

来源&#xff1a;大数据文摘作者&#xff1a;彼得戴曼迪斯2014年&#xff0c;在芬兰的一个传染病实验室里&#xff0c;卫生研究员佩特里拉特拉&#xff08;Petteri Lahtela&#xff09;发现了一件奇怪的事情&#xff0c;他突然意识到他所研究的很多问题的条件都存在着重叠。例如…

MySQL小问题:导入employee测试数据

在cmd窗口下输入&#xff1a;mysql -u root -p -t < employees.sql 会产生Unknown system variable storage_engine这个错误 解决方法&#xff1a; 在employees.sql文件中 把第38行的set storage_engine InnoDB; 改为 set default_storage_engine InnoDB; 把第44行…

企业计算机服务器中了babyk勒索病毒怎么办,babyk勒索病毒解密数据恢复

在数字化的今天&#xff0c;网络安全威胁不断增加&#xff0c;给企业的生产生活带来了严重影响&#xff0c;使得企业不得不重视数据安全问题。近日&#xff0c;云天数据恢复中心接到企业求助&#xff0c;企业的计算机服务器中了babyk勒索病毒&#xff0c;导致企业所有计算机系统…

java yied的用法,Java多线程的wait(),notify(),notifyAll()、sleep()和yield()方法使用详解,...

Java多线程的wait()&#xff0c;notify()&#xff0c;notifyAll()、sleep()和yield()方法使用详解&#xff0c;Java多线程中的wait()&#xff0c;notify()&#xff0c;notifyAll()、sleep()和yield()方法我们先从一个案例开始&#xff1a;static public class WaitingTest {//s…

ubuntu-server-18.04 设置开机启动脚本

ubuntu-16.10 开始不再使用initd管理系统&#xff0c;改用systemd systemd is now used for user sessions. System sessions had already been provided by systemd in previous Ubuntu releases. 快速看了 systemd 的使用方法&#xff0c;发现改动有点大&#xff0c; 包括用 …

海马体启发的记忆模型

来源&#xff1a;混沌巡洋舰 记忆是人类智能的关键&#xff0c;我们因为记忆可以把过去和当下整合成为一体&#xff0c; 并且可以预测未来。记忆不仅是一个信息承载的工具&#xff0c; 更是世界模型的本体&#xff0c; 它无时无刻不在刻画未来&#xff0c; 也被当下影响&#…

Leetcode--239. 滑动窗口最大值

给定一个数组 nums&#xff0c;有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回滑动窗口中的最大值。 示例: 输入: nums [1,3,-1,-3,5,3,6,7], 和 k 3 输出: [3,3,5,5,6,7] 解释: …

java中build是什么意思,Java中的Stream.Builder build()

Stream.Builder类的build()方法将构建流&#xff0c;并将此构建器转换为已构建状态。语法如下-Stream build()以下是实现Stream.Builder类的build()方法的示例-示例import java.util.stream.Stream;public class Demo {public static void main(String[] args) {Stream.Builder…

设置build.gradle打包时自动加时间

在build.gradle中添加以下函数&#xff1a; def releaseTime() {return new Date().format("yyyyMMddHHmm", TimeZone.getTimeZone("GMT08:00")) }引用这个函数&#xff1a; def fileName "SecyrityPassDemo_${defaultConfig.versionName}_${release…

Leetcode--283. 移动零

给定一个数组 nums&#xff0c;编写一个函数将所有 0 移动到数组的末尾&#xff0c;同时保持非零元素的相对顺序。 示例: 输入: [0,1,0,3,12] 输出: [1,3,12,0,0] 说明: 必须在原数组上操作&#xff0c;不能拷贝额外的数组。 尽量减少操作次数。 class Solution { publ…

DeepMind最新发现!神经网络的性能竟然优于神经符号模型

来源&#xff1a;深度学习这小事按照之前的常识&#xff0c;结合了算法和符号推理技术的神经符号模型&#xff08;Neurosymbolic Models&#xff09;&#xff0c;会比神经网络更适合于预测和解释任务&#xff0c;此外&#xff0c;神经符号模型在反事实方面表现更好。而Neural-S…

php搜索间隔,php – 如何查找超过2个用户的匹配时间间隔

要查找user1和user2都是免费的,请尝试以下操作&#xff1a;selecta.datetime_start as user1start,a.datetime_end as user1end,b.datetime_start as user2start,b.datetime_end as user2end,case when a.datetime_start > b.datetime_start then a.datetime_startelse b.da…

AJAS

发送HTTP 接收服务器数据转载于:https://www.cnblogs.com/chenliuxiao/p/9288046.html

刚刚Sci-Hub和特朗普一样被永久封禁,Twitter官方:不得上诉

来源&#xff1a;量子位晓查 发自 凹非寺 公众号&#xff1a;QbitAI今天&#xff0c;Twitter官方宣布永久封禁特朗普的账号。而另一个账号的封禁恐怕更让科学界感到震惊。有用户发现&#xff0c;Sci-Hub的Twitter账号和特朗普一样&#xff0c;都被完全清空了。随后&#xff0c;…

php文件锁 阻塞区别,php文件锁阻塞模式和非阻塞模式

1、阻塞模式(如果其它进程已经加锁文件&#xff0c;当前进程会等其它进程解锁后继续执行)$handle fopen(‘lock.txt‘, ‘r‘);//锁定if(flock($handle,LOCK_EX)){//to do something//解锁flock($handle, LOCK_UN);}//关闭文件fclose($handle);?>2、非阻塞模式(如果其它进…

javaweb简要介绍,虚拟路径,虚拟主机

1. 静态&#xff0c;动态&#xff1a;是否随时间&#xff0c;地点&#xff0c;用户操作的改变而改变 动态网页 需要使用到 服务端脚本语言(JSP) 2. 架构&#xff1a; CS: Client Server eg&#xff1a;qq&#xff0c;微信&#xff0c;cs游戏 不足&#xff1a; 1.如果软…