浅谈WM算法

1.  WM(Wu-Manber)算法的简单理解:
(1)WM算法需要的参数:
∑:字母集
c: 字母集数目
m:模式串集合中,字符串长度最小的模式串的长度
B:字符块长度,是shift表的索引,一般取2或者3
h:当前扫描过程中长度为B的模式串子串
T:文本串
N:文本串总长度
P={P1, P2....Pk}:模式串集合
k:模式串的数目
C:前缀长度(PREFIX表使用)
(2)WM算法的时间复杂度:
O(BN/kM),由此可以看出,WM使用于大规模的模式串集合且模式串集合中最小长度较大的场景!
(3)WM算法的核心思想:
WM算法是对BM算法的延伸继承,用BM算法的核心框架,用字符块来计算shift表(取代坏字符表)进行跳转,在进行匹配时,用hash和prefix计算前后缀的hash值来从众多可选的模式串中快速筛选出正确匹配的模式串。
(4)WM算法的三张核心表:
shift表:用于记录文本串向右移动的长度,即一张跳转表(ps:有点类似BM算法的坏字符表,不过BM是针对单字符,WM是针对字符块)。
hash表:hash表记录了所有模式串后缀(长度为B)与模式串本身的映射关系。当shift[h]=0时,B与对应模式串P的映射关系,但是存在一对多的映射,因为模式串集合中存在相同后缀的模式串,所以hash表的value应该是一个链表的形式,存储多个模式串(ps:当shift[h]=0时,说明匹配到了某模式串,此时要用hash表查匹配到了哪个模式串P)
prefix表:prefix记录了所有模式串前缀(长度为B)与模式串本身的映射关系。同hash表一样,B与对应模式串P的映射关系存在一对多,所以prefix表的value也是一个链表的形式,存储多个模式串。(ps:hash与prefix两个表取交集极大地缩小了需要匹配的次数)
2.  WM(Wu-Manber)算法的匹配过程:
当B个字符构成的子串h在模式串集合中没有匹配,即shift[h]<0,则跳转的距离是:m-B+1(相对保守的策略)
当B个字符构成的子串h在模式串集合中有匹配且非后缀,即shift[h]>0,则跳转的距离是:shift[h](相对安全的滑动)
当B个字符构成的子串h在模式串集合中且是后缀,即shift[h]=0,则查hash和prefix表确定匹配到了哪个模式串
3.  WM(Wu-Manber)算法的简单例子(来自joylnwang专栏-WM算法详解):
目标串target[1...10]=dcbacabcde,模式结合P={abcde,bcbde,abcabe}(ps:m=5,B=2,k=3,C=2),预处理后得到的三张表如下所示:

    

WM算法的匹配过程是:
    (1)从i=5(因为m=5)开始执行算法,首先我们发现target[4...5] = ac(target[i-B+1](5-2+1)),SHIFT表中不存在ac,所以i = i+4 (shift表中没找到,则 i += m-B+1
(2)此时i=9,发现target[8...9]=cd,查SHIFT[cd]=1,所以i += SHIFT[cd]
(3)此时i=10,然后发现target[9...10]=de, 查SHIFT[de]=0,表明可能出现匹配到模式串的情况。
(4)查HASH[de]有两个模式串abcde和bcbde;在target中取长度为C的从i-m+1开始的子串,即target[6...7] = ab,查PREFIX[ab] = abcde。此时确定模式串是abcde。
4.  WM(Wu-Manber)算法的程序实例:
  

 

转载于:https://www.cnblogs.com/ladawn/p/9281509.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485702.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI研习丨专题:因果推断与因果性学习研究进展

来源&#xff1a;《中国人工智能学会通讯》2020年 第10卷 第5期 机器学习及其应用专题0 引言因果关系一直是人类认识世界的基本方式和现代科学的基石。爱因斯坦就曾指出&#xff0c;西方科学的发展是以希腊哲学家发明形式逻辑体系&#xff0c;以及通过系统的实验发现有可能找…

传感器的未来: 10年后我们将会生活在一个极端透明的世界

来源&#xff1a;大数据文摘作者&#xff1a;彼得戴曼迪斯2014年&#xff0c;在芬兰的一个传染病实验室里&#xff0c;卫生研究员佩特里拉特拉&#xff08;Petteri Lahtela&#xff09;发现了一件奇怪的事情&#xff0c;他突然意识到他所研究的很多问题的条件都存在着重叠。例如…

企业计算机服务器中了babyk勒索病毒怎么办,babyk勒索病毒解密数据恢复

在数字化的今天&#xff0c;网络安全威胁不断增加&#xff0c;给企业的生产生活带来了严重影响&#xff0c;使得企业不得不重视数据安全问题。近日&#xff0c;云天数据恢复中心接到企业求助&#xff0c;企业的计算机服务器中了babyk勒索病毒&#xff0c;导致企业所有计算机系统…

java yied的用法,Java多线程的wait(),notify(),notifyAll()、sleep()和yield()方法使用详解,...

Java多线程的wait()&#xff0c;notify()&#xff0c;notifyAll()、sleep()和yield()方法使用详解&#xff0c;Java多线程中的wait()&#xff0c;notify()&#xff0c;notifyAll()、sleep()和yield()方法我们先从一个案例开始&#xff1a;static public class WaitingTest {//s…

海马体启发的记忆模型

来源&#xff1a;混沌巡洋舰 记忆是人类智能的关键&#xff0c;我们因为记忆可以把过去和当下整合成为一体&#xff0c; 并且可以预测未来。记忆不仅是一个信息承载的工具&#xff0c; 更是世界模型的本体&#xff0c; 它无时无刻不在刻画未来&#xff0c; 也被当下影响&#…

DeepMind最新发现!神经网络的性能竟然优于神经符号模型

来源&#xff1a;深度学习这小事按照之前的常识&#xff0c;结合了算法和符号推理技术的神经符号模型&#xff08;Neurosymbolic Models&#xff09;&#xff0c;会比神经网络更适合于预测和解释任务&#xff0c;此外&#xff0c;神经符号模型在反事实方面表现更好。而Neural-S…

刚刚Sci-Hub和特朗普一样被永久封禁,Twitter官方:不得上诉

来源&#xff1a;量子位晓查 发自 凹非寺 公众号&#xff1a;QbitAI今天&#xff0c;Twitter官方宣布永久封禁特朗普的账号。而另一个账号的封禁恐怕更让科学界感到震惊。有用户发现&#xff0c;Sci-Hub的Twitter账号和特朗普一样&#xff0c;都被完全清空了。随后&#xff0c;…

javaweb简要介绍,虚拟路径,虚拟主机

1. 静态&#xff0c;动态&#xff1a;是否随时间&#xff0c;地点&#xff0c;用户操作的改变而改变 动态网页 需要使用到 服务端脚本语言(JSP) 2. 架构&#xff1a; CS: Client Server eg&#xff1a;qq&#xff0c;微信&#xff0c;cs游戏 不足&#xff1a; 1.如果软…

物理学中的不确定性

来源&#xff1a;人机与认知实验室吴骏&#xff08;香港中文大学通识教育基础课程讲师&#xff09;【物理研究的只是模型&#xff0c;而不是真理】物理学中的确定性问题缘起于我正在教授的《与自然对话》[1] 这门课。其中节选了詹姆士华生 (James Watson) 在2003年写的一本畅销…

JSP执行流程

第一次访问&#xff1a;服务端将jsp翻译成java&#xff0c;再将Java编译成class文件 第二次访问&#xff1a;直接访问class文件较快&#xff0c;所以第一次访问比较慢&#xff0c;以后就快了 &#xff08;如果服务器代码修改了&#xff0c;则需要重新进行翻译&#xff0c;编译…

玩电子游戏的神经网络,告诉我们大脑是如何决策的

来源&#xff1a;混沌巡洋舰当你开车的时候&#xff0c;你的大脑会接收大量的视觉信息&#xff0c;并用它来做出驾驶的决定&#xff0c;比如什么时候刹车或者换车道。大脑需要决定在你的视野中哪些信息是做出这些决定所必需的。例如&#xff0c;另一辆车的位置是非常重要的&…

2021年的第一盆冷水:有人说别太把图神经网络当回事儿

来源&#xff1a;数学中国图神经网络&#xff08;GNN&#xff09;是机器学习中最热门的领域之一&#xff0c;在过去短短数月内就有多篇优秀的综述论文。但数据科学家 Matt Ranger 对 GNN 却并不感冒。他认为这方面的研究会取得进展&#xff0c;但其他研究方向或许更重要。博客链…

JSP页面元素,内置对象及request详解

JSP的页面元素&#xff1a; a. 脚本Scriptlet 1.<% 局部变量&#xff0c;Java语句 %> 2.<%! 全局变量&#xff0c;定义方法 %> 3.<% 输出表达式 %> 一般而言&#xff0c;修改web.xml&#xff0c;配置文件&#xff0c;Java&#xff0c;需要重启tomcat服务&am…

美国科学院报告《无止境的前沿:科学的未来75年》

来源&#xff1a;科技咨询频道作者&#xff1a;刘昊 张志强 曹玲静编译&#xff1a;刘昊 张志强 曹玲静 &#xff08;中国科学院成都文献情报中心&#xff09;2020年12月17日&#xff0c;美国国家科学院出版报告《无止境的前沿——科学的未来75年》&#xff08;The Endless Fro…

jsp内置对象--response

response&#xff1a;响应对象 提供的方法&#xff1a;void addcookie(Cookie cookie);服务端向客户端增加一个cookie对象 void sendRedirect(String location) throws IOException:页面跳转的一种方式&#xff08;重定向&#xff09; void setContetType(String type) :设置…

AR增强现实技术解读

来源&#xff1a;网络 AR增强现实&#xff0c;是用户对现实世界感知的新技术。一般认为&#xff0c;AR技术的出现源于虚拟现实技术&#xff08;Virtual Reality&#xff0c;简称VR&#xff09;的发展&#xff0c;但二者存在明显的差别。传统VR技术给予用户一种在虚拟世界中完全…

人工智能十年回顾:CNN、AlphaGo、GAN……它们曾这样改变世界

来源&#xff1a;机器学习研究组订阅号过去十年间&#xff0c;人工智能技术突飞猛进&#xff0c;最疯狂的科幻小说场景现在已经成为我们生活中不可或缺的一部分。十年前&#xff0c;人们在谈论 AI 的理论化和实验&#xff0c;但这些年来&#xff0c;AI 变得更加切实了&#xff…

jsp--cookie

cookie&#xff08;客户端&#xff0c;不是内置对象&#xff09;:Cookies是服务端生成的&#xff0c;再发送给客户端保存 相当于本地缓存的作用&#xff1a; 客户端->服务端 eg&#xff1a;看一个电影&#xff0c;服务端产生发给客户端&#xff0c;第二次看就快了 作用&a…

Python学习笔记——GIF倒放处理

自动读取指定路径下所有gif格式的文件&#xff0c;利用Python图像处理库PIL下的Image、ImageSequence模块&#xff0c;批量实现gif倒放处理并保存。代码如下&#xff1a;# encoding: utf-8 import os import sys from PIL import Image, ImageSequencepath sys.path[0] …

OpenAI发布新人工智能系统:根据文字生成图像

来源&#xff1a;新浪科技据报道&#xff0c;旧金山人工智能研究公司OpenAI已经开发了一种新系统&#xff0c;能根据短文本来生成图像。OpenAI在官方博客中表示&#xff0c;这个新系统名为DALL-E&#xff0c;名称来源于艺术家萨尔瓦多达利&#xff08;Salvador Dali&#xff09…