时空权衡在模式匹配算法中的应用(JAVA)--Horspool算法(简化版BM算法)

模式匹配是数据结构中字符串的一种基本运算,给定一个子串,要求在某个字符串中找出与该子串相同的所有子串。假设P是给定的子串,T是待查找的字符串,要求从T中找出与P相同的所有子串,这个问题成为模式匹配问题。P称为模式,T称为文本

这篇文章介绍了蛮力法在字符串匹配问题中的应用(JAVA)--朴素模式匹配算法,没有基础的读者可以先参考这篇文章。

上述的蛮力法求解的思路为:从左到右比较模式和文本中的每一对相应的字符,一旦匹配失败,模式右移一格,进行下一轮尝试。这种方法的时间复杂度为O(nm),实在是不够高效。

也有一些高效的算法被实现,诸如KMP算法和BM算法,这些算法中大多采用了输入增强思想(即对模式进行预处理以得到一些信息,将信息存储到表中,以便在匹配时能够使用这些信息)。这里将介绍BM算法的一种简化版本Horspool算法。

Horspool算法每次从右往左对模式串和文本进行匹配,如果出现一对匹配失败,则将模式串按情况从左往右移动。这里注意匹配的方向和移动的方向是不一样的。而“按情况”这就是比朴素匹配要高明的地方。

朴素匹配的移动方式,一旦匹配失败,所有情况都只会右移一个重新匹配。


而对于Horspool算法来说,我们假定文本匹配窗口(指的是文本中当前与模式进行匹配的等长部分,下图方框中的内容)这里的情况有四种。

情况一:如果匹配串中不包含c(下图中就是字母S),那么需要将模式串str移动str.length个长度(如果移动的幅度小于str.lengh,那么模式中的其他元素还是会和c对齐,这是没有意义的操作过程),如下图:


情况二:如果模式串中包含c,但不是模式的最后一个字符(下图中就是字母B),需要将模式串str中最右边的c与文本中的c对齐(因为该算法的匹配方式是从右往左匹配,这样能使匹配窗口尽可能的满足)。


情况三:如果c刚好是模式中的最后一个字符,但在模式的其他m-1个字符中不包含c,移动情况类似于情况一


情况四:如果c刚好是模式中的最后一个字符,但在模式的前m-1个字符中也包含c,移动情况类似于情况二


但是,还有一个重要的问题就是,如果我们每次都要尝试检查模式中的每个字符,那该算法也就失去了意义,改进方法就是通过预处理来解决,我们要预先计算除每次移动的距离并存储在表中,以便查找使用。


Horspool算法思路:

1. 对给定的长度为m的模式和在模式及文本中用到的字母,按照上面的方法构造移动表t[ ]

2. 将模式与文本的开始处对齐

3. 当构成文本匹配窗口后(也就是至少要从开始处移动m长度之后),从模式的最后一个字符开始,比较模式与文本中的相应字符,如全部匹配成功,则终止;如果遇到不匹配的字符,按照t[ ]移动模式。

完整代码如下:

import java.util.HashMap;public class Main {public static final char[] CHAR_TABLE = { 'a', 'b', 'c', 'd', 'e', 'f','g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's','t', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F','G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S','T', 'U', 'V', 'W', 'X', 'Y', 'Z', '0', '1', '2', '3', '4', '5','6', '7', '8', '9', '(', ')', '{', '}', '[', ']', '<', '>', ',','.', '_', '-', '+', '=', '~', '/', '?', ';', ':', '"', '|', '!','@', '#', '$', '%', '^', '&', '*' };public static HashMap<Character, Integer> ShiftTable(String p) {int m = p.length();HashMap<Character, Integer> table = new HashMap<Character, Integer>();for (int i = 0; i < CHAR_TABLE.length; i++)table.put(CHAR_TABLE[i], m);for (int i = 0; i < m - 1; i++)table.put(p.charAt(i), m - 1 - i);return table;}public static int HorspoolMatching(String p, String t) {HashMap<Character, Integer> table = ShiftTable(p);int m = p.length();int n = t.length();int i = m - 1; // 模式左右边的位置while (i <= n - 1) {int k = 0;while ((k <= m - 1) && p.charAt(m - 1 - k) == t.charAt(i - k)) {k++;}if (k == m)return i - (m - 1);elsei += table.get(t.charAt(i));}return -1;}public static void main(String[] argv) {String p="AECDE";String t="ZXYABPDEAECDE";System.out.println(HorspoolMatching(p, t));}}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/569739.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从wireshake分析http和https的通信过程

参考文章: Wireshark基本介绍和学习TCP三次握手【技术流】Wireshark对HTTPS数据的解密Wireshark/HTTPSJourney to HTTP/2以TCP/IP协议为例&#xff0c;如何通过wireshark抓包分析&#xff1f;TCP三次握手和四次挥手Https详解wireshark抓包演示前言 面试被问到有没有用过抓包工具…

蓝桥杯第六届国赛JAVA真题----密文搜索

标题&#xff1a;密文搜索福尔摩斯从X星收到一份资料&#xff0c;全部是小写字母组成。 他的助手提供了另一份资料&#xff1a;许多长度为8的密码列表。 福尔摩斯发现&#xff0c;这些密码是被打乱后隐藏在先前那份资料中的。请你编写一个程序&#xff0c;从第一份资料中搜索可…

Java对象的序列化和反序列化

原文&#xff1a;https://www.cnblogs.com/xdp-gacl/p/3777987.html 一、序列化和反序列化的概念 把对象转换为字节序列的过程称为对象的序列化。  把字节序列恢复为对象的过程称为对象的反序列化。 对象的序列化主要有两种用途&#xff1a; 1&#xff09; 把对象的字节序列永…

蓝桥杯第六届国赛JAVA真题----奇怪的数列

标题&#xff1a;奇怪的数列从X星截获一份电码&#xff0c;是一些数字&#xff0c;如下&#xff1a; 13 1113 3113 132113 1113122113 .... YY博士经彻夜研究&#xff0c;发现了规律&#xff1a; 第一行的数字随便是什么&#xff0c;以后每一行都是对上一行“读出来” 比如第2行…

使用 docker 搭建 nginx+php-fpm 环境 (两个独立镜像)

获取 nginx 镜像docker search nginx docker pull nginx使用nginx镜像开启 nginx 应用容器docker run -d --name nginx -p 8080:80 -v /tmp:/usr/share/nginx/html docker.io/nginx 说明 -d 后台运行--name 自定义容器名称-p 8080:80 宿主机的8080 映射到容器的80端口-v 宿主机…

蓝桥杯第六届国赛JAVA真题----表格计算

标题&#xff1a;表格计算某次无聊中&#xff0c; atm 发现了一个很老的程序。这个程序的功能类似于 Excel &#xff0c;它对一个表格进行操作。 不妨设表格有 n 行&#xff0c;每行有 m 个格子。 每个格子的内容可以是一个正整数&#xff0c;也可以是一个公式。 公式包括三种&…

安装oracle 11g时,报启动服务出现错误,找不到OracleMTSRecoveryService的解决方法

1、打开注册表看看&#xff1a;HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services下&#xff0c;找到OracleMTSRecoveryService及OracleRemExecService&#xff0c;查看ImagePath对应路径。 2、修改ImagePath路径为xxxxxxx\dbhome_1\bin\xxxxxxxxx即可【修改为你本地真实路…

蓝桥杯第六届国赛JAVA真题----切开字符串

标题&#xff1a;切开字符串Pear有一个字符串&#xff0c;不过他希望把它切成两段。 这是一个长度为N&#xff08;<10^5&#xff09;的字符串。 Pear希望选择一个位置&#xff0c;把字符串不重复不遗漏地切成两段&#xff0c;长度分别是t和N-t&#xff08;这两段都必须非空&…

全选和反选

$(function(){ // 全选 $("#全选框的ID").click(function () {$("input[name其他的复选框的name]").prop("checked", this.checked);}); // 反选选$("#反选选框的ID").click(function () {$("input[name其他的复选框的name]"…

django系列5.1--ORM对数据库的操作

Django--—ORM数据库操作(图书管理系统基本实例) 一.基本知识 MVC模式&#xff08;Model–view–controller&#xff09;是软件工程中的一种软件架构模式&#xff0c;把软件系统分为三个基本部分&#xff1a;模型&#xff08;Model&#xff09;、视图&#xff08;View&#xff…

蓝桥杯第七届省赛JAVA真题----压缩变换

压缩变换小明最近在研究压缩算法。 他知道&#xff0c;压缩的时候如果能够使得数值很小&#xff0c;就能通过熵编码得到较高的压缩比。 然而&#xff0c;要使数值很小是一个挑战。 最近&#xff0c;小明需要压缩一些正整数的序列&#xff0c;这些序列的特点是&#xff0c;后面出…

蓝桥杯第七届决赛JAVA真题----路径之谜

路径之谜小明冒充X星球的骑士&#xff0c;进入了一个奇怪的城堡。 城堡里边什么都没有&#xff0c;只有方形石头铺成的地面。 假设城堡地面是 n x n 个方格。【如图1.png】所示。按习俗&#xff0c;骑士要从西北角走到东南角。 可以横向或纵向移动&#xff0c;但不能斜着走&…

蓝桥杯第七届决赛JAVA真题----广场舞

广场舞LQ市的市民广场是一个多边形&#xff0c;广场上铺满了大理石的地板砖。 地板砖铺得方方正正&#xff0c;就像坐标轴纸一样。 以某四块砖相接的点为原点&#xff0c;地板砖的两条边为两个正方向&#xff0c;一块砖的边长为横纵坐标的单位长度&#xff0c;则所有横纵坐标都…

oracle的关键字

oracle使用管理员执行下面命令&#xff0c;就能获得oracle的关键字&#xff1a; select * from v$reserved_words order by keyword asc; 以下是oracle 11.2.0.1.0中执行的结果&#xff08;供参考&#xff09;&#xff1a; 转载于:https://www.cnblogs.com/zhaoqian49/p/104490…

建设网站

一、选择服务器 二、购买域名和备案 三、部署网站 四、解析域名转载于:https://www.cnblogs.com/start20180703/p/10449587.html

蓝桥杯第八届省赛JAVA真题----Excel地址

标题&#xff1a; Excel地址 Excel单元格的地址表示很有趣&#xff0c;它使用字母来表示列号。 比如&#xff0c; A表示第1列&#xff0c; B表示第2列&#xff0c; Z表示第26列&#xff0c; AA表示第27列&#xff0c; AB表示第28列&#xff0c; BA表示第53列&#xff0c; .... …

nginx location反向代理不对等时的处理

server{ server_name git.cheyunhua.top; location /test12/ { proxy_pass https://www.baidu.com/;}} location ^~ /oa/ { proxy_pass http://localhost:8998/; } 比如访问git.cheyunhua.top/test12 反向代理到http://www.baidu.com&#xff0c;需要在location以及pas…

蓝桥杯第八届省赛JAVA真题----k倍区间

标题&#xff1a; k倍区间 给定一个长度为N的数列&#xff0c;A1, A2, ... AN&#xff0c;如果其中一段连续的子序列Ai, Ai1, ... Aj(i < j)之和是K的倍数&#xff0c;我们就称这个区间[i, j]是K倍区间。 你能求出数列中总共有多少个K倍区间吗&#xff1f; 输入 -----…

poj1279

板子题&#xff0c;求多边形内核面积。 话说jls的板子返回的是边&#xff0c;然后我就在冥思苦想怎么根据割边求面积啊。。 然后发现自己果然是个傻逼&#xff0c;求一下交点存起来就好了。。。 //板子题到此为止了 1 #include <iostream>2 #include <cstdio>3 #in…

蓝桥杯第八届省赛JAVA真题----日期问题

标题&#xff1a;日期问题小明正在整理一批历史文献。这些历史文献中出现了很多日期。小明知道这些日期都在1960年1月1日至2059年12月31日。令小明头疼的是&#xff0c;这些日期采用的格式非常不统一&#xff0c;有采用年/月/日的&#xff0c;有采用月/日/年的&#xff0c;还有…