字符串的模式匹配--BF算法KMP算法

BF算法是基于主串指针回溯,重新与子串进行逐字符进行比较,主串为S什么要进行回溯呢,原因在于模式P中存在相同的字符或者说由字符(串)存在重复(模式的部分匹配性质),设想如果模式P中字符各不相同,主串就S的指针就根本不需要回溯;然而,我们可以发现在主串S与模式发生失配时,主串指针进行回溯会影响效率,因为由于模式S本身字符的部分部分匹配性质,回溯之后,主串S与模式T有些部分比较是没有必要的,这就是对BF算法所要改进的地方。

BF算法的执行过程:
例:S =″aaaaaaaaaaab″
T =″aaab″
这里写图片描述
KMP算法的执行过程:
例:S =″ababcabcacbab″
T =″abcac″
这里写图片描述
经过以上对比,我们可以发现KMP算法的效率要比BF算法的效率高,接下来看一下代码。
BF算法

BF算法思想

  1. 在串 S 和串 T 中分别设比较的起始下标 i 和 j;
  2. 循环直到 S 中所剩字符个数小于 T 的长度或 T 的所有字符均比较完
    2 .1如果 S[i] = T [j] ,则继续比较 S 和 T 的下一个字符 ;
    2 .2 如果S[i] != T [j],将 i 和 j 回溯 ,准备下一趟比较 ;
  3. 如果 T 中所有字符均比较完 , 则匹配成功 , 返回匹配的起始比较下标 ;
    否则 ,匹配失败 ,返回 0;
int BF(String S, String T, int pos) {//pos是进行模式匹配的起始位置int i = 0;int j = 0;int start = 0;//子串的起始位置if (pos < 0 || (pos + T.length >= S.length)) {//起始位置小于0或者起始位置加上模式串的长度大于主串的长度,就不用进行匹配了printf("Irregular position.\n");} else {//进行匹配i = pos - 1;while (i < S.length && j < T.length) {if (S.str[i] == T.str[j]) {if (j == 0) {start = i;//记录子串的起始位置}i++;j++;} else {//若前面的字符都不同,tag一直为0,所以必须分情况讨论if (j != 0) {i = start + 1;} else {i = i + 1;}j = 0;}}if (j == T.length) {printf("ok\n");printf("start position = %d\n", start + 1);} else {printf("bu ok\n");}}return (start + 1);//返回子串的起始位置的逻辑位置
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35

KMP算法
KMP的算法中需要用到一个next数组,该数组是用来确定失配后模式串循环变量j回溯的位置的。

next数组的计算

在“aba”中,前缀是真前缀的所有子串的集合,包括“a”、“ab”,除去最后一个字符的剩余字符串叫做真前缀在“aba”中,真前缀“ab”。同理,真后缀就是除去第一个字符的后面全部的字符串。
next就是前缀和后缀中相同的子串的最大长度
例如:
1. 在“aba”中,前缀是“a”,后缀是“a”,那么两者相同子串最长的就是“a”,相同的子串的最的长度就是1;
2. 在“ababa”中,前缀是“aba”,后缀是“aba”,二者相同子串最长的是“aba”,相同的子串的最的长度就是3;
3. 在“abcabcdabc”中,前缀是“abc”,后缀是“abc”,二者相同子串最长的是“abc”,相同的子串的最的长度就是3;
这里有一点要注意,前缀必须要从头开始算,后缀要从最后一个数开始算,中间截一段相同字符串是不行的

next数组的计算还有简单的方法,上述使用最基础的方法计算的,便于理解

KMP算法思想

  1. 在串 S 和串 T 中分别设比较的起始下标 i 和 j;
  2. 循环直到 S 中所剩字符长度小于 T 的长度或 T 中所有字符均比较完毕
    2 .1 如果 S[i] = T [j],则继续比较 S 和 T 的下一个字符 ;
    2 .2 如果S[i] != T [j],将 j 向右滑动到 next[ j] 位置 ,即 j = next[j] ;
    2 .3 如果 j = 0 ,则将 i 和 j 分别加 1 ,准备下一趟比较;
  3. 如果 T 中所有字符均比较完毕 , 则返回匹配的起始下标 ,否则返回 0;

此处next数组使用一种简单的方法计算的,此处就不过多解释了,可以去网上学习一下,网上资源很多

//计算next的值
void getNext(String T, int next[]) {int i;//循环变量int k;next[0] = -1;for (i = 1; T.str[i] != '\0'; ++i) {k = next[i - 1];while (k != -1) {if (T.str[i - 1] == T.str[k]) {next[i] = k + 1;break;} else {k = next[k];}}if (k == -1) {next[i] = 0;}}
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21

KMP算法的匹配

int KMP(String S, String T, int next[]) {int start = 0;int i = 0;//主串的循环变量int j = 0;//模式串的循环变量while (i < S.length && j < T.length) {if (S.str[i] == T.str[j]) {//若主串和模式串的字符相同,都向后移一位i++;j++;} else {//若失配了,模式串的循环变量就要根据next数组回溯j = next[j];if (j == -1) {i++;j++;//j=-1时,j必须要加1,否则下标越界导致运行出错}}}if (j == T.length) {//判断匹配是否成功start = i - T.length + 1;return start;}return -1;
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24

此外还需要做一些准备工作

#include <stdio.h>#define MAX_SIZE 100typedef struct {//定义一个字符串的结构体char str[MAX_SIZE];int length;//字符串的长度
} String;//初始化
int initString(String *S) {S->length = 0;return 1;
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

用main函数测试一下

int main() {String S;//主串String T;//模式串initString(&S);//初始化initString(&T);createStr(&S);//从输入字符串createStr(&T);printf("----------BF&KMP----------\n");BF(S, T, 0);printf("----------KMP----------\n");int next[T.length];getNext(T, next);for (int i = 0; i < T.length; ++i) {printf("next[%d] = %d\t", i, next[i]);}printf("\n");int start = KMP(S, T, next);printf("\nstart position = %d\n", start);return 0;
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27

例:
S = “ababcabccabcacbab”
T = “abcac”
运行结果:
这里写图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/549383.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用SQL Server 监控 OS Server 的Task Management信息

用SQL Server 监控 OS Server 的Task Management信息 --原文来自于http://www.databasejournal.com/features/mssql/article.php/3562586/Monitor-CPU-Usage-of-All-Running-Processes---Part-II.htm 一&#xff1a; 监控程序部分 1. 在C 盘创一个文件夹&#xff1a;如 C…

匈牙利算法——最大匹配问题详解

2017年中兴提前批校招&#xff0c;就考了一题匈牙利算法。 匈牙利算法是由匈牙利数学家Edmonds于1965年提出&#xff0c;因而得名。匈牙利算法是基于Hall定理中充分性证明的思想&#xff0c;它是部图匹配最常见的算法&#xff0c;该算法的核心就是寻找增广路径&#xff0c;它是…

字符串匹配之KMP---全力解析

PS&#xff1a;文章是转载的 下方的微信公号不是我的 是原作者的。附上原文链接&#xff1a;字符串匹配之KMP jeliy王的博客 近日&#xff0c;一同学面试被问到字符串匹配算法&#xff0c;结果由于他使用了暴力法&#xff0c;直接就跪了(现在想想这样的面试官真的是不合格的&am…

用Dreamweaver实现ASP动态网站建设【8】

八、制作删除数据记录页 用上述学过的方法在Index.asp上创建“删除”连接。新建网页命名为delete.asp&#xff0c;并打开它&#xff0c;在其上创建一个七行二列的表格&#xff0c;并在左边的表格上填写相应的字段名&#xff0c;然后给网页绑定一个记录集&#xff0c;并对其字段…

大学计算机网络复习题

模拟试题 一、填空题 1、局域网中常用的拓扑结构主要有星型、 环形 、总线型三种。 2 、在当前的网络系统中&#xff0c;由于网络覆盖面积的大小、技术条件和工作环境不同&#xff0c;通常分为广域网、 局域网 、和城域网三种。 3、常用的通信介…

【讨论】从吉日的一段话说起+寻找WinForm架构的最佳实践

这两天园子里最火的莫过于吉日的白话反射&#xff0c;导致包子的批判&#xff0c;然后引来了老赵的两篇文章&#xff0c;然后又有若干人等一堆反射技术文章出世。可谓百花齐放&#xff0c;百家争鸣啊。喜欢这种氛围&#xff0c;呵呵。 今天我不谈反射&#xff0c;但和反射有关 …

Oracle分析函数一——函数列表

Oracle 分析函数 Oracle 分析函数——函数列表 SUM &#xff1a; 该函数计算组中表达式的累积和 MIN &#xff1a; 在一个组中的数据窗口中查找表达式的最小值 MAX &#xff1a; 在一个组中的数据窗口中查找表达式的最大值 AVG &#xff1a;…

用MATLAB实现神经网络

一 BP神经网络实现不使用MATLAB神经网络工具箱问题分析MATLAB实现代码运行结果绘制的图像 二 使用MATLAB的神经网络工具箱简易实现BP网络问题分析工具箱中的相关函数一些参考了MATLAB自带的英文手册mapminmax函数newff函数新版本关于nettrainParam的常用属性train函数sim函数 M…

Follow Me:CCIE RS--使用小凡模拟器搭建的CCIE拓扑图

我用小凡模拟器搭建了CCIE LAB 拓扑图有何不对的地方请指正转载于:https://blog.51cto.com/tanfo/216831

非线性最优化(二)——高斯牛顿法和Levengerg-Marquardt迭代

高斯牛顿法和Levengerg-Marquardt迭代都用来解决非线性最小二乘问题(nonlinear least square)。 From Wiki The Gauss–Newton algorithm is a method used to solve non-linear least squares problems. It is a modification of Newtons method for finding a minimum of a …

逆透视变换详解 及 代码实现(一)

逆透视变换详解 及 代码实现&#xff08;一&#xff09; 中主要是原理的说明&#xff1a; 一、世界坐标轴和摄像机坐标轴 从下图中可以看到&#xff0c;世界坐标为(X,Y,Z) 相机坐标为(Xc,Yc,Zc) 而世界坐标变换到相机坐标存在一个旋转矩阵变换R以及一个位移变换T。 根据上图…

C调用C++链接库

C调用C链接库&#xff1a; 1.编写C代码&#xff0c;编写函数的时候&#xff0c;需要加入对C的接口&#xff0c;也就是extern “c" 2.由于C不能直接用"class.function”的形式调用函数&#xff0c;所以C中需要为C写一个接口函数。例如本来要调用student类的talk函数&a…

逆透视变换详解 及 代码实现(二)

根据 逆透视变换详解 及 代码实现(一)的原理 下面我用车上拍摄的车道图像&#xff0c;采用逆透视变换得到的图像&#xff0c;给出代码前我们先看下处理结果。 首先是原始图像&#xff1a; 下图为逆透视变换图像&#xff1a; 下面说具体的实现吧&#xff01;&#xff01; 一、…

[赵星理]《简单男人》--歌曲温暖你的心,激励你前进

简单的男人&#xff0c;简单的歌曲&#xff0c;赵星理《简单男人》送给所有身负家庭责任的人&#xff0c;要让家越来越美&#xff0c;再苦再累也不能后退。加油&#xff01;简单男人词曲&#xff1a;赵星理演唱&#xff1a;赵星理累不累也不许落泪醉不醉苦辣都值得回味要让家越…

SCVMM

通过SCVMM实现并管理虚拟机高可用性 1、 添加群集主机2、 创建虚拟网络3、 创建虚拟机并实现高可用性接着上一篇文章&#xff0c;这次我们来看一下&#xff0c;如果通过SCVMM R2来实现虚拟机的高可用性。首先将群集主机添加到SCVMM 1、 登陆到计算机Win2008R2&#xff0c;打开S…

序列化包含多种不明类型的集合

序列化包含多种不明类型的集合 代码&#xff1a;/Files/zhuqil/Kirin.rar 导言: 你是否曾经想过序列化构造对象&#xff0c;它里面有一个集合&#xff0c;这个集合包含接口或者抽象类&#xff1f;你是否不知道所有的你要序列化的类型&#xff1f;好吧&#xff0c;如果这样&…

修改EIGRP 路径cost 值,以及分析和实现等价与非等价负载均衡

一、拓扑图&#xff1a;二、配置各路由器的IP和EIGRP 协议&#xff0c;并保证邻接关系的形成。1、我要达到的目的是要让R2到192.168.14.0/24这个网段能在R2和R1断开之后&#xff0c;形成网网络的快速收敛。因为根据EIGRP 的次优路径进拓扑关系的形成条件是要满足FC&#xff08;…

Ubuntu 9.10 升级到ext4

最近一直在使用ubuntu系统&#xff0c;当时升级到9&#xff0c;04的时候&#xff0c;也没有在意系统的文件系统变了&#xff1b;当使用一段时间之后&#xff0c;发现系统没有8.10时使用的顺畅&#xff0c;这时才发现9.04之后心内核都支持ext4文件系统&#xff0c;该文件系统要比…

史上最简单的软件破解——5行脚本代码完美破解99%的过期软件

如果你看到了这篇博文&#xff0c;绝对保证不虚此行。仅仅5行脚本代码&#xff0c;即可破解99%的过期软件。 这件事的背景&#xff1a;最近在找了一些学习资料&#xff0c;其中有Rational Rose画的图&#xff0c;好久没用过它了。今天安装好&#xff0c;导入许可文件&#xff…

数据在链路层传播相关时间计算

本来很懵逼的 看到这篇文章基本全懂了 一般这种题目会让我感觉很是煎熬&#xff0c;不知道怎么算。终于打通这类题目&#xff0c;总结到这里。 先看这类题目的常见表述&#xff1a;如图所示&#xff0c;图中路由器采用存储–转发的方式&#xff0c;所有链路的传播速率均为100…