【数据结构】字符串匹配|BF算法|KMP算法|next数组的优化

字符串匹配算法是在实际工程中经常遇到的问题,也是各大公司笔试面试的常考题目,本文主要介绍BF算法(最好想到的算法,也最好实现)和KMP算法(最经典的)

一、BF算法

BF算法,即暴力(Brute Force)算法,是普通的模式匹配算法,BF算法的思想就是将目标S的第一个字符与模式串T的第一个字符进行匹配,若相等,则继续比较S的第二个字符和T的第二个字符,若不相等,则比较S的第二个字符和T的第一个字符,依次比较下去,直到得出最后的匹配结果。BF算法是一种蛮力法。                                               ---这段话来自百度百科

这段话晦涩难懂,需要例子支持。

下面我们就通过例子来解释这个问题。 l假定我们给出字符串“ababcabccabcacbab”作为主串,然后给出子串:“abcac”现在我们需要查找子串是否在主串中出现,出现返回主串中的第一个匹配的下标,失败返回-1;

1.图解:

2.代码实现: 

思路:

分别用 i 和 j 来遍历 主串 和 子串 ;

当主串和子串字符相同 i++ ,j++ ;

不同时 i = i - j +1 (i从下一个i开始继续遍历) j = 0(子串回到开头);

直到 j >= lenSub (子串遍历完了) 返回 i - j (主串中开始匹配的其实位置)

在Java中str == null和str.length == 0的区别:

str == null表示 str 没有指向任何对象,就是没有对应堆中对象

str.length() == 0表示 str 指向一个字符串对象,但是这个字符串长度为0

//str代表主串 sub代表子串public static int BF(String str, String sub) {if (str == null || sub == null) {return -1;}int lenStr = str.length();int lenSub = sub.length();if (lenStr == 0 || lenSub == 0) {return -1;}int i = 0;//遍历主串int j = 0;//遍历子串while (i < lenStr && j < lenSub) {if (str.charAt(i) == sub.charAt(j)) {i++;j++;} else {i = i - j + 1;j = 0;}}//子串遍历完了if (j >= lenSub) {return i - j;}return -1;}

二、KMP算法

KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出的,因此人们称它为克努特莫里斯一普拉特操作(简称KMP算法) 。KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next( )函数实现,函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度O(m+n) 

                                                                                                              ---这段话来自百度百科

 1. KMP算法解决的问题

对某些情况下的BF算法进行优化

BF算法每次字符串匹配失败,子串的 j 都会回到子串的第一个字符,但是我们看下面这个图会发现在有些情况下这样的回退是没必要的:

当 i 和 j 都匹配到下标为5的字符时,发现主串和字串的字符不匹配,BF算法在此时就会将i 回退到主串下标1字符b,j回退到子串0下标重新进行匹配,既然是匹配到最后一个字符才失败,那么 i 前面和 j 前面一定有一部分是相同的,这里相同部分就是主串0,1和3,4下标都是ab字符串,我们发现此时 j 回退到2下标c位置重新开始合适,i 直接不回退

区别: KMP 和 BF 唯一不一样的地方在,我主串的 i 并不会回退,并且 j 也不会移动到 0 号位置,而是回退到一个特殊的位置

2.图解演示:


3. 为什么主串 i 不回退? 

在下面这种情况下,在下标2位置匹配失败,i 即使回退到1位置也是没有必要的,因为 i回退到1位置的字符b  和 子串下标0位置的字符a  也不一样


4. j 的怎么进行位置的回退——引出next数组

从上面KMP算法解决的问题可知:

此时匹配失败,我们不回退 i ,因为在这个地方匹配失败,说明 i 的前面和 j 的前面,是有部分是相同的,不然两个下标不可能走到这里来,所以 j 回退到2下标,i 不回退,这就是最好的情况

那么我们怎么知道 j 回退到哪个位置呢?由此引入了next数组

KMP 的精髓就是 next 数组: 这个数组用来保存某个位置匹配失败后,回退的位置

也就是用 next[ i ] = k来表示,不同的 i 来对应一个k值, 这个 k 就是你将来要移动的i要移动的位置

就拿上面的例子来说,j 回退到2下标 那么next数组中 next [ 5 ] = 2


而 K 的值是这样求的(求next数组):

(1) 规则: 在子串中找到匹配成功部分的两个相等的真子串(不包含本身),一个以下标 0 开始,另一个以-1 下标结尾。
(2) 不管什么数据 next[0]= -1;next1]= 0;在这里,我们以下标来开始,而说到的第几个第几个是从 1 开始(也有些地方next[0]= 0;next1]= 1)

同样以上面的子串 abcabc 为例,求他的next数组:

下标0和下标1是固定的,那就不用说

下标2 :j 处于下标2 ,我们就看有没有一个字符串 以下标0(a字符)开始 ,另一个字符串以下标 -1(b字符)结束 的两个相同的字符串 ab这三个字符中肯定没有 所以next [2] = 0

下标3:j 处于下标3 ,我们就看有没有一个字符串 以下标0(a字符)开始 ,另一个字符串以下标 -1(c字符)结束 的两个相同的字符串 abc这三个字符中肯定没有 所以next [3] = 0

下标4:j处于下标4,我们同样看 有没有一个字符串 以下标0(a字符)开始 ,另一个字符串以下标 -1(a字符)结束 的两个相同的字符串 abca这三个字符中是有相同字符串a的 所以next [4] = 1(这里的1代表相同字符串的长度,没有就为0)

下标5 :j处于下标5 abcab 中ab 为相同的(一个a开头 另一个b结尾)字符串 所以next [5] = 2


求next数组的练习: 跟上面的过程一样,如果不懂可以去看 博哥视频讲解的KMP算法 30min的位置

练习 1: 举例对于”ababcabcdabcde”,求其的 next 数组?

答案:                 -10012012001200

练习 2: 再对”abcabcabcabcdabcde”,求其的 next 数组?

答案:         -10001 2345678901230

一般情况答案都是next[0]= 0;next1]= 1,所以我们在此答案基础上全部+1即可

从上面的答案我们可以得出结论:数组在增的时候都是一个一个+1,不可能跳着加


到这里大家对如何求next数组应该问题不大了,接下来的问题就是 :

5.已知next[ i ] = k;怎么求next[i+1]=? 

如果我们能够通过 next [ i ]的值,通过一系列转换得到 next [ i+1]得值,那么我们就能够实现这部分

首先假设: next[ i ] = k 成立 (为了方便数组名命名为p)

那么,就有这个式子成立:p [ 0 ]...p [ k-1 ] = p [ x ] ..p [ i-1 ]

因为 i -1 -k = k -1 那么 x = i - k ,也就是p [ 0 ]...p [ k-1 ] = p [ i - k ] ..p [ i-1 ]

到这一步: 我们再假设如果 p [ k ] = p [ i ] ;在上面得到的式子两边加上这个式子
我们可以得到p [ 0 ]...p [ k ] = p [ i-k ] ..p [ i ] ;那这个就是 next[ i+1]= k+1;

那么: p[ i ] != p[ k ] 呢?

看如下实例:

一次不匹配 ,j 回退到 2下标位置 不一定是你要找的 

继续回退 此时回退到了0下标 (也就是说 k一直回退 去找 p [i] == p [k] ,这样就满足了p [ k ] = p [ i ])


6.KMP算法代码实现

//找到子串在主串当中的下标public static int KMP(String str,String sub,int pos) {if(str == null||sub == null) return -1;int lenStr = str.length();int lenSub = sub.length();if(lenStr == 0||lenSub == 0) return -1;if(pos<0 || pos >= lenStr) return -1;int [] next = new int[lenSub];getNext(sub,next);int i = pos;//从pos位置开始遍历主串int j = 0;//遍历子串while(i < lenStr && j <lenSub) {//这里要考虑到一开始就不匹配,j=-1if (j==-1||str.charAt(i) == sub.charAt(j)) {i++;j++;} else {//下标不一样,一直回退j = next[j];}}if(j==lenSub) {return i-j;}return -1;}//重点:求子串的next数组public static void getNext(String sub,int [] next) {next[0] = -1;next[1] = 0;int i = 2;//i表示所求next数组的下标,是提前走了一步的int k = 0;//比较是否相等的前一项的k//这里next[i]就是要求的,和我们分析的next[i+1]一样// 原来判断的是p[i]==p[k],现在应该判断p[i-1]==p[k]while(i < sub.length()) {//此处要考虑k回退到了-1位置,next值就为0if (k==-1||sub.charAt(i-1) ==sub.charAt(k)) {next[i] = k+1;k++;i++;} else {//p[i-1]!=p[k],则k继续回退k = next[k];}}}

7.next数组的优化

为什么要对next数组进行优化?

有如下串:aaaaaaaab,他的 next 数组是-1,0,1,2,3,4,5,6,7

假设5位置匹配失败,那么就得回退到4位置,4位置和5位置都是a,那么还得回退到3位置,而3位置和4位置都是a,还得继续回退,就这样一直回退到0位置,由此引入了nextval数组进行了优化

next 数组的优化,即如何得到 nextval 数组:

(1)回退到的位置和当前字符一样,就写回退那个位置的nextval值

(2)如果回退到的位置和当前字符不一样,就写当前字符原来的next值

就以上面字符串为例:

0下标:肯定还是为-1

1下标:这个位置回退到0位置,因为这个位置的值和0位置(回退的位置)的值一样,所以这个位置的值就写回退位置的值(即-1)

2-7下标:这些位置回退到前一个位置,值都是一样的,所以都是-1

8下标:  回退到的位置和当前字符不一样,直接写next[ 8 ]的值7即可

则修正后的数组 nextval 是:-1, -1,-1,-1, -1, -1, -1, -1,7。


练习: 模式串 t='abgabbcabcaabdab’,该模式串的 next 数组的值为 ( D )nextva1 数组的值为 (F)

答案:在下面答案的基础上+1即可选择

  这里也不做过多的解释,过程跟上面一样,不懂的可以评论区或者私信问我,或者 看博哥视频讲解的KMP算法 2h的位置


本次内容就到此啦,欢迎评论区或者私信交流,觉得笔者写的还可以,或者自己有些许收获的,麻烦铁汁们动动小手,给俺来个一键三连,万分感谢 !

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/569379.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JMeter【第五篇】关联:5种方法

前几天在Q群里看到群友发的最近10年性能测试工具使用率的统计&#xff0c;最近的2018年&#xff0c;jmeterloadrunner占了93%的使用率&#xff0c;说明这两个是主流&#xff0c;其中&#xff0c;jmeter的使用率逐年提升&#xff0c;现在已经超过了loadrunner&#xff0c;占了51…

树——通用树到二叉树的转换

1&#xff0c;已经创建了通用树结构&#xff0c;有必要创建另一种树结构吗&#xff1f; 2&#xff0c;简化树就直接减少结点中孩子的数量&#xff0c;但是这样树还能通用吗&#xff1f; 3&#xff0c;通用树结构的回顾&#xff1a; 1&#xff0c;双亲孩子表示法&#xff1a; 1&…

如何运行exe文件

有三种方式 第一种&#xff1a;找到所在文件双击运行。 第二种&#xff1a;在命令行里面运行所在文件夹的位置&#xff0c;在输入文件名。 第三种&#xff1a;加到环境变量里面执行 转载于:https://www.cnblogs.com/q2546/p/10931956.html

推荐几款提升效率的神器

1 数学公式神器&#xff1a;Mathpix Snip 作为理工科的学生或者经常用到数学的科研工作者&#xff0c;应该对数学公式都很头疼&#xff0c;不管是用LaTeX还是mathtype&#xff0c;都比较麻烦&#xff0c;要么需要频繁的鼠标点击&#xff0c;要么需要好的记忆力。而Mathpix Snip…

实验9 c++

problem &#xff1a;A 第一个类 #include <iostream> #include <iomanip> #include <cstring> #include <cmath> using namespace std;class Thing { private:string name; public:Thing(){}Thing(string n):name(n) {cout << "" <…

迭代器协议、斐波那契数列

f1.__iter__iter(f1)  把一个对象变成可迭代对象 __init__  构造函数 for循环遵循迭代器协议&#xff0c;要求对象有next、iter方法&#xff0c;有iter方法&#xff0c;for循环跟着对象对触发对象的方法&#xff08;协议规定&#xff09; 对象内部要有next方法 斐波那契数列…

如何用一个例子彻底解释白盒测试中语句覆盖、判定覆盖、条件覆盖、条件判定覆盖、条件组合覆盖?

白盒测试 白盒测试把测试对象看作一个打开的盒子&#xff0c;测试人员依据程序内部逻辑结构相关信息&#xff0c;设计或选择测试用例&#xff0c;对程序所有逻辑路径进行测试&#xff0c;通过在不同点检查程序的状态&#xff0c;确定实际的状态是否与预期的状态一致。 语句覆…

简易的实现对象内存池

简易的实现对象内存池MemoryNode结构体是保存每一个申请的内存节点&#xff0c;然后构成一个单链表。MemoryNodeList 结构体是保存的是每一块内存&#xff0c;当上一个内存块用完时&#xff0c;再次创建一个内存块。numofMemoryNode&#xff1a;一个内存块的内存节点数量 numof…

Linux关机操作

转载于:https://www.cnblogs.com/hlc-123/p/10958108.html

JAVA:贪吃蛇源代码

嘿嘿 新手来 表现了&#xff01;&#xff01;&#xff01; 2019年结束 游戏截图&#xff1a; 文件布局&#xff1a; 代码分享 用到的一些全局变量 //全局变量 public class Global {public static final int RECT_WIDTH20;//每个小方格的长宽public static final int WIDTH…

AppiumForWin安装

尝试安装Windows版本的Appium参考&#xff1a;http://www.cnblogs.com/fnng/p/4540731.html第一步&#xff1a;安装nodehttps://nodejs.org/en/安装成功后使用&#xff1a;node -v&#xff0c;进行验证第二步&#xff1a;安装Appium下面的方法失败&#xff1a;原因下载不成功&a…

activiti5第一弹-----基本的activiti示例

建立一个普通的javaSE工程&#xff0c;工程的目录结构如下&#xff1a;需要的jar包如下&#xff1a; 在config文件夹下创建log4j.properties用来输入日志&#xff0c;内容如下&#xff1a; log4j.rootLoggerINFO, CA # ConsoleAppender log4j.appender.CAorg.apache.log4j.Cons…

activiti5第三弹-----------脚本任务

首先是流程定义图&#xff1a; 重点关注一下流程节点中 Script Task 节点的 properties中的Main config 这里可以选择不同的脚本语言&#xff0c;由于其他的部怎么会就用javascript来吧。 从图中可以看出只是定义了一个变量x&#xff0c;它的值为 a; 很多人都说这样定义了这个…

activiti5第四弹----serviceTask中的java服务任务

activiti.cfg.xml内容&#xff1a; <?xml version"1.0"?> <beans default-lazy-init"false"xsi:schemaLocation" http://www.springframework.org/schema/util http://www.springframework.org/schema/util/spring-util-3.0.xsd http://ww…

activiti5第五弹 serviceTask中的webserviceTask 以及 shellTask

web service task是BPMN2.0中的一种任务类型&#xff0c;在activiti5中它并没有专门的标签表示&#xff0c;而是使用了service task 来表示。而且有很多要配置的内容是无法用图形化工具来完成的。要使用web service task&#xff0c;当然要先有web service。所以首先要编写一个…

activiti5第六弹 手动任务、接收任务、邮件任务

手动任务和接收任务几乎不在程序中做什么事情---只是在流程的历史中留下一点痕迹&#xff0c;表明流程是走过某些节点的。。。而且这两个任务是无法用taskservice查询到的 但是接收任务比手动任务多一个功能&#xff0c;就是确认功能。。。 activiti.cfg.xml配置 <?xml v…

手把手教你用原始方式上传项目至GitHub

小编GitHub&#xff1a;https://github.com/ds1889 首先你得注册一个自己的GitHub账号&#xff0c;注册网址&#xff1a;https://github.com/join 有了自己的账号以后&#xff0c;就可以进行登录&#xff0c;开始创建一个新的项目 创建一个新的项目&#xff0c;填写项目名称&am…

office如何快速删除重复数据

1、首先打开如下文档&#xff0c;在A列删除重复日期星期一&#xff0c;星期二&#xff1b; 2、选中编号栏&#xff0c;&#xff21;1-&#xff21;10&#xff0c;如下图: 3、点击数据——删除重复项&#xff1b;如下图红色剪头所指: 4、删除后&#xff0c;重复项就被删除成功。…

SQL中and和or的区别是?

今天有这样得一个需求&#xff0c;如果登陆人是客服的话&#xff0c;会查询订单是’该客服’以及还没有匹配客服的&#xff0c;刚开始想的是直接在sql语句上拼写 or assigned_id is null 的&#xff0c;测试了一下发现这样的话&#xff0c;前面的其他条件都没有用了 这样的话…

Java编程设计---数组Arrays

数组的的定义 数组是存放在连续存储空间的元素集合 数组定义的格式&#xff1a; int[] arrnew int[5]; int&#xff1a;数组元素的数据类型&#xff0c;可以是基本数据类型&#xff0c;也可以是引用 arr&#xff1a;数组名称 5&#xff1a;数组中元素个数 第一步&#xff1a;定…