模式匹配算法----KMP算法以及next数组的解法

KMP算法:求字符串匹配(也叫模式匹配)的算法,即给定一个字符串,求其某一子串在其中出现的位置。

普通模式匹配

例如:给定字符串为abcabaaabaabcac,求其子串abaabcac在其中出现的位置。

结果为7

对于这种问题,没有经验的编程者通常会采用逐个匹配的方法,来得出结果。这就是最简单一种算法思想。

1. 逐个进行比较,如果相同,就继续比较下一个,但是我们可以看到下图中,c与a不相同,这就是所谓的“失配”。

2. 当发生失配,我们会将子字符串逐个后移,直到新的匹配建立,再逐个比较

3.

4.

5.

6.

7.

根据上面的方法,我们可以看到第二步有两个图,这是为什么呢?这是因为当出现失配时候,字符串每次后移一个的方法,不能够立刻建立匹配,还需要继续后移才能建立。也就是说,这种情况下,后移两个才能建立匹配。

当然这个例子比较小,只出现了两次这种情况,但是如果是较大的数据,这种冗余操作是十分低效的。这也就是KMP算法优化的地方。

KMP算法--next[]

KMP算法会创建一个next[]数组,用来保存一个字符失配后,到底跳转到第几个的位置才能更快速的建立匹配。这里用了跳转这个词,因为并不是向后移动next[i]位,而应该是直接跳转到相应的位置,使失配位与第next[i]位相对。这个数组是KMP算法的核心。

下面以字符串abaabcac为例,求解next数组,模式匹配的数组下标从1开始(这个算法推荐这么做,很多事情没有那么多理由)

 

next数组按照最长相等前后缀长度求解:

next[1],字符串“a”,前缀{},后缀{},没有相等前后缀,next记为0。要注意,前后缀均不包括整个串。

next[2],字符串“ab”,前缀{a},后缀{b},没有相等前后缀,next记为0。

next[3],字符串“aba”,前缀{a,ab},后缀{a,ba},相等前后缀{a},长度为1,next记为1。

next[4],字符串“abaa”,前缀{a,ab,aba},后缀{a,aa,baa},相等前后缀{a},长度为1,next记为1。

next[5],字符串“abaab”,前缀{a,ab,aba,abaa},后缀{b,ab,aab,baab},相等前后缀{ab},长度为2,next记为2。

next[6],字符串“abaabc”,前缀{a,ab,aba,abaa,abaab},后缀{c,bc,abc,aabc,baabc},相等前后缀{},next记为0。

next[7],字符串“abaabca”,前缀{a,ab,aba,abaa,abaab,abaabc},后缀{a,ca,bca,abca,aabca,baabca},相等前后缀{a},长度为1,next记为1。

next[8],字符串“abaabcac”,前缀{a,ab,aba,abaa,abaab,abaabc,abaabca},后缀{c,ac,cac,bcac,abcac,aabcac,baabcac},相等前后缀{},next记为0。

i12345678
str.charAt(i)abaabcac
next[i]00112010

由于使用next[]时,每次失配,都需要找它前面一个元素的next[]进行移动,为了方便,我们将next数组右移一位。最左侧填充-1,舍弃最右侧的元素。

i12345678
str.charAt(i)abaabcac
next[i]-10011201

为了简化计算,我们对next[]整体+1,这里得到的是我们通常使用的next[]。

i12345678
str.charAt(i)abaabcac
next[i]01122312

 

求解next数组代码:

    private static int[] get_Next(String str){ int[] next = new int[str.length()+1];  int j = next[2];// 这里next[1]和next[2]直接赋值next[1] = 0;next[2] = 1;for(int i = 2; i < str.length(); i++) {  while(j > 0 && str.charAt(i-1) != str.charAt(j)) {j = next[j]; }if(str.charAt(i-1) == str.charAt(j)) {j++;}next[i] = j;}  return next; }  

KMP算法改进--nextval[]

比较当前next[i]的值,与

1.前两位必为0,1

计算nextval[3]时,我们可以知道第三位字符位‘a’,next[3]=1,故查看第1位的字符为‘a’,字符相同,所以nextval[3]=next[1]=0

计算nextval[4]时,我们可以知道第四位字符位‘a’,next[4]=2,故查看第2位的字符为‘b’,字符不同,所以nextval[4]=next[4]=2

计算nextval[5]时,我们可以知道第五位字符位‘b’,next[5]=2,故查看第2位的字符为‘b’,字符相同,我们知道next[2]=1,故继续查看第1位的字符为‘a’,字符不同,所以nextval[5]=next[2]=1

计算nextval[6]时,我们可以知道第六位字符位‘c’,next[6]=3,故查看第3位的字符为‘a’,字符不同,所以nextval[6]=next[6]=3

计算nextval[7]时,我们可以知道第七位字符位‘a’,next[7]=1,故查看第1位的字符为‘a’,字符相同,所以nextval[7]=next[1]=0

计算nextval[8]时,我们可以知道第八位字符位‘c’,next[8]=2,故查看第2位的字符为‘b’,字符不同,所以nextval[7]=next[7]=2

i12345678
str.charAt(i)abaabcac
nextval[i]01021302

根据next数组,我们再来做一遍这个题目:给定字符串为abcabaaabaabcac,求其子串abaabcac在其中出现的位置。

 

1.创建匹配,第4个字符发生失配

2.使失配位与子串的第next[4]=2位相对,但是这是第二个字符又失配了

3.使失配位与子串的第next[2]=1位相对,此时第一个字符就失配

4.使失配位与子串的第next[1]=0位相对,注意我们的next数组是从1开始算的,所以相当于整体后移一个单位,下图的失配位实际是"c"

5.使失配位与子串的第next[4]=2位相对

6.使失配位与子串的第next[4]=2位相对

7.匹配成功

完整代码如下:

public class Main {  public static void main(String[] args) {  String str = "abaabcac";  String orig ="aabaabcac";  int[] next = get_Next(str);  for (int i = 1; i < next.length; i++) {System.out.print(next[i] + " ");}System.out.println();search(orig, str, next);  }  //next[i]表示的是str的"部分匹配表",这个表表示的是str前缀与后缀的最长公共字符串的长度private static int[] get_Next(String str){ int[] next = new int[str.length()+1];  int j = next[2];// 这里next[1]和next[2]直接赋值next[1] = 0;next[2] = 1;// 第2位之后的next,为什么从2开始,不是已经赋值了吗?这在于str.charAt(0)为字符串的第一个字母for(int i = 2; i < str.length(); i++) {  while(j > 0 && str.charAt(i-1) != str.charAt(j)) {j = next[j]; }if(str.charAt(i-1) == str.charAt(j)) {j++;}next[i] = j;}  return next; }  //orig为主串,而find为模式串,查找匹配位置以及匹配长度  private static void search(String orig, String find, int[]next){  int j = next[0];  for(int i = 0;i < orig.length(); i++){  while(j > 0 && orig.charAt(i) != find.charAt(j))  j = next[j];  if(orig.charAt(i) == find.charAt(j)){  j++;  }if(j == find.length()){  System.out.println("find at position " + (i - j+1));    System.out.println(orig.subSequence(i - j + 1, i + 1));    j = next[j];}}}
}

当然还有一种BM算法效率比KMP算法还好。有兴趣的读者可以参考时空权衡在模式匹配算法中的应用(JAVA)--Horspool算法(简化版BM算法)

nextval数组实际的数值是明显要小于next数组的,nextval数组由于考虑到了移动到的位置的数与当前位置数的关系,可以减少移动的距离。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/569710.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot使用layui的字体图标时无法正常显示 解决办法

在html文件使用字体图标并且预览时正常&#xff0c;但是启动工程后显示不正常&#xff0c;浏览器调试界面显示字体文件无法decode&#xff1a; Failed to decode downloaded font: xxxxx 如图所示&#xff1a; 显示结果&#xff1a; 原因&#xff1a;经过maven的filter&#xf…

蓝桥杯第七届国赛JAVA真题----机器人塔

机器人塔X星球的机器人表演拉拉队有两种服装&#xff0c;A和B。 他们这次表演的是搭机器人塔。 类似&#xff1a;队内的组塔规则是&#xff1a; A 只能站在 AA 或 BB 的肩上。B 只能站在 AB 或 BA 的肩上。你的任务是帮助拉拉队计算一下&#xff0c;在给定A与B的人数时&…

致自己人生的一句话

千锤万凿出深山 烈火焚烧若等闲 转载于:https://www.cnblogs.com/wuhefeng/p/10467737.html

单链表常见操作

最近在重新学习数据结构和算法的知识&#xff0c;数据结构和算法问题本身比较枯燥和乏味&#xff0c;而且比较难不容易掌握&#xff0c;但是属于程序员内功的一部分&#xff0c;学习起来容易上瘾。 1. 单链表定义 package algorithm.datastructors;/*** 单向链表* author i3247…

蓝桥杯第五届省赛JAVA真题----最长公共子序列

一个串的子串是指该串的一个连续的局部。如果不要求连续&#xff0c;则可称为它的子序列。 比如对串&#xff1a; "abcdefg" 而言&#xff0c;"ab","abd","bdef" 等都是它的子序列。 特别地&#xff0c;一个串本身&#xff0c;以及空串…

Python divmod() 函数

Python divmod() 函数 Python 内置函数 python divmod() 函数把除数和余数运算结果结合起来&#xff0c;返回一个包含商和余数的元组(a // b, a % b)。 在 python 2.3 版本之前不允许处理复数。 函数语法 divmod(a, b)参数说明&#xff1a; a: 数字b: 数字实例 >>>div…

蓝桥杯第五届省赛JAVA真题----单位分数

形如&#xff1a;1/a 的分数称为单位分数。 可以把1分解为若干个互不相同的单位分数之和。 例如&#xff1a; 1 1/2 1/3 1/9 1/18 1 1/2 1/3 1/10 1/15 1 1/3 1/5 1/7 1/9 1/11 1/15 1/35 1/45 1/231 等等&#xff0c;类似这样的分解无穷无尽。我们增加一个约…

.NET面试题总结

1、c#垃圾回收机制 从以下方面入手展开&#xff1a; 1、压缩合并算法 2、代的机制 3、GC调用终结器 2、委托和事件 先说它的定义&#xff1a;委托的本质是类&#xff0c;类型安全的指针&#xff0c;然后从用途上考虑&#xff0c;事件是包装的委托&#xff0c;但事件不是委托…

蓝桥杯第六届省赛JAVA真题----垒骰子

垒骰子 赌圣atm晚年迷恋上了垒骰子&#xff0c;就是把骰子一个垒在另一个上边&#xff0c;不能歪歪扭扭&#xff0c;要垒成方柱体。 经过长期观察&#xff0c;atm 发现了稳定骰子的奥秘&#xff1a;有些数字的面贴着会互相排斥&#xff01; 我们先来规范一下骰子&#xff1a;1 …

JAVA应试技巧----大数开方

大数开方--牛顿迭代法&#xff1a; 如果一个数的位数为偶数个&#xff0c;那么这个数开方之后就有n/2位&#xff1b; 如果一个数的位数为奇数个&#xff0c;那么这个数开方之后就有n/21位&#xff1b; 我们以num1000为例&#xff0c;位数为4&#xff0c;偶数&#xff0c;那么开…

蓝桥杯历届试题----矩阵翻硬币

矩阵翻硬币 问题描述 小明先把硬币摆成了一个 n 行 m 列的矩阵。随后&#xff0c;小明对每一个硬币分别进行一次 Q 操作。对第x行第y列的硬币进行 Q 操作的定义&#xff1a;将所有第 i*x 行&#xff0c;第 j*y 列的硬币进行翻转。其中i和j为任意使操作可行的正整数&#xff0…

并发队列、线程池、锁

1、CountDownLatch(计数器) CountDownLatch 类位于java.util.concurrent包下&#xff0c;利用它可以实现类似计数器的功能。比如有一个任务A&#xff0c;它要等待其他任务执行完毕之后才能执行&#xff0c;此时就可以利用CountDownLatch来实现这种功能了。CountDownLatch是…

POJ 1088----滑雪(DP)

原题连接&#xff1a;http://poj.org/problem?id1088 Description Michael喜欢滑雪百这并不奇怪&#xff0c; 因为滑雪的确很刺激。可是为了获得速度&#xff0c;滑的区域必须向下倾斜&#xff0c;而且当你滑到坡底&#xff0c;你不得不再次走上坡或者等待升降机来载你。Mic…

Vijos 1603 ----迷宫(矩阵乘法,矩阵快速幂)

描述 在某个神秘的星球上有一个游乐园 游乐园里有一个奇怪的迷宫&#xff0c;迷宫内有n个点&#xff0c;每个点之间都可能会有一条有向边&#xff08;可能会有自环&#xff09; 现在游乐园主有个问题想请你帮忙&#xff1a; 问&#xff1a;从s点走到f点&#xff0c;恰好走过…

蓝桥杯第六届省赛JAVA真题----循环节长度

循环节长度 两个整数做除法&#xff0c;有时会产生循环小数&#xff0c;其循环部分称为&#xff1a;循环节。 比如&#xff0c;11/136>0.846153846153….. 其循环节为[846153] 共有6位。 下面的方法&#xff0c;可以求出循环节的长度。 请仔细阅读代码&#xff0c;并填写…

蓝桥杯第六届省赛JAVA真题----打印菱形

打印菱形 给出菱形的边长&#xff0c;在控制台上打印出一个菱形来。 为了便于比对空格&#xff0c;我们把空格用句点代替。 当边长为8时&#xff0c;菱形为&#xff1a; .......* ......*.* .....*...* ....*.....* ...*.......* ..*.........* .*...........* *..........…

蓝桥杯第六届省赛JAVA真题----生命之树

生命之树 在X森林里&#xff0c;上帝创建了生命之树。 他给每棵树的每个节点&#xff08;叶子也称为一个节点&#xff09;上&#xff0c;都标了一个整数&#xff0c;代表这个点的和谐值。 上帝要在这棵树内选出一个非空节点集S&#xff0c;使得对于S中的任意两个点a,b&#…

蓝桥杯第七届省赛JAVA真题----剪邮票

剪邮票 如【图1.jpg】, 有12张连在一起的12生肖的邮票。 现在你要从中剪下5张来&#xff0c;要求必须是连着的。 &#xff08;仅仅连接一个角不算相连&#xff09; 比如&#xff0c;【图2.jpg】&#xff0c;【图3.jpg】中&#xff0c;粉红色所示部分就是合格的剪取。 请你…

PAT甲级1080 Graduate Admission【模拟】

题目&#xff1a;https://pintia.cn/problem-sets/994805342720868352/problems/994805387268571136 题意&#xff1a; 模拟高考志愿录取。 考生根据总成绩和高考成绩排名。根据排名往下录取&#xff0c;每个人有k个志愿。 如果他填的学校名额没有满&#xff0c;那么就可以被录…

蓝桥杯第三届省赛JAVA真题----取球博弈

题目描述 今盒子里有n个小球&#xff0c;A、B两人轮流从盒中取球&#xff0c;每个人都可以看到另一个人取了多少个&#xff0c;也可以看到盒中还剩下多少个&#xff0c;并且两人都很聪明&#xff0c;不会做出错误的判断。 我们约定&#xff1a; 每个人从盒子中取出的球的数目…