力扣刷题总结 字符串(2)【KMP】

🔥博客主页: A_SHOWY
🎥系列专栏:力扣刷题总结录 数据结构  云计算  数字图像处理    

28.找出字符串中第一个匹配项的下标mid经典KMP
4593重复的子字符串mid可以使用滑动窗口或者KMP

KMP章节难度较大,需要深入理解其中的底层原理,单纯背代码不可靠

一、KMP方法总结

(1)KMP能解决的问题

KMP主要应用在字符串匹配上

(2)前缀和后缀

前缀:包含首字母不包含尾字母的所有子串

例如:

字符串aabaaf
前缀: aaaaabaabaaabaaaabaaf ×

后缀:包含尾字母而不包含首字母的所有子串

字符串aabaaf
后缀: fafaafbaafabaafaabaaf ×

(3)最长相等的前后缀 

模式串的前缀表

字符串aabaaf
最长相等前后缀:
a      0
aa     1
aab    0
aaba   1
aabaa  2
aabaaf 0
所以前缀表是010120

所以要跳到最长的相等前后缀的后面去接着匹配

(4)前缀表原理

模式串与前缀表对应位置的数字表示的是:下标i之前的字符串中,有多大长度的相同前后缀,所以当找到不匹配的位置时,要看前一个字符的前缀表的数值,因为要找前一个字符的最长相同的前后缀,前一个字符的前缀表的数值是2, 所以把下标移动到下标2的位置继续比配。next(prefix)数组:遇到冲突后,要回退到的下一个位置

最重要的一点(理解KMP的核心)为什么使用前缀表可以告诉我们匹配失败之后跳到哪里重新匹配?

假设在下标为5的部分不匹配了,下标5之前的这部分字符串最长相等的前后缀是aa,找到了最长的相等前后缀,匹配失败的地方是后缀子串的后面,那么找到与其相等的前缀部分就可以继续匹配了。

(5)前缀表代码实现

1.求next数组方式有很多 (比如原封不动【如果遇到冲突了,就找这个前缀表数组的前一位作为下标】,有的全部右移【初始值为-1,冲突这个位置对应下标】,有的全部减去1【不推荐 】),但是next数组的核心是遇到冲突了要向前回退

2.i指向了后缀末尾,j指向了前缀末尾,还代表i(包括i)之前的子串的最长相等前后缀的长度(这里难点就是j的双层含义),他非常像一个递归的过程

3.具体步骤可以分为四步:初始化 讨论处理前后缀不相同的时候 处理前后缀相同的时候 给next数组赋值,就能得到模式串的前缀表

  • 首先是初始化,对于 i和j的初始化以及next【0】的初始化,那么j我们初始化为-1,前面提到这只是其中的一种表现形式也就是串整体右移,那么i选择1(i肯定不能是0),next【i】表示i之前最长前后缀的长度,其实也就是j对于i的初始化我们放在后边的循环里
int j = -1;
next[0] = j;
  • 其次就是讨论前后缀不相同的情况,比较s【i】和s【j+1】是否相同,如果不同,那么就要回退,由于next【j】记录着j之前子串相同前后缀的长度,就要找j+1前一个元素在next数组的值(next【j】),注意向前回退是一个持续的过程,所以用while如果不匹配就一直回退
for(int i = 0; i < s.size(); s++){
while(j>=0 && s[i] != s[j+1]){//向前回退j = next[j];
}
}
  • 然后处理前后缀相同的情况,如果s【i】和s【j+1】相同,,就要同时移动i和j,并且,讲j赋值给next【i】
if (s[i] == s[j + 1]) { // 找到相同的前后缀j++;
}
next[i] = j;

 所以完整版本的 代码如下:

void getNext(int* next, const string& s){int j = -1;next[0] = j;for(int i = 1; i < s.size(); i++) { // 注意i从1开始while (j >= 0 && s[i] != s[j + 1]) { // 前后缀不相同了j = next[j]; // 向前回退}if (s[i] == s[j + 1]) { // 找到相同的前后缀j++;}next[i] = j; // 将j(前缀的长度)赋给next[i]}
}

二、经典题目

(1)28.找出字符串中第一个匹配项的下标

28. 找出字符串中第一个匹配项的下标icon-default.png?t=N7T8https://leetcode.cn/problems/find-the-index-of-the-first-occurrence-in-a-string/其实这个题目可以分成两个部分,是一个经典的字符串匹配题目,肯定是用我们刚刚学过的KMP算法来完成。那么所谓分成两个部分解体,第一部分就是构造NEXT数组,第二部分就是运用这个前缀表进行一个匹配的问题,那么第一部分的构造前缀表(NEXT数组)已经写完了,下面我们来写匹配过程的代码。注意我们一直用的是全体-1操作后的NEXT数组,在文本串haystack里面查找是否出现过模式串needle。

 int strStr(string haystack, string needle) {int j = -1;int next[needle.size()];getNext(next,needle);for(int i = 0; i< haystack.size();i++)//匹配过程中,next数组的使用从索引0开始{while(j >= 0 && haystack[i] != needle[j+1]){j = next[j];}if(haystack[i] == needle[j+1]){j++;}if(j == needle.size() -1){//j到了末尾return (i-needle.size() +1);//返回首部}}return -1;}

这里有几个要注意的点,第一个是i的初始值,匹配过程中,next数组的使用从索引0开始,在构造next数组的时候,0已经给了初始值了,所以从1开始。

然后就是如何判断是否包含呢,当i走到了needle的末尾的时候,说明存在匹配,返回首部的数值即可,所以完整的代码实现为

class Solution {
public:
void getNext(int* next, string& s){int j = -1;next[0] = j;//初始化for(int i =1; i < s.size();i++)//初始化,i从1开始{while(j >= 0 && s[i] != s[j+1]){//如果不想等j = next[j];//j就回退,这里有点像递归}if(s[i] == s[j+1]){j++;}next[i] = j;//最后给next数组的i坐标赋值}
}int strStr(string haystack, string needle) {int j = -1;int next[needle.size()];getNext(next,needle);for(int i = 0; i< haystack.size();i++)//匹配过程中,next数组的使用从索引0开始{while(j >= 0 && haystack[i] != needle[j+1]){j = next[j];}if(haystack[i] == needle[j+1]){j++;}if(j == needle.size() -1){//j到了末尾return (i-needle.size() +1);//返回首部}}return -1;}
};

(2)459.重复的子字符串

459. 重复的子字符串icon-default.png?t=N7T8https://leetcode.cn/problems/repeated-substring-pattern/

方法一:滑动窗口

当一个字符串内部由重复的子串组成,也就是由前后相同的子串组成。那么既然前面有相同的子串,后面有相同的子串,用 s + s,这样组成的字符串中,后面的子串做前串,前面的子串做后串,就一定还能组成一个s。

所以总体的思路为(个人认为很神奇的思路):只要两个s拼接在一起,里面还出现一个s的话,就说明是由重复子串组成。但是注意要去除s+s的字符串的首尾位置,不然判断没有意义。

class Solution {
public:bool repeatedSubstringPattern(string s) {string t = s + s;//掐头去尾t.erase(t.begin());t.erase(t.end() -1);//注意是end-1,应为t.end,返回指向t末尾下一个位置的迭代器if(t.find(s) != std::string::npos)//指的是字符串中未找到指定内容时的特殊返回值return true;return false;}
};

方法二:KMP算法

为什么可以使用KMP

步骤一:因为 这是相等的前缀和后缀,t[0] 与 k[0]相同, t[1] 与 k[1]相同,所以 s[0] 一定和 s[2]相同,s[1] 一定和 s[3]相同,即:,s[0]s[1]与s[2]s[3]相同 。

步骤二: 因为在同一个字符串位置,所以 t[2] 与 k[0]相同,t[3] 与 k[1]相同。

步骤三: 因为 这是相等的前缀和后缀,t[2] 与 k[2]相同 ,t[3]与k[3] 相同,所以,s[2]一定和s[4]相同,s[3]一定和s[5]相同,即:s[2]s[3] 与 s[4]s[5]相同。

步骤四:循环往复。

结论:在由重复子串组成的字符串中,最长前后缀不包含的子串就是最小重复子串

最长相等前后缀的长度为:next[len - 1] + 1。(这里的next数组是以统一减一的方式计算的,因此需要+1,如果len % (len - (next[len - 1] + 1)) == 0 ,则说明数组的长度正好可以被 (数组长度-最长相等前后缀的长度) 整除 ,说明该字符串有重复的子字符串。 (仍然是很神奇的思路)

class Solution {
public:void getNext (int* next, const string& s){next[0] = -1;int j = -1;for(int i = 1;i < s.size(); i++){while(j >= 0 && s[i] != s[j + 1]) {j = next[j];}if(s[i] == s[j + 1]) {j++;}next[i] = j;}}bool repeatedSubstringPattern (string s) {if (s.size() == 0) {return false;}int next[s.size()];getNext(next, s);int len = s.size();if (next[len - 1] != -1 && len % (len - (next[len - 1] + 1)) == 0) {return true;}return false;}
};

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/211544.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Flink 本地单机/Standalone集群/YARN模式集群搭建

准备工作 本文简述Flink在Linux中安装步骤&#xff0c;和示例程序的运行。需要安装JDK1.8及以上版本。 下载地址&#xff1a;下载Flink的二进制包 点进去后&#xff0c;选择如下链接&#xff1a; 解压flink-1.10.1-bin-scala_2.12.tgz&#xff0c;我这里解压到soft目录 [ro…

OrangePi ZERO2 刷机与启动

镜像准备 用读卡器和Win32Diskimager刷写镜像到内存卡&#xff0c;镜像文件见下面百度云链接&#xff1a;https://pan.baidu.com/s/14aKTznc4Jvw4SoFF54JUTg 提取码&#xff1a;1815 刷写完毕后插回香橙派 串口登录 用MobaXterm和USB-TTL进行串口登录&#xff0c;MobaXterm软…

谈一谈网络协议中的应用层

文章目录 一&#xff0c;什么是HTTPHTTP的优缺点HTTPS 一&#xff0c;什么是HTTP 我们在通过网络进行传输数据时&#xff0c;我们要保证&#xff0c;我们在发送时构造的数据&#xff0c;在接收时也能够解析出来&#xff0c;这本质上就是一种协议&#xff0c;是一种应用层协议&…

Spring Cloud + Vue前后端分离-第3章 SpringBoot项目技术整合

Spring Cloud Vue前后端分离-第3章 SpringBoot项目技术整合 3-1 集成持久层框架Mybatis ORM:对象关系映射&#xff0c;Hibernate是全自动ORM&#xff0c;Mybatis是半自动ORM&#xff0c;Mybatis可以操作的花样更多&#xff0c;是首选的持久层框架 System模块集成Mybatis框架…

整数分析 C语言xdoj43

问题描述 给出一个整数n&#xff08;0<n<100000000&#xff09;。求出该整数的位数&#xff0c;以及组成该整数的所有数字中的最大数字和最小数字。 输入说明 输入一个整数n&#xff08;0<n<100000000&#xff09; 输出说明 在一行上依次输出整数n的位…

Linux内核上游提交完整流程及示例

参考博客文章&#xff1a; 向linux内核提交代码 - 知乎 一、下载Linux内核源码 通过git下载Linux内核源码&#xff0c;具体命令如下&#xff1a; git clone git://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git 实际命令及结果如下&#xff1a; penghaoDin…

IBM Qiskit量子机器学习速成(六)

量子卷积神经网络 卷积和池化&#xff1a;卷积神经网络的必备成分 卷积神经网络被广泛应用于图像和音频的识别当中&#xff0c;关键在于“卷积”操作赋予神经网络统筹学习数据的能力。 执行卷积操作需要输入数据与卷积核&#xff0c;卷积核首先与输入数据左上角对齐&#xf…

【数据库】简单连接嵌套查询

目录 &#x1f387;简单查询 &#x1f387;连接查询 &#x1f387;嵌套查询 分析&思考 &#x1f387;简单查询 --练习简单查询 --select * from classes --select * from student --select * from scores --1.按Schedule表的结构要求用SQL语言创建Schedule表 --字段名…

深度学习之全面了解预训练模型

在本专栏中&#xff0c;我们将讨论预训练模型。有很多模型可供选择&#xff0c;因此也有很多考虑事项。 这次的专栏与以往稍有不同。我要回答的问题全部源于 MathWorks 社区论坛&#xff08;ww2.mathworks.cn/matlabcentral/&#xff09;的问题。我会首先总结 MATLAB Answers …

HarmonyOS应用开发者基础认证考试(稳过)

判断题 ​​​​​​​ 1. Web组件对于所有的网页都可以使用zoom(factor: number)方法进行缩放。错误(False) 2. 每一个自定义组件都有自己的生命周期正确(True) 3. 每调用一次router.pushUrl()方法&#xff0c;默认情况下&#xff0c;页面栈数量会加1&#xff0c;页面栈支持的…

linux redis-cluster ipv6方式

配置文件&#xff0c;具体字段的含义&#xff0c;可以参考其他文档。 1.单个文件的配置信息 redis_36380.conf requirepass Paas_2024port 36380tcp-backlog 511timeout 0tcp-keepalive 300daemonize yessupervised nopidfile /data/paas/apps/aicache-redis/redis_36380.p…

【STM32】TIM定时器编码器

1 编码器接口简介 Encoder Interface 编码器接口 编码器接口可接收增量&#xff08;正交&#xff09;编码器的信号&#xff0c;根据编码器旋转产生的正交信号脉冲&#xff0c;自动控制CNT自增或自减&#xff0c;从而指示编码器的位置、旋转方向和旋转速度 接收正交信号&#…

黑豹程序员-EasyExcel实现导出

需求 将业务数据导出到excel中&#xff0c;老牌的可以选择POI&#xff0c;也有个新的选择EasyExcel。 有个小坑&#xff0c;客户要求样式比较美观&#xff0c;数字列要求千位符&#xff0c;保留2位小数。 可以用代码实现但非常繁琐&#xff0c;用模板就特别方便&#xff0c;模…

用chatGPT开发项目:我想的无人的智慧树网站 流量之神 利用人工智能的算法将人吸引住 GPT4是不是越来越难用了,问一下就要证明一下自己是不是人类

广度发散&#xff1a;让AI给出时代或今日或你关注的热点事件 比如采集新闻头条&#xff0c;根据内容或标题&#xff0c;以不同的角度&#xff0c;或各种人群的角色&#xff0c;生成50篇简短的文章。一下就能占传统的搜索引擎。这是AI最擅长的【千人千面&#xff0c;海量生成】…

【中国海洋大学】操作系统随堂测试6整理

1. IO系统的层次机构包括&#xff1a;IO硬件、中断处理程序、&#xff08;&#xff09;程序、设备独立性软件、用户层软件。 答&#xff1a;设备驱动 2. IO设备和控制器之间的接口包括三种类型的信号&#xff1a;数据信号线、控制信号线和&#xff08;&#xff09;&#xff1…

鸿蒙开发之封装优化

面向对象开发离不开封装&#xff0c;将重复的可以复用的代码封装起来&#xff0c;提高开发效率。 基于之前的List&#xff0c;对代码进行封装。 1、抽取component 将List的头部抽离出来作为一个新的component。可以创建一个新的ArkTS文件&#xff0c;写我们的头部代码 为了…

代理模式:解析对象间的间接访问与控制

目录 引言 理解代理模式 不同类型的代理模式 代理模式的应用场景 代理模式的优缺点 优点 缺点 实际案例&#xff1a;Java中的代理模式应用 结语 引言 代理模式是软件设计模式中的一种结构型模式&#xff0c;旨在为其他对象提供一种代理以控制对这个对象的访问。它允许你…

消息队列使用指南

介绍 消息队列是一种常用的应用程序间通信方法&#xff0c;可以用来在不同应用程序或组件之间传递数据或消息。消息队列就像一个缓冲区&#xff0c;接收来自发送方的消息&#xff0c;并存储在队列中&#xff0c;等待接收方从队列中取出并处理。 在分布式系统中&#xff0c;消…

esxi全称“VMware ESXi

esxi全称“VMware ESXi”&#xff0c;是可直接安装在物理服务器上的强大的裸机管理系统&#xff0c;是一款虚拟软件&#xff1b;ESXi本身可以看做一个操作系统&#xff0c;采用Linux内核&#xff0c;安装方式为裸金属方式&#xff0c;可直接安装在物理服务器上&#xff0c;不需…

数据结构算法-希尔排序算法

引言 在一个普通的下午&#xff0c;小明和小森决定一起玩“谁是老板”的扑克牌游戏。这次他们玩的可不仅仅是娱乐&#xff0c;更是要用扑克牌来决定谁是真正的“大老板”。 然而&#xff0c;小明的牌就像刚从乱麻中取出来的那样&#xff0c;毫无头绪。小森的牌也像是被小丑掷…