算法刷题笔记 KMP字符串(C++实现,并给出了求next数组的独家简单理解方式)

文章目录

    • 题目描述
    • 基本思路
    • 实现代码

题目描述

  • 给定一个字符串S,以及一个模式串P,所有字符串中只包含大小写英文字母以及阿拉伯数字。
  • 模式串P在字符串S中多次作为子串出现。
  • 求出模式串P在字符串S中所有出现的位置的起始下标。

输入格式

  • 第一行输入整数N,表示字符串P的长度。
  • 第二行输入字符串P
  • 第三行输入整数M,表示字符串S的长度。
  • 第四行输入字符串S

输出格式

  • 共一行,输出所有出现位置的起始下标(下标从0开始计数),整数之间用空格隔开。

数据范围

  • 1 ≤ N ≤ 10^5
  • 1 ≤ M ≤ 10^6

基本思路

  • KMP算法是一个经典的字符串匹配算法。字符串匹配如果使用蛮力算法实现,则最坏情况下的时间复杂度是O(m*n),其中mn分别是母串和子串的长度;KMP算法将该时间复杂度优化到了O(m+n),可以说实现了一个重大的飞跃。
  • KMP算法可以分为求next数组和基于next数组的字符串匹配两部分,其中前一部分会更加困难一些。
  • 在字符串匹配部分,采用的方法是一种双指针算法,两个指针分别指向母串和子串中的一个待匹配字符。每次都比较两个指针所指向的字符,如果字符相同(发生匹配的情况),则同时将指针移动到下一个位置;如果字符不同(发生失配的情况),则进行分情况讨论:
    • 对于子串的首字符失配,则直接将母串的指针移动到下一个位置;
    • 对于子串的非首字符失配,则根据已经得到的next数组,修改子串指针所指向的位置,避免从头开始匹配带来的冗余消耗。
  • next数组的求解是KMP算法最困难的部分,下面进行介绍:
    • next数组中的每一个元素的值,表示从字符串的首个字符开始到当前元素对应的字符结束所构成的子串的最长相同前后缀的长度。注意,这里的最长相同前后缀不包含字符串本身。
    • next数组的首元素需要手动进行初始化,设置其值为0
    • next数组的构建同样是基于双指针算法完成的。起初,分别设置两个指针指向字符串的第一个字符和第二个字符,之后这两个指针都会向后移动。
      • 当两个指针指向的字符相同时,则当前右指针对应的字符的next数组元素值就是在上一个元素的next数组元素值上自增1
      • 当两个指针指向的字符不同时,则说明当前的最长相同前后缀分别加上左右指针所指向的字符后,无法继续构成相同的前后缀,因此就需要尝试寻找更短子串构成最长相同前后缀,即代码中的prefix_length = ne[prefix_length - 1]部分。这一部分理解起来比较复杂,因此下面通过一个实例进行介绍。
      • 假设需要构建对应的next数组的字符串是ABACABAB,且当前已经完成匹配的部分是第一个到第三个字符ABA和第五个到第七个字符ABA,第七个字符A对应的next数组值是3。现在左指针指向了第四个字符C,右指针指向了第八个字符B,显然两者不同,因此左右两边的字符串增加了新字符后,ABACABAB显然不是相同的前后缀,因此我们需要使用别的方式计算由这八个字符构成的字符串的最长相同前后缀。
      • 直观上我们发现,如果需要构建最长相同前后缀,那么就需要两个条件:加入的新字符完全相同、加入新字符前的前缀和后缀完全相同。这样,就可以产生一个巧妙的构思:既然当前字符串的最长相同前后缀分别增加一个新字符后无法继续构成最长相同前后缀,那么我们能不能退而求其次,不是使用当前的最长相同前后缀,而是第二长相同前后缀,来构建下一个最长相同前后缀呢?这是因为,第二长相同的前后缀也满足加入新字符前的前缀和后缀完全相同,并且修改了前缀和后缀后,前缀的下一个字符也会随着前缀更改一次,说不定就可以和右指针新插入的字符相同了。
      • 例如,对于ABACABA,最长的相同前后缀是ABA(前三个字符和后三个字符),但是最长的相同前后缀再增加第八个字符B后,构成的前后缀分别是ABACABAB,显然不相同。但是,如果使用第二长前后缀A(即第一个字符和第七个字符),增加一个字符B后,仍然可以构成相同前后缀AB。因此,在字符串当前的最长相同前后缀无法继续构成下一步的最长相同前后缀时,我们可以使用第二长的相同前后缀继续进行尝试,如果还不行则使用第三长的相同前后缀…直到找到可以继续构成相同前后缀的相同前后缀或确定不存在可以构成相同前后缀的相同前后缀(因为一个字符串的相同前后缀的个数是有限的)。现在的问题就是如何找出一个字符串的第二长相同前后缀。
      • 对于字符串ABABABA,其最长相同前后缀是ABA,包含三个字符,那么第二长的相同前后缀如果存在,则一定只包含两个字符或者一个字符,所以我们需要比较该字符串的前两个字符和后两个字符,以及第一个字符和最后一个字符。由于我们已经知道了ABA是最长相同前后缀,所以后两个字符实际上就是第二个和第三个字符,最后一个字符实际上就是第三个字符,因此问题就转换为了比较该字符串的前两个字符和第二个第三个字符,以及字符串的第一个字符和第三个字符是否相同的问题,其实也就是前三个字符构成的字符串ABA的最长相同前后缀问题!
      • 由于我们求解next数组的过程是顺序进行的,因此我们已经计算出了前三个字符ABA对应的next数组元素分别为001,因此我们可以得出对于ABA,其最长相同前后缀的长度为1,因此对于字符串ABABABA,其第二长相同前后缀的长度也是1。因此,在最长相同前后缀ABA无法继续构成最长相同前后缀时,我们使用第二长的相同前后缀尝试继续构建最长相同前后缀,构建出了AB,成功!

实现代码

#include <iostream>
using namespace std;// 创建一个静态数组ne作为next数组
const int n = 1e5 + 10;
int ne[n];// 获取next数组的函数
// 传入的参数分别是字符串的长度N和字符串P
// 函数根据传入的参数计算next数组
void get_next(int N, const string& P)
{// 首先将第一个元素对应的next值设置为0ne[0] = 0;// 定义并初始化两个指针int prefix_length = 0, j = 1;// 通过循环的方式求解next数组,直到完成对字符串的遍历while(j < N){// 情况1:两个指针所指向的字符相同,则说明最长相同前后缀可以同时自增,并记录结果if(P[prefix_length] == P[j]){++ prefix_length;ne[j] = prefix_length;++ j;}else{// 情况2:两个指针所指向的字符不同且第一个指针并不是指向字符串首字符,则根据next数组找出次最长相同前后缀if(prefix_length != 0) prefix_length = ne[prefix_length - 1];// 情况3:两个指针所指向的字符不同,且第一个指针指向字符串首元素,则直接将此处记录为0即可else{ne[j] = 0; ++ j;}}}
}// 进行KMP字符串匹配的函数
// 传入的参数分别是子串的长度N、子串P、母串的长度M、母串S
// 函数会在控制台输出子串P在母串S中所有出现位置的首字符下标
void KMP_search(int N, const string& P, int M, const string& S)
{// 首先根据子串P获取其对应的next数组get_next(N, P);// 定义并初始化母串和子串的指针int pp = 0, sp = 0;// 通过循环进行字符串匹配,当超出母串长度时停止循环while(sp < M){// 情况1:当前母串和子串的对应字符相同,则指针同时自增比较下一个元素if(P[pp] == S[sp]) {++ pp; ++ sp;}else{// 情况2:当前母串和子串的对应字符不同,且不是发生在子串第一个元素,则基于next数组修改子串指针if(pp != 0) pp = ne[pp - 1];// 情况3:当前母串和子串的对应字符不同,且发生在子串的第一个元素,则直接将母串指针自增else ++ sp;}// 每一次当子串遍历完成一次,则输出一次出现下标,并基于next数组修改子串指针if(pp == N){cout << sp - pp << " ";pp = ne[pp - 1];}}
}int main(void)
{int N, M;string P, S;cin >> N >> P >> M >> S;KMP_search(N, P, M, S);return 0;
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/44339.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

docker拉取镜像,报错error pulling image configuration: download failed after attempts=6: dial tcp 157.240.1

error pulling image configuration: download failed after attempts6: dial tcp 157.240.10.32:443: i/o timeout docker compose pull docker pull langgenius/dify-web:0.6.13 重启docker sudo systemctl restart dockerhttps://stackoverflow.com/questions/72353203/do…

9.5 栅格图层符号化多波段彩色渲染

文章目录 前言多波段彩色渲染QGis设置为多波段彩色二次开发代码实现多波段彩色 总结 前言 介绍栅格图层数据渲染之多波段彩色渲染说明&#xff1a;文章中的示例代码均来自开源项目qgis_cpp_api_apps 多波段彩色渲染 以“3420C_2010_327_RGB_LATLNG.tif”数据为例&#xff0c…

代码随想录打卡第二十一天

代码随想录–二叉树部分 day 21 二叉树第八天 文章目录 代码随想录--二叉树部分一、力扣669--修建二叉搜索树二、力扣108--将有序数组转换为二叉搜索树三、力扣538--把二叉搜索树转换为累加树 一、力扣669–修建二叉搜索树 代码随想录题目链接&#xff1a;代码随想录 给你二叉…

常见条件控制算法流程图

内容讲解&#xff1a;流程控制[if…else…(if…elif…else…),while,for] 常见条件控制算法流程图高清图

新手教学系列——高效管理MongoDB数据:批量插入与更新的实战技巧

前言 在日常开发中,MongoDB作为一种灵活高效的NoSQL数据库,深受开发者喜爱。然而,如何高效地进行数据的批量插入和更新,却常常让人头疼。今天,我们将一起探讨如何使用MongoDB的bulk_write方法,简化我们的数据管理流程,让代码更加简洁高效。 常规做法:find、insertone…

Unity 之 抖音小游戏集成排行榜功能详解

Unity 之 抖音小游戏集成排行榜功能详解 一,前言1.1 为游戏设计利于传播的元素​2.2 多人竞技、社交传播​二,集成说明2.1 功能介绍2.2 完整代码2.3 效果展示三,发现的问题和迭代计划一,前言 对于 Unity 开发者而言,在开发抖音小游戏时集成排行榜功能是提升游戏社交性和玩…

Java实战中处理高并发的策略

引言 随着互联网的快速发展&#xff0c;高并发成为了许多应用必须面对的挑战。Java作为一门广泛应用于企业级开发的语言&#xff0c;提供了丰富的工具和技术来应对高并发问题。本文将详细探讨Java中处理高并发的几种常见策略和技术。 1. 并发编程基础 1.1 线程与线程池 Jav…

【TVM 教程】使用 TVM 部署框架预量化模型

本文介绍如何将深度学习框架量化的模型加载到 TVM。预量化模型的导入是 TVM 中支持的量化之一。有关 TVM 中量化的更多信息&#xff0c;参阅 此处。 这里演示了如何加载和运行由 PyTorch、MXNet 和 TFLite 量化的模型。加载后&#xff0c;可以在任何 TVM 支持的硬件上运行编译…

【Linux】常见指令收官权限理解

tar指令 上一篇博客已经介绍了zip/unzip指令&#xff0c;接下来我们来看一下另一个关于压缩和解压的指令&#xff1a;tar指令tar指令&#xff1a;打包/解包&#xff0c;不打开它&#xff0c;直接看内容 关于tar的指令有太多了&#xff1a; tar [-cxtzjvf] 文件与目录 ...…

C++运行时类型识别

目录 C运行时类型识别A.What&#xff08;什么是运行时类型识别RTTI&#xff09;B.Why&#xff08;为什么需要RTTI&#xff09;C.dynamic_cast运算符Why&#xff08;dynamic_cast运算符的作用&#xff09;How&#xff08;如何使用dynamic_cast运算符&#xff09; D.typeid运算符…

【Scrapy】 Scrapy 爬虫框架

准我快乐地重饰演某段美丽故事主人 饰演你旧年共寻梦的恋人 再去做没流着情泪的伊人 假装再有从前演过的戏份 重饰演某段美丽故事主人 饰演你旧年共寻梦的恋人 你纵是未明白仍夜深一人 穿起你那无言毛衣当跟你接近 &#x1f3b5; 陈慧娴《傻女》 Scrapy 是…

各地户外分散视频监控点位,如何实现远程集中实时监看?

公司业务涉及视频监控项目承包搭建&#xff0c;此前某个项目需求是为某林业公司提供视频监控解决方案&#xff0c;需要实现各地视频摄像头的集中实时监看&#xff0c;以防止国家储备林的盗砍、盗伐行为。 公司原计划采用运营商专线连接各个视频监控点位&#xff0c;实现远程视…

跟着李沐学AI:线性回归

引入 买房出价需要对房价进行预测。 假设1&#xff1a;影响房价的关键因素是卧室个数、卫生间个数和居住面积&#xff0c;记为x1、x2、x3。 假设2&#xff1a;成交价是关键因素的加权和 。权重和偏差的实际值在后面决定。 拓展至一般线性模型&#xff1a; 给定n维输入&…

MySQL 9.0 正式发行Innovation创新版已支持向量

从 MySQL 8.1 开始&#xff0c;官方启用了新的版本模型&#xff1a;MySQL 创新版 (Innovation) 和长期支持版 (LTS)。 根据介绍&#xff0c;两者的质量都已达到可用于生产环境级别。区别在于&#xff1a; 如果希望尝试最新的功能和改进&#xff0c;并喜欢与最新技术保持同步&am…

怎样在 C 语言中实现栈?

&#x1f345;关注博主&#x1f397;️ 带你畅游技术世界&#xff0c;不错过每一次成长机会&#xff01; &#x1f4d9;C 语言百万年薪修炼课程 通俗易懂&#xff0c;深入浅出&#xff0c;匠心打磨&#xff0c;死磕细节&#xff0c;6年迭代&#xff0c;看过的人都说好。 文章目…

动手学深度学习(Pytorch版)代码实践 -循环神经网络-55循环神经网络的从零开始实现和简洁实现

55循环神经网络的实现 1.从零开始实现 import math import torch from torch import nn from torch.nn import functional as F from d2l import torch as d2l import matplotlib.pyplot as plt import liliPytorch as lp# 读取H.G.Wells的时光机器数据集 batch_size, num_ste…

开发个人Ollama-Chat--7 服务部署

开发个人Ollama-Chat–7 服务部署 服务部署 go-ChatGPT项目涉及的中间件服务较多&#xff0c;以下部署文件目录&#xff1a; |-- chat-api | |-- etc | | -- config.yaml | -- logs |-- chat-rpc | |-- etc | | -- config.yaml | -- logs |-- docker-compos…

ElasticSearch第一天

学习目标&#xff1a; 能够理解ElasticSearch的作用能够安装ElasticSearch服务能够理解ElasticSearch的相关概念能够使用Postman发送Restful请求操作ElasticSearch能够理解分词器的作用能够使用ElasticSearch集成IK分词器能够完成es集群搭建 第一章 ElasticSearch简介 1.1 什么…

windows 中的 Nsight Systems 通过ssh 链接分析 Linux 中的cuda程序性能

1&#xff0c;Linux 环境 安装 ssh-server $ sudo apt install openssh-server 安装较新版本的 cuda sdk 下载cuda-samples github repo 编辑修改 ssh 配置&#xff1a; $ sudo vim /etc/ssh/sshd_config 删除相关注释&#xff0c;修改后如下&#xff1a; Port 22 Addres…

只会vue的前端开发工程师是不是不能活了?最近被一个flutter叼了

**Vue与Flutter&#xff1a;前端开发的新篇章** 在前端开发的世界里&#xff0c;Vue.js和Flutter无疑是两颗璀璨的明星。Vue以其轻量级、易上手的特点吸引了大量前端开发者的青睐&#xff0c;而Flutter则以其跨平台、高性能的优势迅速崛起。那么&#xff0c;对于只会Vue的前端…