KMP算法与前缀函数

KMP算法与前缀函数

说明

本文参考了 OI Wiki。

首先来明确几个概念:

  • 后缀:后缀是从父串某个位置i开始到末尾结束的一个特殊字符串。
  • 真后缀:不为父串本身的后缀字符串。
  • 前缀:从父串开头到某个位置i结束的一个特殊字符串。
  • 真前缀:不为父串的前缀字符串。

前缀函数

给定一个长度为 n n n的字符串 s s s,其前缀函数被定义一个长度为 n n n的数组 π \pi π,其定义为:

  • 如果子串 s [ 0... i ] s[0...i] s[0...i]有一对相等的真前缀与真后缀: s [ 0... k − 1 ] s[0...k-1] s[0...k1] s [ i − ( k − 1 ) . . . i ] s[i-(k-1)...i] s[i(k1)...i],那么 π [ i ] \pi [i] π[i]就是这个相等的真前缀(或者真后缀,因为它们相等)的长度,也就是 π [ i ] = k \pi [i] = k π[i]=k
  • 如果不止有一对相等的,那么 π [ i ] \pi [i] π[i]就是其中最长的那一对的长度;
  • 如果没有相等的,那么 π [ i ] = 0 \pi [i] = 0 π[i]=0

简单来讲 π [ i ] \pi [i] π[i]就是字串 s [ 0... i ] s[0...i] s[0...i]最长相等的真前缀和真后缀的长度,且特别规定 π [ 0 ] = 0 \pi [0] = 0 π[0]=0

我们由此定义给出代码:

//前缀函数
vector<int> prefix;	//前缀函数对应的数组,当然你可以将它写在prefix_func里面并最后返回
void prefix_func(const string& s) {int n = (int)s.length();prefix.resize(n);for (int i = 1; i < n; i++) {int j = prefix[i - 1];while (j > 0 && s[i] != s[j]) j = prefix[j - 1];if (s[i] == s[j]) j++;prefix[i] = j;}}

KMP算法

复杂度

  • 时间复杂度为 O ( n + m ) O(n+m) O(n+m)
  • 空间复杂度为 O ( n ) O(n) O(n)

原理

Knuth–Morris–Pratt 算法原理如下:

给定一个文本 t t t和一个字符串 s s s,我们尝试找到 s s s t t t中的所有出现(用第一个字符的下标表示)。

为了简便起见,我们用 n n n表示字符串 s s s的长度,用 m m m表示文本 t t t的长度。

我们构造一个字符串 s + # + t s + \# + t s+#+t,其中 # \# #为一个既不出现在 s s s中也不出现在 t t t中的分隔符。接下来计算该字符串的前缀函数。现在考虑该前缀函数除去最开始个 n + 1 n+1 n+1值(即属于字符串 s s s和分隔符的函数值)后其余函数值的意义。根据定义, π [ i ] \pi [i] π[i]为右端点在 i i i且同时为一个前缀的最长真子串的长度,具体到我们的这种情况下,其值为与 s s s的前缀相同且右端点位于 i i i的最长子串的长度。由于分隔符的存在,该长度不可能超过 n n n。而如果等式 π [ i ] = n \pi [i] = n π[i]=n成立,则意味着 s s s完整出现在该位置(即其右端点位于位置 i i i)。注意该位置的下标是对字符串 s + # + t s + \# + t s+#+t而言的。

因此如果在某一位置 i i i π [ i ] = n \pi [i] = n π[i]=n成立,则字符串 t t t在字符串 i − ( n − 1 ) − ( n + 1 ) i - (n-1) - (n+1) i(n1)(n+1) i − 2 n i - 2n i2n处出现。

正如在前缀函数的计算中已经提到的那样,如果我们知道前缀函数的值永远不超过一特定值,那么我们不需要存储整个字符串以及整个前缀函数,而只需要二者开头的一部分。在我们这种情况下这意味着只需要存储字符串 s + # s + \# s+#以及相应的前缀函数值即可。我们可以一次读入字符串 t t t的一个字符并计算当前位置的前缀函数值。

// kmp算法,haystack为文本,needle为所查找的字符串
vector<int> kmp(string haystack, string needle) {string cur = needle + "#" + haystack;int sz1 = haystack.size();int sz2 = needle.size();vector<int>v;prefix_func(cur);for (int i = sz2 + 1; i <= sz1 + sz2; i++) {if (prefix[i] == sz2) v.push_back(i - 2 * sz2);	//如果要首次出现的位置,从这里返回即可}return v;
}

题目

LeetCode 第 28 题 找出字符串中第一个匹配项的下标

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/677530.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

in r, 找出所有重复的元素,包括第一个 R语言|如何筛选所有的重复行(包括第一行重复在内)

library(dplyr) data <- metadata %>%group_by(type) %>% # 根据你要筛选的列进行分组filter(duplicated(type)|n()!1) %>% # 将该列中有重复的行挑选出来ungroup() 方法二 # 示例向量 x <- c(1, 2, 3, 2, 4, 5, 5, 6)# 找出所有重复的元素&#xff08;包括第一…

基于深度学习算法的轴承故障自主分类

1. 要求 轴承有3种故障&#xff1a;外圈故障&#xff0c;内圈故障&#xff0c;滚珠故障&#xff0c;外加正常的工作状态。如表1所示&#xff0c;结合轴承的3种直径&#xff08;直径1,直径2,直径3&#xff09;&#xff0c;轴承的工作状态有10类&#xff1a; 表1 轴承故障类别 外…

单片机学习路线(简单介绍)

学习单片机对于电子爱好者和未来的嵌入式系统工程师来说是一段激动人心的旅程。单片机因其强大的功能、灵活性以及在各种智能设备中的广泛应用&#xff0c;成为了电子和计算机科学领域一个不可或缺的组成部分。如果你对如何开始这段旅程感到好奇&#xff0c;那么你来对地方了。…

Python爬虫:搭建本地IP池

本地代理IP池 代理IP池是一种由多个代理IP构成的集合&#xff0c;可以通过接口等方式随时获取可用的代理IP。通俗地打个比方&#xff0c;它就是一个池子&#xff0c;里面装了很多代理ip。代理IP具有以下几个特征&#xff1a; 1、池子里的ip是有生存周期的&#xff0c;它们将被…

Nginx配置php留档

好久没有用过php了&#xff0c;近几日配置nginxphp&#xff0c;留档。 安装 ubunt下nginx和php都可以使用apt安装&#xff1a; sudo apt install nginx php8 如果想安装最新的php8.2,则需要运行下面语句&#xff1a; sudo dpkg -l | grep php | tee packages.txt sudo add-…

计算机算术

计算机算术 数据是什么 数据是各种各样的信息&#xff0c;如数字、文本、计算机程序、音乐、图像、符号等等&#xff0c;实际上&#xff0c;信息可以是能够被计算机存储和处理的任何事物。 位与字节 计算机中存储和处理信息的最小单位是位&#xff08;Binary digit比特&#x…

[C#] 如何对列表,字典等进行排序?

对列表进行排序 下面是一个基于C#的列表排序的案例&#xff1a; using System; using System.Collections.Generic;class Program {static void Main(string[] args){// 创建一个列表List<int> numbers new List<int>() { 5, 2, 8, 1, 10 };// 使用Sort方法对列…

[动态规划]判断整除

题目 一个给定的正整数序列&#xff0c;在每个数之前都插入号或-号后计算它们的和。比如序列&#xff1a;1、2、4共有8种可能的序列&#xff1a; (1) (2) (4) 7 (1) (2) (-4) -1 (1) (-2) (4) 3 (1) (-2) (-4) -5 (-1) (2) (4) 5 (-1) (2) (-4) -3 (…

Open CASCADE学习|保存为STL文件

STL (Stereolithography) 文件是一种广泛用于3D打印和计算机辅助设计 (CAD) 领域的文件格式。它描述了一个三维模型的表面而不包含颜色、材质或其他非几何信息。STL文件通常用于3D打印过程中&#xff0c;因为它们仅包含构建物体所需的位置信息。 由于STL文件只包含表面信息&am…

使用raw.gitmirror.com替换raw.githubusercontent.com以解决brew upgrade python@3.12慢的问题

MacOS系统上&#xff0c;升级python3.12时&#xff0c;超级慢&#xff0c;而且最后还失败了。看了日志&#xff0c;发现是用curl从raw.githubusercontent.com上下载Python安装包超时了。 解决方案一&#xff1a;开启翻墙工具&#xff0c;穿越围墙 解决方案二&#xff1a;使用…

测试OpenSIPS3.4.3的lua模块

这几天测试OpenSIPS3.4.3的lua模块&#xff0c;记录如下&#xff1a; 有bug&#xff0c;但能用 但现实世界就是这样&#xff0c;总是不完美的&#xff0c;发现之后马上提了issue 下面这段代码运行报错&#xff1a; function func1(msg) xlog("ERR","…

【开源项目阅读】Java爬虫抓取豆瓣图书信息

原项目链接 Java爬虫抓取豆瓣图书信息 本地运行 运行过程 另建项目&#xff0c;把四个源代码文件拷贝到自己的包下面 在代码爆红处按ALTENTER自动导入maven依赖 直接运行Main.main方法&#xff0c;启动项目 运行结果 在本地磁盘上生成三个xml文件 其中的内容即位爬取…

论文阅读-CARD:一种针对复制元数据服务器集群的拥塞感知请求调度方案

论文名称&#xff1a;CARD: A Congestion-Aware Request Dispatching Scheme for Replicated Metadata Server Cluster 摘要 复制元数据服务器集群&#xff08;RMSC&#xff09;在分布式文件系统中非常高效&#xff0c;同时面对数据驱动的场景&#xff08;例如&#xff0c;大…

ECMAScript Modules规范的示例详解

ECMAScript Modules&#xff08;ESM&#xff09;是JavaScript中用于模块化开发的规范&#xff0c;它允许开发者将代码分割成多个独立的文件&#xff0c;以提高代码的可维护性和可重用性。下面是一个ECMAScript Modules规范的示例详解&#xff1a; 创建模块 1.1 导出变量 在一个…

大数据Flume--入门

文章目录 FlumeFlume 定义Flume 基础架构AgentSourceSinkChannelEvent Flume 安装部署安装地址安装部署 Flume 入门案例监控端口数据官方案例实时监控单个追加文件实时监控目录下多个新文件实时监控目录下的多个追加文件 Flume Flume 定义 Flume 是 Cloudera 提供的一个高可用…

【安卓操作系统——讲解】

安卓操作系统 安卓操作系统 安卓操作系统 安卓&#xff08;Android&#xff09;是一种基于Linux内核和其他开源软件的移动操作系统&#xff0c;主要用于触屏移动设备如智能手机和平板电脑。由Andy Rubin等人开发&#xff0c;最初的目的是创建一个先进的操作系统&#xff0c;用…

Python算法100例-1.4 百钱百鸡

1.问题描述2.问题分析3.算法设计4.知识点补充5.确定程序框架6.确定公鸡、母鸡和小鸡数量7.完整的程序8.问题拓展 完整源代码项目地址&#xff0c;关注博主私信’源代码’后可获取 1.问题描述 中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱百鸡问题”&#xf…

【Make编译控制 03】Makefile常用函数

目录 一、shell 二、subst 三、patsubst 四、foreach 五、dir 六、notdir 七、filter 八、filter-out 九、basename 十、wildcard 一、shell $(shell <command> <arguments>)# 名称&#xff1a;shell 命令函数 # 功能&#xff1a;调用 shell 命令 comma…

聚簇索引、非聚簇索引、回表、索引下推、覆盖索引

聚簇索引&#xff08;主键索引&#xff09; 非叶子节点上存储的是索引值&#xff0c;叶子节点上存储的是整行记录。 非聚簇索引&#xff08;非主键索引、二级索引&#xff09; 非叶子节点上存储的都是索引值&#xff0c;叶子节点上存储的是主键的值。非聚簇索引需要回表&…

动态规划的一个初步学习

啥叫动态规划 在我们写很多的题目时&#xff0c;常常可以用暴力枚举来写&#xff0c;缺点就是速度太慢了。如果我们用一个数组或者哈希表&#xff08;虽然我还没学过哈希表&#xff09;将之前暴力枚举的数据储存起来&#xff0c;当再一次枚举到这个数字的时候就直接调用数组或…