【数据结构与算法】Z算法(扩展KMP)(C++和Python写法)

Z算法(扩展KMP)

文章目录

  • Z算法(扩展KMP)
    • 朴素求法
    • 线性求法
    • 力扣类型题
      • 变种题:[3303. 第一个几乎相等子字符串的下标](https://leetcode.cn/problems/find-the-occurrence-of-first-almost-equal-substring/)

所谓Z算法,就是求一个字符串中,每个后缀子串和主串的前缀匹配字符数的数组,其也成为Z数组

eg:主串为aaaab(首位总为0,因为包含首位即本体,无意义)

  • aaaab aaab -> 3
  • aaaab aab -> 2
  • aaaab ab -> 1
  • aaaab b -> 0
  • 结果集[0, 3, 2, 1,0]

朴素求法

时间复杂度为O(n^2),暴力获取Z数组。

每次都从头匹配,如果符合往后++,不符合则返回,下一次又从头匹配。

vector<int> z_function_trivial_simple(string s)
{int n = (int)s.length();vector<int> z(n);for (int i = 1; i < n; ++i){while (i + z[i] < n && s[z[i]] == s[i + z[i]])++z[i];}return z;
}

线性求法

image-20240929233046116

我们使用一个滑动窗口[l,r],这个滑动窗口总是往右移动,我们可以称之为Z_box

这个z_box具有特性:s[l, r] = s[0, r-l](s为字符串,l和r总是从0开始)

我们再次复习一下z数组的含义:z[i]表示从s[i]开始直到末尾的子字符串和s整个字符串匹配的前缀和

问题一:如何获取这个滑动窗口?

由于滑动窗口(z_box)总是向右移动,所以我们要用z数组及i来辅助获取。

具体方法为:当i+z[i] -1 > r时,修改l和r的位置,是l = i , r = i + z[i] - 1

原因:1. 我们希望滑动窗口会比需要匹配的数字更靠后,或者说能够包含未来匹配的位置,并且滑动窗口总是往右的。

  1. i这里代表新窗口的起始位,z[i]代表匹配的长度, -1 是因为z[i]的数字里包含i的位置。

换句话说,所谓新的z_box就是更往右的匹配上的子串前缀。这么说可能比较抽象,请以下图例辅助理解:

image-20240929234003463

问题二:这个滑动窗口的具体作用?

这个滑动窗口只在i ∈[l, r]时发生作用。

我们以上图例作为一个例子,作为讲解:

  • 此时 i = 5 ,5包含在[4,6]中,而且刚好是中间

  • 因为 s[0,2] == s[4,6] ,那么z[5] 可以直接参考z[1]获取

    ​ == > 即z[i] = z[i - l]

  • 但这只是上图的可能性,因为上图中z[i-l] == 1 这个值小于r - i + 1 -> 6- 5 + 1 -> 2,我们已经知道了最多只能匹配到这里

但是!还有一种可能,就是z[i-1] == (r - i + 1),这种情况我们无法预测r后面是否可以继续匹配,那么我就需要从r的后一位开始匹配。而这种匹配方式则回到了原始的匹配中,不再进行讲解,但是这种情况我们依然可以省略已经处于滑动窗口中的匹配。

下面代码展示(如果还不理解:可以用这个网站模拟:演示Z函数)

C++ 代码

vector<int> z_function(string s)
{		vector<int> z(s.size(), 0);int l = 0, r = 0;for (int i = 1; i < s.size(); i++){if (i <= r && z[i - l] < r - i + 1){z[i] = z[i - l];}else {z[i] = max(0, r - i + 1);// 从头开始暴力求解while (i + z[i] < s.size() && s[z[i]] == s[i + z[i]])++z[i];}if (i + z[i] - 1 > r){l = i, r = i + z[i] - 1;}// 可以打印进行看看cout << "i: "<< i << ", z[i]: "<< z[i] << ", [l, r]: ["<< l <<", " << r<<"]"<<endl;}return z;
}

Python代码

def getZArray(self, s : str) -> List[int]:# z[i] 为从i开始能和主串从头匹配的字符总数z = [0] * len(s)l, r = 0, 0for i in range(1, len(s)):# 当i在窗口内# 如果z[i-l] < (r-i+1),说明z[i-l]能匹配的字符数已经可知,直接获取# 否则,有可能超出这个数字,需要从末尾继续暴力寻找if i <= r:  # i在窗口内z[i] = min(z[i - l], r - i + 1)while i + z[i] < len(s) and s[z[i]] == s[i + z[i]]:  # 暴力匹配剩余部分z[i] += 1if i + z[i] - 1 > r:  # 更新窗口边界l, r = i, i + z[i] - 1return z

力扣类型题

变种题:3303. 第一个几乎相等子字符串的下标

这道题在Z算法的基础上,变形为前缀+后缀的组合,详情可以看这篇题解,写得很好,我不班门弄斧了。贴上我的代码。

C++

class Solution {
public:int minStartingIndex(string s, string pattern) {int m = pattern.size(), n = s.size();string combine = pattern + s;reverse(pattern.begin(), pattern.end());reverse(s.begin(), s.end());string combinervs = pattern + s;vector<int> pre = getZArray(combine);			// pre_l = z[m+l]vector<int> suf = getZArray(combinervs);		// suf_r = z[m+(n-r-1)]for (int l = 0, r = m - 1; r < n; l++, r++){if (pre[m + l] + suf[m + (n - r - 1)] + 1 >= m)return l;}return -1;}private:vector<int> getZArray(string& s){vector<int> z(s.size(), 0);int l = 0, r = 0;for (int i = 1; i < s.size(); i++){if (i <= r && z[i - l] < r - i + 1){z[i] = z[i - l];}else {z[i] = max(0, r - i + 1);while (i + z[i] < s.size() && s[z[i]] == s[i + z[i]])++z[i];}if (i + z[i] - 1 > r){l = i, r = i + z[i] - 1;}}return z;}
};

Python

from typing import Listclass Solution:def getZArray(self, s: str) -> List[int]:# z[i] 是从索引 i 开始的子串与主串前缀匹配的长度z = [0] * len(s)l, r = 0, 0for i in range(1, len(s)):if i <= r:  # i在窗口内z[i] = min(z[i - l], r - i + 1)while i + z[i] < len(s) and s[z[i]] == s[i + z[i]]:  # 暴力匹配剩余部分z[i] += 1if i + z[i] - 1 > r:  # 更新窗口边界l, r = i, i + z[i] - 1return zdef minStartingIndex(self, s: str, pattern: str) -> int:m, n = len(pattern), len(s)# 生成前缀和后缀Z数组combined = pattern + sreversed_combined = pattern[::-1] + s[::-1]pre = self.getZArray(combined)suf = self.getZArray(reversed_combined)# 检查匹配位置for l in range(n - m + 1):r = l + m - 1if pre[m + l] + suf[m + (n - r - 1)] + 1 >= m:return lreturn -1

参考:

[1] Z函数(扩展KMP)

[2] 3303 第一个几乎相等子字符串的下标——题解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/55029.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

9.29 LeetCode 3304、3300、3301

思路&#xff1a; ⭐进行无限次操作&#xff0c;但是 k 的取值小于 500 &#xff0c;所以当 word 的长度大于 500 时就可以停止操作进行取值了 如果字符为 ‘z’ &#xff0c;单独处理使其变为 ‘a’ 得到得到操作后的新字符串&#xff0c;和原字符串拼接 class Solution { …

box-im

任何一个开源项目&#xff0c;都可以让自己得到提升&#xff01; 启动minio: minio.exe server C:\Program Files\Minio\minioData

Python: RAII:函数执行完毕,socket对象主动发送fin

第一次知道python的这个默认RAII的功能。函数内的举报socket变量&#xff0c;在函数退出的时候&#xff0c;主动发fin。 import socket import threading import timedef create_connection():s socket.socket(socket.AF_INET, socket.SOCK_STREAM)s.connect((169.254.218.0,…

springboot+大数据+基于协同过滤算法的校园食堂订餐系统【内含源码+文档+部署教程】

博主介绍&#xff1a;✌全网粉丝10W,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业毕业设计项目实战6年之久&#xff0c;选择我们就是选择放心、选择安心毕业✌ &#x1f345;由于篇幅限制&#xff0c;想要获取完整文章或者源码&#xff0c;或者代做&am…

LLM | llama.cpp 安装使用(支持CPU、Metal及CUDA的单卡/多卡推理)

1. 详细步骤 1.1 安装 cuda 等 nvidia 依赖 # 以 CUDA Toolkit 12.4: Ubuntu-22.04/24.04(x86_64) 为例&#xff0c;注意区分 WSL 和 Ubuntu&#xff0c;详见 https://developer.nvidia.com/cuda-12-4-1-download-archive?target_osLinux&target_archx86_64&Distrib…

刚面试完的前端面试题

今天晚上参加了一场长达40多分钟的技术面。我觉得面试官非常专业&#xff0c;问的问题也都是很棒的&#xff01;自己很多知识都需要学习。所以我决定回想并记录下来。回答不对的地方欢迎大家指正&#xff01; 我自己在小本本上回忆出来的大概就是26道题。后期我会持续更新我学习…

数字图像处理:空间域滤波

1.数字图像处理&#xff1a;空间域滤波 1.1 滤波器核&#xff08;相关核&#xff09;与卷积 图像上的邻域计算 线性空间滤波的原理 滤波器核&#xff08;相关核&#xff09;是如何得到的&#xff1f; 空间域的卷积 卷积&#xff1a;滤波器核与window中的对应值相乘后所有…

如何使用 ChatGPT 生成万字长文?

要使用ChatGPT生成万字长文&#xff0c;可以采用以下方法&#xff0c;以保证文章结构清晰&#xff0c;内容充实&#xff1a; 1. 确定主题和大纲 明确主题&#xff1a;先确定文章的中心主题&#xff0c;例如技术、文学、历史、哲学等领域的具体问题。细化大纲&#xff1a;将主…

单链表(纯代码)

SListNode.h #pragma once #include <stdio.h> #include<assert.h> #include<stdlib.h> typedef int SLDatetype; typedef struct SListNode {SLDatetype data;//节点数据struct SListNode* next;//指针保存下一个节点的地址 }SLND;//打印链表 void SLTPrin…

SpringBoot实现学科竞赛管理:最佳实践

摘 要 随着国家教育体制的改革&#xff0c;全国各地举办的竞赛活动数目也是逐年增加&#xff0c;面对如此大的数目的竞赛信息&#xff0c;传统竞赛管理方式已经无法满足需求&#xff0c;为了提高效率&#xff0c;竞赛管理系统应运而生。 本学科竞赛管理系统以实际运用为开发背景…

华为OD真题机试-英文输入法(Java)

华为OD机试真题中的“英文输入法”题目主要考察的是字符串处理、单词提取、以及基于前缀的单词联想功能。以下是对该题目的详细解析&#xff1a; 题目描述 主管期望你来实现英文输入法单词联想功能。具体需求如下&#xff1a; 依据用户输入的单词前缀&#xff0c;从已输入的…

MIMO 2T4R BBU RHUB AAU

MIMO&#xff08;Multiple-Input Multiple-Output&#xff0c;多输入多输出&#xff09;是一种无线通信技术&#xff0c;它通过在发射端和接收端使用多个天线来提高数据传输速率和信号质量。"2T4R"是MIMO技术中的一种配置&#xff0c;其中"2T"代表有两个发…

SpringBoot--为什么Controller是串行的?怎样才能并行?

原文网址&#xff1a;SpringBoot--为什么Controller是串行的&#xff1f;怎样才能并行&#xff1f;-CSDN博客 简介 本文介绍SpringBoot为什么Controller是串行的&#xff1f;在什么场景下才能并行执行&#xff1f; 大家都知道&#xff0c;SpringBoot的Controller按理是并行执…

主流NoSQL及应用场景详解

对比传统关系型数据库&#xff0c;NoSQL有着更为复杂的分类——键值、面向文档、列存储以及图数据库。这里就带你一览NoSQL各种类型的适用场景及一些知名公司的方案选择。 在过去几年&#xff0c;关系型数据库一直是数据持久化的唯一选择&#xff0c;数据工作者考虑的也只是在这…

React学习笔记(四)——React 组件生命周期

目录 1. 生命周期-概览 2. 生命周期-挂载阶段 3. 生命周期-更新阶段 4. 生命周期-卸载阶段 5. setState扩展-发现问题 6. setState扩展-更多用法 7. setState扩展-异步 1. 生命周期-概览 了解react类组件生命周期整体情况 大致步骤&#xff1a; 什么是生命周期React类组…

MurmurHash 算法

简介 一种非加密型哈希函数 特点 特点&#xff1a; 1.快 &#xff0c;MurMurHash3 比 MD5 快 2.低碰撞&#xff0c;MurMurHash3 128 位版本哈希值是 128 位的&#xff0c;跟 MD5 一样。128 位的哈希值&#xff0c;在数据量只有千万级别的情况下&#xff0c;基本不用担心碰撞…

Python3自带HTTP服务:轻松开启与后台管理

Python3自带有http服务&#xff0c;可以在服务器&#xff0c;也可以在本地启动&#xff0c;并运行一些常用的网页程序。比如&#xff1a;我们可以把streamlit框架编写的网页放到服务器上&#xff0c;开启http服务&#xff0c;就可以通过网页来调用这个pythont程序了&#xff0c…

Java SE 总结

Java SE&#xff08;Standard Edition&#xff09;是Java编程语言的标准版本&#xff0c;提供了基础的编程环境和API&#xff0c;适用于开发和运行Java应用程序。下面是Java SE的几个重要方面的知识回顾与总结。 1. Java环境基础 具体可参考这里对三者的介绍 传送门 1.1 JVM…

C++【类和对象】(取地址运算符重载与实现Date类)

文章目录 取地址运算符重载const成员函数取地址运算符重载 Date类的实现Date.hDate.cpp1.检查日期合法性2. 构造函数/赋值运算符重载3.得到某月的天数4. Date类 - 天数的操作4.1 日期 天数4.2 日期 天数4.3 日期 - 天数4.4 日期 - 天数 5. Date的前后置/--5.1 前置5.2 后置5.…

C++游戏

宠粉福利&#xff01; 目录 1.猜数字 2.五子棋 3.打怪 4.跑酷 5.打飞机 6.扫雷 1.猜数字 #include <iostream> #include <cstdlib> #include <ctime>int main() {std::srand(static_cast<unsigned int>(std::time(0))); // 设置随机数种子int …