数据结构与算法C语言版学习笔记(5)-串,匹配算法、KMP算法

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、串的定义
  • 二、串的存储结构
    • 1.顺序结构
    • 2.链式结构
  • 三、串的朴素的模式匹配算法(暴力匹配算法)
    • 1.背景
    • 2.假设我们要从下面的主串 S="goodgoogle" 中,找到 T="google”这个子串的位置。
  • 四、升级版的匹配算法:KMP模式匹配算法
    • 1.背景:如果主串 S="aabaabaaf" ,要匹配的子串为 T=“aabaaf” 。
    • 2.KMP算法解决的问题:字符串匹配中,将时间复杂度从O(m*n)缩短到O(m+n)
    • 3.浅显的KMP匹配过程:
    • 4.关键在于如何得知让子串跳到哪个位置去跟主串比较呢?(这里是b)——求最长相等前后缀
      • ①一个串的前缀和后缀是什么?
      • ②子串为 T=“aabaaf” 的前缀和后缀是什么?
      • ③什么叫最长相等前后缀?
      • ④根据前缀表求匹配
      • ⑤next数组是什么?
      • ⑥KMP算法的思想不难,难的是如何计算最长相同前后缀和next数组。
  • 五、 KMP算法再举一个例子
    • 主串:ababbaabbaababaaacb
    • 子串:ababaa
    • (1)手算求next数组:求子串每个字母和前面一坨的最长公共前后缀长度
    • (2)KMP过程:
  • 六、KMP算法的代码实现
    • 1.求next数组
    • 2.KMP算法


前言

关于串,首先想到的就是字符串。为什么会有字符串这个东西产生呢?
比如外国人说英语,都是字母,但是我们中国人说的话不是字母,只能是汉字,所以汉字这种特殊的、无法被计算机直接阅读的字符,在组成一个短语或者句子时,就形成了字符串。
字符串的产生是为了能够表示和处理文本信息。在计算机科学中,文本是一种非常常见的数据类型,例如输入的命令、输出的结果、存储的文件内容等等。为了能够对文本进行操作和处理,就需要一种能够表示和存储文本的数据类型,于是字符串应运而生

字符串可以看作是由字符组成的序列,每个字符都有自己的编码表示,例如ASCII码或Unicode码。通过将字符依次排列组合,就可以构成一个完整的字符串。字符串可以进行各种操作,例如连接、截取、替换、查找等等,使得对文本的处理变得更加灵活和方便。

另外,字符串还可以用来表示和处理其他类型的数据,例如将数字转换为字符串进行输出、从用户输入的字符串中解析出数字等等。字符串的产生也是为了满足对不同类型数据的统一处理需求。

一、串的定义

在C语言中,字符和字符串是两个不同的概念,但它们之间存在一些联系和关联。

字符:字符是C语言中最基本的数据类型之一,用于表示单个字符。它使用单引号括起来,例如 ‘A’、‘9’、'!'等。每个字符在内存中占用一个字节的空间

字符串:字符串是由一系列字符组成的序列,以空字符 ‘\0’ 结尾。在C语言中,字符串实际上是以字符数组的形式存在的。例如,“Hello” 可以表示为一个包含6个字符的字符数组:{‘H’, ‘e’, ‘l’, ‘l’, ‘o’, ‘\0’}。字符串可以使用双引号括起来,例如 “Hello”

数据结构中,串(String)是由零个或多个字符组成的有限序列。它是一种线性数据结构,可以用来表示和处理文本、符号序列等信息。

串的定义可以表示为:一个串S是一个字符的有限序列,记作S = “a1a2…an”,其中每个字符ai属于一个字符集,n表示串的长度。串的长度可以是零,称为空串。

串在存储上通常使用字符数组来表示,其中每个字符占用一个存储位置。通常,字符串的最后一个位置用特殊字符 ‘\0’ 表示串的结束。

二、串的存储结构

1.顺序结构

串的顺序存储结构是用一组地址连续的存储单元来存储串中的字符序列的。按照预定义的大小,为每个定义的串变量分配一个固定长度的存储区。一般是用定长数组来定义。
既然是定长数组,就存在一个预定义的最大串长度,一般可以将实际的串长度值保存在数组的0下标位置,有的书中也会定义存储在数组的最后一个下标位置。但也有些编程语言不想这么干,觉得存个数字占个空间麻烦。它规定在串值后面加一个不计入串长度的结束标记字符,比如“\0”来表示串值的终结。
在这里插入图片描述
对于串数组的长度MaxSize,由于串数组长度是提前给定的,所以也很可能发生超出上限的情况。
在这里插入图片描述

2.链式结构

在这里插入图片描述

三、串的朴素的模式匹配算法(暴力匹配算法)

1.背景

字符串一般是一个有很多字符的组合,比如“Ilikeappleandyou"或者古诗“床前明月光,疑是地上霜”,这个时候我想在一个很大的字符串里面找到指定的子串“and”或者“明月”,应该怎么做呢?
这种子串的定位操作通常称做串的模式匹配, 应该算是串中最重要的操作之一

2.假设我们要从下面的主串 S=“goodgoogle” 中,找到 T="google”这个子串的位置。

在这里插入图片描述
在这里插入图片描述
代码思路:设主串str,子串substr。先计算出两个字符串的长度为10和6,大循环从0开始,循环
str_len - substr_len=4次,表示子串最多后移四次就无法匹配成功了。每一次大循环里面,让子串的每一位和主串对应位比较,如果不相等就跳出小循环,大循环让子串后移一位。

int findSubstring(char *str, char *substr) {int str_len = strlen(str);int substr_len = strlen(substr);for (int i = 0; i <= str_len - substr_len; i++) {int j;for (j = 0; j < substr_len; j++) {if (str[i + j] != substr[j]) {break;}}if (j == substr_len) {return i;  // 子串在主串中的起始位置}}return -1;  // 子串未找到
}

朴素匹配算法是一种简单直观的字符串匹配算法,但它也存在一些缺点:

效率较低:朴素匹配算法的时间复杂度为O(n*m),其中n为主串的长度,m为子串的长度。在最坏的情况下,需要进行大量的字符比较和回溯操作,导致算法效率较低。
回溯次数较多:当主串中的某个字符与子串的第一个字符匹配,但后续字符不匹配时,朴素匹配算法需要回溯到主串中的下一个位置,继续进行匹配。这可能导致大量的回溯操作,影响算法的性能。
没有利用已有信息:朴素匹配算法没有利用已经匹配过的字符信息,每次都从头开始比较。这使得算法的效率较低,尤其是在处理大规模文本时。

所以需要改进算法。

四、升级版的匹配算法:KMP模式匹配算法

1.背景:如果主串 S=“aabaabaaf” ,要匹配的子串为 T=“aabaaf” 。

朴素匹配算法时,主串从第一位开始逐次与子串比较,比较一圈不匹配后又从第二位开始逐次与子串比较,如此往复。那么主串需要不断的回溯,之前比较时得到的信息没有充分利用。

2.KMP算法解决的问题:字符串匹配中,将时间复杂度从O(m*n)缩短到O(m+n)

3.浅显的KMP匹配过程:

(1)第一次匹配时,a-a、a-a、b-b、a-a、a-a、b-f,这时不一致了。
在这里插入图片描述
(2)我不想回溯重新匹配,所以第二次匹配,让子串跳到从b之后开始匹配,这样的话,刚好一个循环就能完成匹配。所以KMP算法重要的思想就是:省略了普通算法中逐次比较的第2、3、4、5、、、步,只进行了第1步和可以成功匹配的最后一步。
在这里插入图片描述

4.关键在于如何得知让子串跳到哪个位置去跟主串比较呢?(这里是b)——求最长相等前后缀

①一个串的前缀和后缀是什么?

一个字符串的前缀是指从开头到某个位置的子串,后缀是指从结尾到某个位置的子串。换句话说,给定一个字符串S,它的前缀是S的任意一个以开头的子串,而后缀是S的任意一个以结尾的子串

例如,对于字符串"ABCD",它的前缀包括:“” (空串),“A”,“AB”,“ABC”,而后缀包括:“BCD”,“CD”,“D”,“” (空串)。

②子串为 T=“aabaaf” 的前缀和后缀是什么?

前缀:a、aa、aab、aaba、aabaa
后缀:f、bf、abf、aabf、baabf、abaaf
记忆技巧:前缀:有头无尾 后缀:有尾无头

③什么叫最长相等前后缀?

子串都有自己的前缀和后缀,对每个前缀进行分析,看看他们的前后缀有没有相同的,有几项,就记录为几。

根据子串的前缀来分析子串前缀的前后缀:
在这里插入图片描述
比如aaba,前缀a和后缀a相同,长度为1;前缀aa和后缀ba不同,前缀aab和后缀aba不同。
比如aabaa,前缀aa和后缀aa相同,长度为2,是最长的。
在这里插入图片描述

这个东西叫做前缀表。

④根据前缀表求匹配

第一次匹配后,b≠f,那么要找f前面的子串的最长相等前后缀,即为2。
数字2意味着什么呢?f之前的前缀是aabaa,意味着后缀aa和前缀aa刚好形成了一个相同且对称的形式。而我们要让第二次匹配时子串跳到b的位置去,因为b在子串的这个数组里刚好下标就是2。

所以第二次匹配时,子串就从主串的b位置开始逐一比较。省略了前面的一些繁琐的步骤,简化了时间复杂度。
在这里插入图片描述

⑤next数组是什么?

就是求出最长的相等的前后缀,把长度记录到next数组中。
next数组:当主串与子串的某一位字符不匹配时,子串要回退的位置。

⑥KMP算法的思想不难,难的是如何计算最长相同前后缀和next数组。

五、 KMP算法再举一个例子

主串:ababbaabbaababaaacb

子串:ababaa

(1)手算求next数组:求子串每个字母和前面一坨的最长公共前后缀长度

①a:前面没有,就是0
②ab:前缀a,后缀a,长度为1;
③aba:前缀a,后缀a;前缀ab,后缀ba;长度为1
④abab:前缀ab,后缀ab,长度为2
⑤ababa:前缀aba,后缀aba,长度3
⑥ababaa:前缀a,后缀a,长度1
所以前缀表:
a b a b a a
0 1 1 2 3 1
所以next数组:
a b a b a a
-1 0 0 1 2 0

(2)KMP过程:

在这里插入图片描述
在这里插入图片描述
这样不断让子串往后面对齐移动,其中省略掉的就是不用让子串每次重新回到主串头位置了,根据已有的信息巧妙地省略掉了公共的、无意义的比较过程。

六、KMP算法的代码实现

1.求next数组

void calculateNext(char *pattern, int *next) {int len = strlen(pattern);int i = 0, j = -1;next[0] = -1;while (i < len) {if (j == -1 || pattern[i] == pattern[j]) {i++;j++;next[i] = j;} else {j = next[j];}}
}

函数 calculateNext 用于计算模式串的 Next 数组。

首先,获取模式串的长度 len,并初始化两个指针 i 和 j,其中** i 表示当前遍历到的位置,j 表示前缀的末尾位置**。

然后,将** Next 数组的第一个元素 next[0] 设置为 -1,表示不存在前缀**。

接下来,使用一个循环,从索引 1 开始遍历子串的字符

如果 j 等于 -1 或者当前字符 pattern[i] 等于前缀的末尾字符 pattern[j],则说明可以扩展当前位置的前缀长度,即 i++ 和 j++,然后将 j 的值赋给 next[i]。
如果当前字符不匹配,则需要回溯到更短的相等前后缀。将 j 更新为 next[j],即回溯到前缀的前缀。
最后,循环结束后,Next 数组中存储了每个位置的最长相等前后缀的长度。

这个函数的目的是为了通过利用已匹配的部分,避免无谓的字符比较,从而提高字符串匹配的效率。

2.KMP算法

思路:先获取next数组,然后

int kmpSearch(char *text, char *pattern) {int textLen = strlen(text);int patternLen = strlen(pattern);int i = 0, j = 0;int next[patternLen];calculateNext(pattern, next);while (i < textLen && j < patternLen) {//条件为 i 小于文本串的长度且 j 小于模式串的长度if (j == -1 || text[i] == pattern[j]) {//如果 j 等于 -1 或者当前文本串字符 text[i] 等于模式串字符 pattern[j]i++;//说明当前字符匹配成功,继续比较下一个字符,即 i++ 和 j++j++;} else {j = next[j];//如果当前字符不匹配,则需要根据 Next 数组来进行回溯//将模式串向右移动到最大匹配的位置}}if (j == patternLen) { //j 等于模式串的长度return i - j; // 已完全匹配成功,返回匹配的起始位置} else {return -1; // 没有找到匹配的子串}
}

函数 kmpSearch 是使用 KMP 算法在文本串中查找匹配的子串。

首先,获取文本串和模式串的长度,并初始化两个指针 i 和 j,分别指向文本串和模式串的起始位置。
然后,创建一个长度为模式串长度的 Next 数组,并调用 calculateNext 函数来计算模式串的 Next 数组。

接下来,使用一个循环,条件为 i 小于文本串的长度且 j 小于模式串的长度:
如果 j 等于 -1 或者当前文本串字符 text[i] 等于模式串字符 pattern[j],则说明当前字符匹配成功,继续比较下一个字符,即 i++ 和 j++。
如果当前字符不匹配,则需要根据 Next 数组来进行回溯。将 j 更新为 next[j],即将模式串向右移动到最大匹配的位置。

循环结束后,有两种情况:
如果 j 等于模式串的长度,表示模式串已完全匹配成功,返回匹配的起始位置 i - j。
如果 j 不等于模式串的长度,表示没有找到匹配的子串,返回 -1。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/136842.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

“最强”机器学习辅助!利用自然语言让机器人更好地理解开放性世界

原创 | 文 BFT机器人 想象一下&#xff0c;你正在国外拜访朋友&#xff0c;打开他的冰箱看看有没有能够制作一顿美味早餐的食材。最初&#xff0c;冰箱里的许多物品对你来说都很陌生&#xff0c;每个物品的包装都是你不熟悉的。你开始试图理解每个物品的用途&#xff0c;并根据…

万界星空科技MES系统软件体系架构及应用

MES系统是数字化车间的核心。MES通过数字化生产过程控制&#xff0c;借助自动化和智能化技术手段&#xff0c;实现车间制造控制智能化、生产过程透明化、制造装备数控化和生产信息集成化。生产管理MES系统主要包括车间管理系统、质量管理系统、资源管理系统及数据采集和分析系统…

Ubuntu开机无法进入系统,文件根系统目录空间不足导致?

前言&#xff1a; 自己电脑上装的是Win11和Ubuntu20双系统&#xff0c;平时就是切换着用。 偶然有次&#xff0c;Ubuntu提示文件根系统目录空间不足&#xff0c;自己没在意。 结果下次开机进入Ubuntu时候&#xff0c;芭比Q了。。进不了系统 这样的事情发生很多次了&#xff0c;…

学者观察 | 数字经济中长期发展中的区块链影响力——清华大学柴跃廷

导语 区块链是一种全新的分布式基础架构与计算范式&#xff0c;既能利用非对称加密和冗余分布存储实现信息不可篡改&#xff0c;又可以利用链式数据结构实现数据信息可溯源。当前&#xff0c;区块链技术已成为全球数据交易、金融结算、国际贸易、政务民生等领域的信息基础设施…

事务(本地事务与分布式事务)

事务 1 本地事务1.1 事务的特性1.2 事务的隔离级别1.3 事务的传播属性 2 分布式事务2.1 分布式事务基础2.1.1 CAP定理2.1.2 BASE定理 2.2 分布式事务的解决方案2.2.1 两阶段提交&#xff08;2PC&#xff09;2.2.2 TCC补偿式事务2.2.3 消息事务最终一致性 1 本地事务 1.1 事务的…

module ‘torch‘ has no attribute ‘_six‘

主要问题是torchvision的问题 在122服务器上的scvi-env2环境中 import torch import torch.nn as nnimport numpy as npfrom tqdm import tqdm from torchvision.utils import save_image, make_grid # Model Hyperparametersdataset_path ./datasetscuda True DEVICE tor…

httpRequest库代码示例

python # 首先导入所需的库 library(httpRequest) # 设置主机名和端口号 proxy_host <- proxy_port <- # 使用httpRequest库的get函数下载图片 response <- httpRequest(", proxyHost proxy_host, proxyPort proxy_port) # 确保请求成功 if (response$sta…

腾讯云真的是良心云!服务器带宽、CPU、硬盘IO性能大揭秘!

本文将通过对腾讯云服务器CVM S5 4核配置的云服务器进行测试&#xff0c;来评估其在带宽、CPU和硬盘IO性能方面的表现。 在云服务器的并发处理中&#xff0c;带宽是一个重要的因素。经过测试&#xff0c;腾讯云的带宽网络表现非常出色&#xff0c;能够跑满带宽&#xff0c;同时…

表象变换与矩阵元

表象变换 一维粒子哈密顿量 表象中的矩阵元 态的表象变换 不难证明 算符的表象变换 坐标表象 Non-denumerable basis

人车实时精准管控!北斗让换流站作业更安全

换流站是高压直流输电系统的核心组成部分&#xff0c;对促进电网稳定运行、保障电力行业的可持续发展有着重要作用。长期以来&#xff0c;随着电网主变改扩建设工程的开展&#xff0c;站内作业人员安全管控压力随之增大&#xff0c;仅依靠传统的“人盯人”和“自主”管控模式较…

Java设计模式之迭代器模式

定义 提供一个对象来顺序访问聚合对象中的一系列数据&#xff0c;而不暴露聚合对象的内部表示。 结构 迭代器模式主要包含以下角色&#xff1a; 抽象聚合角色&#xff1a;定义存储、添加、删除聚合元素以及创建迭代器对象的接口。具体聚合角色&#xff1a;实现抽象聚合类&a…

mysql隐式转换转换引起的bug

生产环境中遇到一个情况情况 &#xff0c;过滤数据发现过滤不掉相关值情况&#xff0c;具体情况如下 原始数据&#xff1a; CREATE TABLE test (id bigint(11) NOT NULL AUTO_INCREMENT COMMENT 自增id,subject_id bigint(11) NOT NULL DEFAULT 0 COMMENT 主题id,subject_nam…

《QT从基础到进阶·十七》QCursor鼠标的不同位置坐标获取

一些常用鼠标图形&#xff1a; 鼠标光标相对于整个电脑屏幕的位置&#xff1a;QCursor::pos() 当前光标相对于当前窗口的位置&#xff1a;this->mapFromGlobal(QCursor::pos()) void MainWindow::mouseReleaseEvent(QMouseEvent* event) {QPoint pos event->pos(); …

pip 安装任意软件包报错

现象 使用 pip 命令时提示 查看源码 可以看到是从 pip 包中导入 main失败&#xff0c;点击查看目录 main 文件不见了&#xff0c;判断是文件缺失&#xff0c;重装 pip 即可 # python3 下载 pip curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py # python2 下载…

代码随想录训练营Day1:二分查找与移除元素

本专栏内容为&#xff1a;代码随想录训练营学习专栏&#xff0c;用于记录训练营的学习经验分享与总结。 文档讲解&#xff1a;代码随想录 视频讲解&#xff1a;二分查找与移除元素 &#x1f493;博主csdn个人主页&#xff1a;小小unicorn ⏩专栏分类&#xff1a;C &#x1f69a…

Java进阶(JVM调优)——阿里云的Arthas的使用 安装和使用 死锁查找案例,重新加载案例,慢调用分析

前言 JVM作为Java进阶的知识&#xff0c;是需要Java程序员不断深度和理解的。 本篇博客介绍JVM调优的工具阿里云的Arthas的使用&#xff0c;安装和使用&#xff0c;命令的使用案例&#xff1b;死锁查询的案例&#xff1b;重新加载一个类信息的案例&#xff1b;调用慢的分析案…

通配符匹配

题目链接 通配符匹配 题目描述 注意点 s 仅由小写英文字母组成p 仅由小写英文字母、‘?’ 或 ‘*’ 组成‘?’ 可以匹配任何单个字符‘*’ 可以匹配任意字符序列&#xff08;包括空字符序列&#xff09; 解答思路 最初想到的是dfs 剪枝&#xff0c;但是用例超时了参照题…

STM32笔记—EXTI外部中断

一、简介 中断&#xff1a;在主程序运行过程中&#xff0c;出现了特定的中断触发条件&#xff08;中断源&#xff09;&#xff0c;使得CPU暂停当前正在运行的程序&#xff0c;转而去处理中断程序&#xff0c;处理完成后又返回原来被暂停的位置继续运行&#xff1b; 中断优先级&…

maven中的install 和 clean命令,以及compile、、package、test等操作介绍

maven中的install命令 主要就是谁要被其他模块依赖就install谁 Maven工具可以进行clean、compile、install、package、test等操作&#xff0c;但是这些操作有什么用呢&#xff0c;以下面的p2p-exterface为例说明一下&#xff0c;pwp-exterface工程目录如下&#xff1a; com…

centos中安装的goland配置sdk报错:所选的目录不是Go SDK的有效主路经

选中目录后一直报错&#xff1a; 正确的位置&#xff1a; 原因竟然是使用 解压go1.21.4.linux-amd64.tar.gz 包出来&#xff0c;少了scr和test目录&#xff0c;重新解压后可以正确设定SDK主目录。 有同样问题的可以确认一下。 tar -C /usr/local -zxvf go1.19.2.linux-amd64.…