【数据结构与算法】字符串匹配 BF算法 RK算法

  1. 单模式串匹配
    BF 算法和 RK 算法
    BM 算法和 KMP 算法
  2. 多模式串匹配算法
    Trie 树和 AC 自动机

一、BF 算法

1,BF算法是Brute Force的缩写,中文译作暴力匹配算法,也叫朴素匹配算法。
2,两个概念:主串和模式串
如在字符串A中查找字符串B,则字符串A就是主串,字符串B就是模式串
将主串长度记为n,模式串的长度记作m。因为是在主串中查找模式串,所以n>m
3,BF算法的思想可概括为:我们在主串中,检查起始位置分别是0,1,2……n-m且长度为m的n-m+1个子串,看有没有更模式串匹配的。
4,极端情况下,如主串是“aaaaa…aaaaa”,模式串是“aaaab”。每次都比对m个字符,要比对n-m+1次,所以最坏的时间复杂度是O(mn)。
5,虽然BF算法时间复杂度很高,但在实际开发中使用的非常常见。
原因1:实际软件开发中,大部分情况下,模式串和主串的长度都不会太长。每次模式串与主串中的子串匹配时,当中途不能遇到匹配的字符的时候,就可以停止,不需要全部对比一次。所以理论上最坏情况时间复杂度是O(m
n),但这更多的是统计意义上的,大部分情况中,这个算法执行的很高效。
原因2:朴素字符串匹配算法思想简单,代码实现也非常简单,简单就意味着不容易出错。工程中,在满足性能要求的前提下,简单是首选,也是常说的KISS(keep it Simple and Stupid)设计原则。
6。应用 Java IndexOf
处理小规模的字符串匹配

二、RK算法:

加粗样式

1,RK算法的全称是Rabin-Karp算法,是两位发明人的名字拼接。是BF算法的升级版
2,BF算法的问题在于每次检查主串与子串是否匹配,需要依次对比每个字符,所以BF算法的时间复杂就比较高。但引入哈希算法,时间复杂度立即就会降低。
3,RK算法的思路:
通过哈希算法对主串中的n-m+1个子串分别求哈希值,
然后逐个于模式串的哈希值比较大小,如果相等就说明有对应的模式串。
4,通过哈希算法计算字符的哈希值时,需要遍历子串中的每个字符,这只提供了模式串与子串比较的效率,但整体的效率并没有提高。
5,为了提高哈希算法计算子串哈希值的效率,可以通过哈希算法的设计来解决。
假设要匹配的字符串的字符集中只包含k个字符,这就可以用一个k进制数来表示一个子串,这个k进制数转化成k
进制,作为子串的哈希值。
在这里插入图片描述

6,这种哈希算法有个特点,在主串中,相邻两个子串的哈希值的计算公式有一定关系。
在这里插入图片描述

7,RK算法的时间复杂度:
①:整个RK算法包含两个部分,计算子串哈希值和模式串哈希值与子串哈希值之间的比较。
②:第一部分,只需要扫描一遍主串就能计算出所有子串的哈希值了,复杂度是O(n)
③:模式串哈希值与每个子串哈希值之间的比较时间复杂度是O(1),总共需要比较n-m+1个子串的哈希值,所有,这部分的时间复杂度也是O(n)。
所以RK算法整体时间复杂度就是O(n)。

8,如果模式串很长,相应的主串中子串也会很长,通过上面的哈希算法计算得到的哈希值就可能很大,如果超过了计算机中整形数据可以表示范围,该如何解决?
答:我们可以把字符串中每个字母的数字相加(每个字母代表一个素数),最后得到的和作为哈希值。这种哈希算法产生的哈希值的数据范围就相对要小很多。
9,若出现哈希冲突如何解决?
答:如果两值相等,比较子串中每个字符。

所以,哈希算法中的冲突概率要相对控制得低一些,如果存在大量冲突,就会导致RK算法的时间复杂度退化,效率下降。极端情况下,如果存在大量的冲突,每次都要对比子串和模式串本身,时间复杂度就会退化成O(n*m)。

笔记整理来源: 王争 数据结构与算法之美

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/424860.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第三十一期:大数据分析师学习入门,10个数据可视化技巧

在这篇文章,我想和大家分享 10 个基本的中级和高级的绘图工具。我发现在现实生活中,当涉及到绘图解释你的数据时,这些工具非常有用。 作者:加米谷大数据来源:今日头条 我必须对你说实话:当我学习数据科学时…

stack专题2

85 Maximal Rectangle 问题:找到矩形内连续的都是1,这个矩形的面积。首先考虑到的是暴力搜索,不断枚举起始节点的x,y坐标,节点节点的x,y坐标。计算矩形面积的几个方法:1 一个一个元素遍历&…

[Leetcode][第491题][JAVA][递增子序列][回溯][RK算法]

【问题描述】[中等] 【解答思路】 1. 二进制枚举 哈希 复杂度 class Solution {List<Integer> temp new ArrayList<Integer>();List<List<Integer>> ans new ArrayList<List<Integer>>();Set<Integer> set new HashSet<In…

CentOS安装cheat和tldr

1.安装python和pip sudo yum -y install epel-release sudo yum install -y python python-pip python-setuptools sudo pip install --upgrade pip 2.安装tldr sudo pip install cheat tldr #最近遇到安装tldr时提示setuptools too old的报错&#xff0c;解决方法如下 pip ins…

第五十七期:小型企业将如何从5G中受益

在足够多的新设备进入主流市场之前&#xff0c;5G已经在许多领域引起了越来越多的关注。从IT、零售、交通和制造业到医疗、娱乐、教育和农业&#xff0c;几乎每个行业都将在某种程度上受到5G的影响。 作者&#xff1a;李雪薇来源&#xff1a;IT168网站 在足够多的新设备进入主…

array专题

581 Shortest Unsorted Continuous Subarray 问题&#xff1a;这道题目感概颇多&#xff0c;作为第一个array的简单题目就被缠住了。具体内容写在注释里面了。 217 Contains Duplicate 问题&#xff1a;这道题目可以看出有效的数字组合就是0&#xff0c;10,11三种组合。当遍…

第三十二期:MySQL常见的图形化工具

MySQL作为一款非常流行的、开源的关系型数据库&#xff0c;应用非常广泛。因为MySQL开源的缘故&#xff0c;图形化管理维护工众多&#xff0c;除了系统自带的命令行管理工具之外&#xff0c;还有许多其他的图形化管理工具&#xff0c;这里介绍几个经常使用的MySQL图形化管理工具…

centos7 源码安装goaccess

1. 使用yum安装在不同服务器上可能失败, 推荐使用源码安装goaccess # 安装依赖 yum install -y ncurses-devel GeoIP-devel.x86_64 tokyocabinet-devel openssl-devel# 下载源码包并安装 cd /usr/local/software wget http://tar.goaccess.io/goaccess-1.3.tar.gz tar -xvf goa…

【数据结构与算法】字符串匹配 BM算法

单模式串匹配 BF 算法和 RK 算法 BM 算法和 KMP 算法多模式串匹配算法 Trie 树和 AC 自动机 BM算法 BM算法的核心思想是通过将模式串沿着主串大踏步的向后滑动&#xff0c;从而大大减少比较次数&#xff0c;降低时间复杂度。而算法的关键在于如何兼顾步子迈得足够大与无遗漏&…

array专题2---理解暴力枚举与动态规划

746 Min Cost Climbing Stairs 一直以后对暴力枚举&#xff08;又称&#xff1a;深度优先搜索&#xff09;和动态规划不太理解&#xff0c;不能明白个中区别&#xff0c;更别说贪心。今天做这道题目的时候有点心得。 思路一&#xff1a;看到题目&#xff0c;直觉告诉我暴力枚…

第五十八期:AI艺术日渐繁荣,未来何去何从?

本文的配图都是AI艺术领域领导者、德国艺术家马里奥克林格曼(Mario Klingemann)利用人工智能创作的作品。 利用人工智能创作而成的画作近年来越来越受瞩目&#xff0c;有的作品甚至能在知名拍卖行拍得高价。但这类作品仍有不少问题需要解答&#xff0c;比如它的作者是开发出算…

【数据结构与算法】字符串匹配 KMP 算法

单模式串匹配 BF 算法和 RK 算法 BM 算法和 KMP 算法多模式串匹配算法 Trie 树和 AC 自动机 KMP 算法 KMP 算法是根据三位作者&#xff08;D.E.Knuth&#xff0c;J.H.Morris 和 V.R.Pratt&#xff09;的名字来命名的&#xff0c;算法的全称是 Knuth Morris Pratt 算法&#x…

array专题3-一道题目不断分析就会慢慢有了思路

#697 Degree of an Array 我承认慢慢有了思路的前提是你要见过那些解法&#xff0c;否则怎么想也想不到。多做题目&#xff0c;就像是多看书一样重要。 问题&#xff1a;一个数组的度这个数组中出现次数最多元素的出现次数。要找的是最短的子数组&#xff0c;而这个数组的度原数…

第五十九期:商用数据库之死:Oracle 面临困境

作者&#xff1a;John Freeman、Fred McClimans 和 Zach Mitchell 我们预计到 2021 年&#xff0c;年产值 296 亿美元的商业数据库市场会收缩 20% 至 30%&#xff0c;认为 Oracle 无法让收入来源足够快地实现转型&#xff08;从传统的商业数据库转向基于云的订购产品&#xff0…

基于上一篇AS项目依赖库问题的优化解决方案

//TODO 转载于:https://www.cnblogs.com/Jhon-Mr/p/10839548.html

【数据结构与算法】【应用】字符串匹配

单模式串匹配 BF 算法和 RK 算法 BM 算法和 KMP 算法多模式串匹配算法 Trie 树和 AC 自动机 一、单模式串匹配&#xff1a; BF&#xff1a; 简单场景&#xff0c;主串和模式串都不太长, O(m*n)KP&#xff1a;字符集范围不要太大且模式串不要太长&#xff0c; 否则hash值可能冲…

第六十期:华为:希望把VR/AR打造成下个智能手机产业

网易科技讯 10 月 19 日消息&#xff0c;2019 世界 VR 产业大会在江西省南昌市举行。华为轮值董事长郭平发表了《打造 VR/AR 信息高速公路&#xff0c;支撑产业繁荣》的主题演讲。郭平认为&#xff0c;VR/AR 将成为 5G 时代的首批应用&#xff0c;与 5G 产业发展节奏高度匹配并…

array专题4

674 Longest Continuous Increasing Subsequence 问题&#xff1a;比较简单&#xff0c;直接看代码。问题是速度更快的代码是什么样子&#xff1f; 代码 665 Non-decreasing Array 思路&#xff1a;非降序数组&#xff0c;能有一次修改的机会。那就是查找 array[i1]<arr…

零基础入门stm32需要学这些东西

1.首先我们先看看与STM32相关的文档 我们假定大家已经对STM32的书籍或者文档有一定的理解。如不理解&#xff0c;请立即阅读STM32的文档&#xff0c;以获取最基本的知识点。 如果你手上拥有ST官方主推的STM32神舟系列的板子&#xff0c;那么光盘都会配好这些文档&#xff0c;ST…

【数据结构与算法】字符串匹配 AC自动机

单模式串匹配 BF 算法和 RK 算法 BM 算法和 KMP 算法多模式串匹配算法 Trie 树和 AC 自动机 AC 自动机 AC 自动机实际上就是在 Trie 树之上&#xff0c;加了类似 KMP 的 next 数组&#xff0c;只不过此处的 next 数组是构建在树上罢了。 AC 自动机的构建 将多个模式串构建成…