字符串匹配(多模式匹配篇)

字符串匹配(多模式匹配篇)

摘要:

问题的提出:众所周知,KMP算法在O(n)的时间中solve单模式串匹配问题。但怎样solve多模式串匹配问题呢?

Solve:本文用简要记叙了使用trie树,trie图(AC自动机)solve该问题的方法。

关键字:

字符串,多模式串匹配,trie树,trie图,AC自动机。

前言:

KMP算法是一种极其优秀的单模式串匹配算法,它通过前缀函数fail来减少匹配次数,以达到O(n)的单串匹配。但当KMP算法用于解决多模式串匹配问题时,时间复杂度为O(nq),十分低效。

因此,我们去探索一些更适合于多模式串匹配问题的算法用以解决这个问题。

第1节主要介绍trie树。

第2节主要介绍trie图。

第三节给出一些例题。

1.trie树

1.0问题的引入:

       给定一个原串s,n个模式串st[i],求st[i]是否出现在s中。

1.1字典树的定义:


又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。

——来源于百度百科

1.2字典树的性质:

     根节点不包含字符,除根节点外每一个节点都只包含一个字符; 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串; 每个节点的所有子节点包含的字符都不相同。

     每一个节点u都包含next[v],value。

     next[v]表示节点u的v边指向的节点编号。

     value表示危险节点所属的模式串编号,若value=0表示这不是一个危险节点。

     根节点表示空串。

     这样一棵trie树的深度为O(max(len)+1)

     可以发现当且仅当s1是s2的前缀,那么在trie树上,s2的路径是包含s1的路径的。

         

1.2字典树的实现:

字典树的操作是十分简单的(建议读者根据性质自己推导实现过程)。

插入:

void build_trie_tree(char *st,int len,int p)
{int x=1;for (int i=0;i<len;i++){if (trie[x].next[st[i]]==0)       //若该边不存在,新建点和边。{nodenum++;trie[x].next[st[i]]=nodenum;}x=trie[x].next[st[i]];            //跳转至下一个节点。}trie[x].value=p;                               //标记是否为危险节点。
}

(删除一个子树的操作不再叙述,基本思想是增加一个tag懒标记,表示此节点及其子树被删除。)

查询(查询某一字符串是否在trie树中):

bool query_trie_tree(char *st,int len)
{int x=1;for (int i=0;i<len;i++) x=trie[x].next[st[i]];   //跳转至目标节点if (!trie[x].value) return 1;
}

查询2(多串查询):

我们只需要枚举起始位置i,寻找st[i->j](i<=j<=len)是否出现即可。

void query_trie_tree(char *st,int k,int len)
{int x=1;for (int i=k;i<len;i++){x=trie[x].next[st[i]];                    //跳转 if (x) return;                            //匹配失败退出 if (trie[x].value) fst[trie[x].value]=k;  //fst[i]记录i模式串出现在原串中的起始位置 }
}
void work(char *st,int len)
{for (int i=0;i<len;i++)query_trie_tree(st,i,len);             //枚举所有起点位置 
}


1.4trie树的分析:(注:下文中|SIGMA|表示字符集大小,而sigma表示求和函数)

构造出trie树的结构,构造时间是O(sigma(len)),单串匹配的时间复杂度很明显是O(len)级别的。

多串匹配需要枚举原串的起始点u,再从trie树中查询,时间为O(lens*max(len))

比起这个,更让我们关心的是空间复杂度,O(|SIGMA|n)。倘若空间不足,可以将next[v]用边表的形式记录下来,或者用左儿子,右兄弟的方法记录。

这样的数据结构无论从时间或是空间上都和KMP相差无几,但更加形象具体了。那么如何改变这个数据结构使它能够完成多串匹配任务呢?


注:将trie树从上到下,从左到右标号,根为1


我们发现在trie树上多串匹配,会产生许多浪费。

比如模式串为ab。

以上图中的trie树来匹配,跳转顺序是

1->2->5(ab)

1->3(b)

而匹配ab时已经将b匹配了一遍,但在做完ab之后却返回了根,重新匹配了b,得不偿失。

所以想要优化trie树,就要使每一次精确跳转到最有效的位置。

进入到trie图时代。


2.trie图

2.0trie图的引入——解决上述问题:

什么是精确跳转呢?


在这个图中,abc的精确跳转应该是bc。

abd的精确跳转为根(空串)

字符串s的精确跳转节点是trie树中存在的s最长的后缀,称为后缀fail。

2.1trie图的概念:

在trie树上添加前缀指针fail并补齐trie树的边,所构造的图。

2.2trie图的性质:

trie图的目的是让每一次都精确地跳转。

        

        如该图中的的fail应该指向bc。

       节点u的fail应该为u的父亲节点的fail点的该边。(fail[u]=trie[father[fail[u]]].next[ch])

       读者可以计算一下当trie图中只有单串的时候,fail和KMP的next两个数组有什么特殊的联系。

       能够很轻易地看出:若trie图按0开始编号,next[i]=fail[i]

2.3trie图的实现:(建议读者自行思考后对照)

   构造trie图:

void build_trie_graph()
{ trie[1].fail=1;                            //根的后缀为根for (int i=1;i<=p;i++)if (trie[1].next[i]) {trie[trie[1].next[i]].fail=1;que.push(trie[1].next[i]);}                                          //根的儿子的后缀为根else trie[1].next[i]=1;                    //根的新边为根while (!que.empty()){int q=que.front();que.pop();for (int i=1;i<=p;i++){int v=trie[q].next[i];if (v){trie[v].fail=trie[trie[q].fail].next[i];que.push(v);}else trie[q].next[i]=trie[trie[q].fail].next[i];}if (trie[trie[q].fail].value) trie[q].value=trie[trie[q].fail].value;}
}

遍历:

void query_trie_tree(char *st,int len)
{int x=1;for (int i=0;i<len;i++) { if (!trie[x].value) solve_probleam();x=trie[x].next[st[i]];   //跳转至目标节点}
}


3.来几道例题练练手!

3.1  Video Game

Bessie is playing a video game! In the game, the three letters 'A', 'B',

and 'C' are the only valid buttons. Bessie may press the buttons in any
order she likes; however, there are only N distinct combos possible (1 <= N
<= 20). Combo i is represented as a string S_i which has a length between 1
and 15 and contains only the letters 'A', 'B', and 'C'.

Whenever Bessie presses a combination of letters that matches with a combo,
she gets one point for the combo. Combos may overlap with each other or
even finish at the same time! For example if N = 3 and the three possible
combos are "ABA", "CB", and "ABACB", and Bessie presses "ABACB", she will
end with 3 points. Bessie may score points for a single combo more than once.

Bessie of course wants to earn points as quickly as possible. If she
presses exactly K buttons (1 <= K <= 1,000), what is the maximum number of
points she can earn?

给你个模式串(每个长度≤15,1≤N≤20),串中只含有“ABC”三种字母。求一长度为K(1≤K≤1000)的字符串,使得匹配数最大(重复匹配计多次),输出最大值。

题解:先构造trie图,然后动态规划。

f[step][u]表示第step步走到u点经过的最多危险节点数量。

f[step+1][trie[u].next[k]]=max{f[step+1][trie[u].next[k]],f[step[u]+trie[trie[u].next[k]].value }

#include<bits/stdc++.h>
using namespace std;
const int MAXANS=10000000;
struct node
{int ch[5],fail,value;
} trie[505];
int nodenum=1,n,m;
int f[1005][505];
char st[25];
queue<int> que;
int smax(int x,int y){return x>y?x:y;}
void build_trie_tree(char *st,int len)
{int u=1;for (int i=0;i<len;i++){if (!trie[u].ch[st[i]-64]){nodenum++;trie[u].ch[st[i]-64]=nodenum;}u=trie[u].ch[st[i]-64];}trie[u].value++;
}
void build_trie_graph()
{trie[1].fail=1;for (int i=1;i<=3;i++)if (trie[1].ch[i]){trie[trie[1].ch[i]].fail=1;que.push(trie[1].ch[i]);}else trie[1].ch[i]=1;while (!que.empty()){int u=que.front();que.pop();for (int i=1;i<=3;i++)if (trie[u].ch[i]){trie[trie[u].ch[i]].fail=trie[trie[u].fail].ch[i];que.push(trie[u].ch[i]);}else trie[u].ch[i]=trie[trie[u].fail].ch[i];if (trie[trie[u].fail].value) trie[u].value+=trie[trie[u].fail].value;}
}
void solve()
{for (int step=0;step<=m;step++)for (int i=1;i<=nodenum;i++)f[step][i]=-MAXANS;f[0][1]=0;for (int step=0;step<m;step++)for (int i=1;i<=nodenum;i++)for (int j=1;j<=3;j++){int v=trie[i].ch[j];f[step+1][v]=smax(f[step+1][v],f[step][i]+trie[v].value);}int ans=0;for (int i=2;i<=nodenum;i++) ans=smax(ans,f[m][i]); printf("%d\n",ans); 
}
int main()
{scanf("%d%d",&n,&m);for (int i=1;i<=n;i++){scanf("%s",st);build_trie_tree(st,strlen(st));}build_trie_graph();solve();return 0;
}

OJ上实测速度很快。只用了20MS(rank1膨胀逃)。


3.2阿狸的打字机

BZOJ2434 阿狸的打字机
阿狸喜欢收藏各种稀奇古怪的东西,最近他淘到一台老式的打字机。打字机上只有28个按键,分别印有26个小写英文字母和’B’、’P’两个字母。 
经阿狸研究发现,这个打字机是这样工作的: 
·输入小写字母,打字机的一个凹槽中会加入这个字母(这个字母加在凹槽的最后)。 
·按一下印有’B’的按键,打字机凹槽中最后一个字母会消失。 
·按一下印有’P’的按键,打字机会在纸上打印出凹槽中现有的所有字母并换行,但凹槽中的字母不会消失。 
例如,阿狸输入aPaPBbP,纸上被打印的字符如下: 

aa 
ab 
我们把纸上打印出来的字符串从1开始顺序编号,一直到n。打字机有一个非常有趣的功能,在打字机中暗藏一个带数字的小键盘,在小键盘上输入两个数(x,y)(其中1≤x,y≤n),打字机会显示第x个打印的字符串在第y个打印的字符串中出现了多少次。 
阿狸发现了这个功能以后很兴奋,他想写个程序完成同样的功能,你能帮助他么?
Input
输入的第一行包含一个字符串,按阿狸的输入顺序给出所有阿狸输入的字符。
第二行包含一个整数m,表示询问个数。
接下来m行描述所有由小键盘输入的询问。其中第i行包含两个整数x, y,表示第i个询问为(x, y)。
Output
输出m行,其中第i行包含一个整数,表示第i个询问的答案。
Sample Input
aPaPBbP
3
1 2
1 3
2 3
Sample Output 
2
1
0
Hint
1<=N<=10^5
1<=M<=10^5
输入总长<=10^5

明显的trie图。

不解释,大佬们都会的。

noi压轴题原来这么简单!!!(逃))



3.3宇宙队神题!

题目受宇宙队管制,暂时无法查看。


3.4经典好题!

POJ 1204 Word Puzzles

POJ 1625 Censored! 

POJ 2778 DNA Sequence 

HDU 2457 DNA repair

ural 1269. Obscene Words Filter

[BZOJ1195][HNOI2006]最短母串


4.总结

trie树,trie图还是属于简单易写的匹配算法。

trie树,trie图一般用于解决三种问题:

1.多个字符串的存储。

2.多个字符串的匹配、查询、字符串树(图)上操作。

3.辅助其他算法(如DP等)存取数据。

大家有时间可以对比一下KMP和trie图的其他性质的相同点。

trie


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/315932.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

.net core编写转发服务

我有个小伙伴问我&#xff0c;他需要写一个转发服务的他有很多功能要通过他的服务转发~技术栈又不一定asp.net core&#xff0c;我就想起泥水老前辈的BeetleX.FastHttpApi中午午休&#xff0c;折腾了一会儿前辈&#xff0c;问清楚了FastHttpApi如何配置控制器依赖注入和控制器的…

数据结构(终极线段树篇)

数据结构&#xff08;终极线段树篇&#xff09; 摘要&#xff1a; 问题的提出&#xff1a;如何解决多样化的区间操作问题&#xff1f; solve&#xff1a;线段树&#xff01;&#xff01;&#xff01; 关键字&#xff1a; 线段树&#xff0c;可持久化线段树&#xff0c;权值线段…

.NET Core 3.0之深入源码理解Configuration(一)

微软在.NET Core里设计出了全新的配置体系&#xff0c;并以非常灵活、可扩展的方式实现。从其源码来看&#xff0c;其运行机制大致是&#xff0c;根据其Source&#xff0c;创建一个Builder实例&#xff0c;并会向其添加Provider&#xff0c;在我们使用配置信息的时候&#xff0…

摊还分析

摊还分析 1何为摊还分析&#xff1f; 摊还分析主要求解数据结构维护序列执行的所有操作的平均时间&#xff0c;来评价操作的代价&#xff0c;从而保证最坏情况下每个操作的平均性能。 2聚合分析 2.1何为聚合分析&#xff1f; 若长度为n的操作序列最坏情况下所花费时间为T(…

Bigraph Extension

Bigraph Extension 题意&#xff1a; 有2n个点&#xff0c;n为偶数&#xff0c;n个点属于集合A&#xff0c;n个点属于集合B。起初在途中有m个无向边&#xff0c;边的两侧端点分别在两个集合里&#xff0c;任何两个边都没有公共交点。 现在你可以执行任意次操作&#xff1a; 在…

微服务划分的姿势

我们知道微服务是一种理念&#xff0c;没有确切的定义和边界&#xff0c;好比设计原则&#xff0c;是属于抽象的概念。在定义不明确的情况下谈划分也是一种各说各话&#xff0c;具体问题需要具体分析&#xff0c;所以这篇文章谈到的划分也不是绝对标准&#xff0c;仅供参考。有…

点(树)分治

0.引言 对于树上问题&#xff0c;有许多特殊的求解方法&#xff0c;如&#xff1a;树链剖分。点分治算法也是其中之一&#xff0c;常用于解决树上路径问题。 1.0.问题的引入 给定一棵树&#xff0c;求这棵树的直径&#xff08;树上最长链长度&#xff0c;n<10^5&#xff…

斜率优化Convex Hull Trick

斜率优化 一、简单DP 首先从一道简单题引入。 [IOI2002]任务安排 Description N个任务排成一个序列在一台机器上等待完成&#xff08;顺序不得改变&#xff09;&#xff0c;这N个任务被分成若干批&#xff0c;每批包含相邻的若干任务。从时刻0开始&#xff0c;这些任务被分…

分布式部署携程Apollo构建配置中心

一、开场白在系统设计里我们有很多配置希望独立于系统之外&#xff0c;而又能够被系统实时读取。但是在传统的系统设计里&#xff0c;配置信息通常是耦合在系统内的&#xff0c;比如.net里通常会放在App.config或者web.config里&#xff0c;.net core则是appsettings.json里&am…

[COCI 2017-2018-2]-San

[COCI 2017-2018-2]-San san(1s64M) 游戏世界中有N个楼从左到右排列&#xff0c;从左到右编号为1到N&#xff0c;第i幢楼的高度为Hi,楼上的金币数为Gi,游戏可以从任意一个楼开始且包涵几步。每一步玩家可以从当前位置向右跳&#xff08;可以跳过一些楼&#xff09;但必须跳到…

领域模型架构 eShopOnWeb项目分析 上

一.概述本篇继续探讨web应用架构&#xff0c;讲基于DDD风格下最初的领域模型架构&#xff0c;不同于DDD风格下CQRS架构&#xff0c;二者架构主要区别是领域层的变化。 架构的演变是从领域模型到CQRS, 一开始DDD是用领域模型的分层架构&#xff0c;用单一的领域模型处理业务逻辑…

最小生成树--Boruvka算法

参考文章 介绍 第一次听说这个算法。。 对于最小生成树一定学过prim和krusal&#xff0c;prim复杂度是O(n2)或者O(elogn)O(n^2)或者O(elogn)O(n2)或者O(elogn),krusal复杂度是O(eloge)O(eloge)O(eloge)&#xff0c;这里介绍一下Boruvka算法 Boruvka算法解决某些特定问题非常好…

[NOIP2016]愤怒的小鸟(状压DP)

[NOIP2016]愤怒的小鸟&#xff08;状压DP&#xff09; 题目描述 输入输出格式 输入格式&#xff1a; 第一行包含一个正整数 T&#xff0c;表示游戏的关卡总数。 下面依次输入这 T个关卡的信息。每个关卡第一行包含两个非负整数 n,m&#xff0c;分别表示该关卡中的小猪数量和…

给 asp.net core 写一个简单的健康检查

给 asp.net core 写一个简单的健康检查Intro健康检查可以帮助我们知道应用的当前状态是不是处于良好状态&#xff0c;现在无论是 docker 还是 k8s 还是现在大多数的服务注册发现大多都提供了健康检查机制来检测应用的健康状态&#xff0c;如果应用本身就提供一个健康检查的机制…

从阿里中台战略看企业IT架构转型之道(下)

此文是我阅读《企业IT架构转型之道》一书的学习笔记的下半部分&#xff0c;所有内容出自钟华老师的这本书。上半部分Part1~Part5请点击这里Part 6 异步与缓存原则异步化事务 > 核心是ACID柔性事务 > 基础是CAP理论和BASE理论&#xff0c;因为互联网应用最核心的需求是高可…

CF1543C. Need for Pink Slips

CF1543C. Need for Pink Slips 题意&#xff1a; 题解&#xff1a; 其实具体的计算方法在说明里面都写了&#xff1a;对于第一个数据&#xff1a; 0.2 0.2 0.6 0.2组成方案如下&#xff1a; 就是c和m如果大于v就减&#xff0c;小于v就变成0&#xff0c;到p直接停止 所以直接…

并查集(并茶几)

并查集&#xff08;并茶几&#xff09;的应用 一、What‘s that&#xff1f; 并查集是一种树型的数据结构&#xff0c;用于处理一些不相交集合&#xff08;Disjoint Sets&#xff09;的合并及查询问题。常常在使用中以森林来表示。 ——百度百科 二、How to uphold 0.我们的需…

从阿里中台战略看企业IT架构转型之道(上)

此文是我阅读《企业IT架构转型之道》一书的学习笔记的上半部分&#xff0c;所有内容出自钟华老师的这本书。零、为何阅读《企业IT架构转型之道》在加入X公司后&#xff0c;开始了微服务架构的实践&#xff0c;也开始了共享平台服务的建设&#xff0c;在这方面阿里巴巴的中台战略…

ML.NET机器学习、API容器化与Azure DevOps实践(四):持续集成与k8s持续部署

通过上文所介绍的内容&#xff0c;我们已经完成了RESTful API的开发&#xff0c;现在&#xff0c;就可以使用Azure DevOps来进行持续集成&#xff08;CI&#xff09;和k8s持续部署&#xff08;CD&#xff09;了。本文我会对使用Azure DevOps进行CI/CD的过程中需要注意的地方进行…

P3195 [HNOI2008]玩具装箱

P3195 [HNOI2008]玩具装箱 题意&#xff1a; n件玩具&#xff0c;第i件玩具经过压缩后的一维长度为CiC_iCi​,现在把玩具装入一维容器中&#xff0c;要求&#xff1a; 在一个一维容器中的玩具编号是连续的如果一个一维容器中有多个玩具&#xff0c;那么两件玩具之间要加入一…