后缀自动机:从入门到放弃

写在前面

后缀自动机,简称SAMSAMSAM,是一种十分优秀的字符串匹(shu)配(ju)算(jie)法(gou)

字符串界的bossbossboss,几乎可以解决全部正常的字符串题目

至少我前前后后学了一年,听过444次课,几度怀疑自己不适合oioioi

请做好心理准备

定义

有限状态自动机

不管,可以理解为有向图。

唯一的区别是信息储存在边上,每个点有字符集个数的转移到若干其他点,类比字典树。

如果对于一个字符串,沿着每个点的转移走,如果不出界,称该自动机可以表示这个字符串。

以下将“点”称为状态

能干啥

后缀自动机能表示母串的所有子串。

算法流程

首先明确一点:子串规模是O(N2)O(N^2)O(N2)

所以一个状态必须表示多个子串

也就是说,我们要定义出等价的子串

对于一个子串SSS,定义endpos(S)endpos(S)endpos(S)SSS在原串中所有出现的结束位置的集合

每个状态与一个endposendposendpos集合一一对应。即一个状态表示一个endposendposendpos集合。

需要注意的是,endposendposendpos是完全虚构的,在代码中不会出现。

然后可以表示所有endposendposendpos等于它的字符串,称这些子串为一个endposendposendpos等价类

转移

此时我们定义转移为这个类所有串加上这个字符后所在的转移。

一个类的同一个转移是相同的,因为向ccc的转移的本质是当前endposendposendpos整体后移一位的所有ccc的位置。

感性理解。

两个性质

1.两个子串S1,S2S_1,S_2S1,S2满足S1S_1S1S2S_2S2的后缀,当且仅当endpos(S2)⊆endpos(S1)endpos(S_2)\subseteq endpos(S_1)endpos(S2)endpos(S1)

S2S_2S2出现的地方一定有S1S_1S1出现,但有S1S_1S1出现的地方不一定有S2S_2S2

2.一个等价类中的子串均为该类中最长串的后缀且长度连续

第一个显然

对于一个串SSS,若有后缀S1S_1S1长度小于SSS,且S1S_1S1SSS是等价类

S2S_2S2为长度在它们之间的后缀

endpos(S)⊆endpos(S2)⊆endpos(S1)endpos(S) \subseteq endpos(S_2) \subseteq endpos(S_1)endpos(S)endpos(S2)endpos(S1)

因为endpos(S)=endpos(S1)endpos(S)=endpos(S_1)endpos(S)=endpos(S1)

所以endpos(S)=endpos(S2)=endpos(S1)endpos(S) = endpos(S_2) = endpos(S_1)endpos(S)=endpos(S2)=endpos(S1)

说明它们之间的串都是一个等价类

Parent链

由于类中的长度只有一段,逼死强迫症

所以我们定义每个状态SSSfailfailfail指针

满足endpos(S)∈endpos(fail(S))endpos(S) \in endpos(fail(S))endpos(S)endpos(fail(S))

fail(S)fail(S)fail(S)要尽量靠后

可以理解为:从一个状态沿failfailfail往上跳,取出该类中的所有串,你将会见证这个串不断失去第一个字符,不断变为后缀,最后变成空串。我们称这条链为parentparentparent链。

先放个图,以AABAABAAB为栗子

在这里插入图片描述

可能看不出啥,但有个大概印象吧

构造算法

SAM 采用增量算法,即一个一个字符插入

这使得 SAM 擅长处理动态问题

现在假设插入第iii个字符,前i−1i-1i1个的 SAM 已经建立好

首先,上一个插入的点是整个串所在的状态,记为ppp

新建一个节点,记为curcurcur。显然curcurcur最长的长度为当前串的长度。

由于其他子串已经处理了,我们要做的,就是搞出当前串的后缀

此处分333种情况

①最简单的情况

栗子:AA\texttt {AA}AA插入B\texttt BB

在这里插入图片描述

此时curcurcur{3}\{3\}{3}

由于每个类里的字符串是等价的(感性理解)

我们可以找到旧的串的所有后缀,给它加上新的字符

也就是让ppp沿着failfailfail不断跳,令ch[p][S[i]]=curch[p][S[i]]=curch[p][S[i]]=cur

即:原来的所有后缀加上新来的字符就成了新的后缀

在这里插入图片描述

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

最后fail(cur)=1fail(cur)=1fail(cur)=1,完结撒花

在这里插入图片描述
②然而这只是最简单的情况

栗子:AA\texttt {AA}AA插入A\texttt AA

在这里插入图片描述

没区别

在这里插入图片描述在这里插入图片描述
咦?已经有转移了呀

说明什么?

说明现在新串的这个后缀已经在之前的串中出现了

那这个后缀的后缀也一定出现了

(请摆脱这个栗子)

q=ch[p][S[i]]q=ch[p][S[i]]q=ch[p][S[i]]

上面的话翻译一下,ppp表示的串+S[i]+S[i]+S[i]已经出现了

而这个玩意就是qqq

……吗?

ppp的最长串+S[i]+S[i]+S[i]一定在qqq上(定义),但不一定是qqq最长的

先讨论是最长的的情况

yyyyyy一下,我们要找的后缀不就是qqq的最长串吗?

而这个后缀的后缀,也就是我们后面要找的,就在qqqparentparentparent链上

这么说来,我们令fail[cur]=qfail[cur]=qfail[cur]=q就好了

在这里插入图片描述
over

③然而还有个最复杂的情况

也就是上面的不是qqq最长的

栗子:AAB\texttt{AAB}AABB\texttt BB

在这里插入图片描述
走程序

在这里插入图片描述在这里插入图片描述

此时的qqqB,AB,AAB\texttt {B,AB,AAB}B,AB,AAB

而我们的curcurcur只想要B\texttt BB和链上的东西

怎么办?

拆了呗

在这里插入图片描述
记新建的点为q′q'q

维护信息

首先curcurcur要的是q′q'qqqq祖先上的

在这里插入图片描述

然后我们发现qqqq′q'q有后缀关系

在这里插入图片描述

接下来维护转移

q和q′q和q'qq是同一个分出来的,而它们原来的转移共同构成了后面的状态

现在它们拆开了,理应维护好后面

即:将qqq的转移拷贝给q′q'q

在这里插入图片描述

考虑这样的事实:在前面某个位置,原来转移到了这个状态。现在这个状态分了,需要考虑具体转移到哪一边。

注意到转移到q′q'q而不转移到qqq,当且仅当这个状态最长串长小于q′q'q最长串长。

并且都是qqq去掉末尾的一个字符后的后缀

根据意识流这样的状态最后面的满足的刚好是ppp

而剩下的都在pppparentparentparent链上

即:跳pppparentparentparent链,如果有到qqq的转移,将它改到q′q'q

因为是后缀,所以一定是S[i]S[i]S[i]的转移(因为ch[p][S[i]]=qch[p][S[i]]=qch[p][S[i]]=q

在这里插入图片描述至此,SAM 就构造完毕了

复杂度是O(N)O(N)O(N)的,显然我不会证

代码

具体实现的时候,每个节点只记录最长串的长度lenilen_ileni

int fa[MAXN],ch[MAXN][26];
int len[MAXN],last=1,tot=1;
int siz[MAXN],a[MAXN],c[MAXN];
void insert(int c)
{int p=last,cur=++tot;len[cur]=len[last]+1;last=cur;for (;p&&!ch[p][c];p=fa[p])  ch[p][c]=cur;//跳failif (!p) fa[cur]=1;//情况1else{int q=ch[p][c];if (len[p]+1==len[q]) fa[cur]=q;//情况2else//情况3{int clone=++tot;len[clone]=len[p]+1;for (int i=0;i<26;i++) ch[clone][i]=ch[q][i];fa[clone]=fa[q];fa[q]=fa[cur]=clone;for (;ch[p][c]==q;p=fa[p]) ch[p][c]=clone;}	}
}

运用

劈配子串

按照定义,沿着转移走

最长公共子串

建出SSS的后缀自动机,拿TTT去跑

不断用lenilen_ileni更新答案

如果走不动了就跳failfailfail

处理出现次数

对于每一次插入,一个类出现次数增加,当且仅当这是当前的后缀

也就是把这个点的parentparentparent链都+1+1+1

显然会TTT。于是先建完,按长度瞎排个序,倒着往上推。

这样sizisiz_isizi表示状态iii中的一个串的出现次数。显然它们是一样的。

应该是用的最多的。

void query()
{for (int i=1;i<=tot;i++) c[len[i]]++;for (int i=1;i<=n;i++) c[i]+=c[i-1];for (int i=1;i<=tot;i++) a[c[len[i]]--]=i;for (int i=tot;i>=1;i--) siz[fa[p]]+=siz[p];
}

然后你就可以处理各种沙雕的字符串题

本质不同的串的个数

由于一个串只会被表示一遍

我们相当于求所有状态表示的串的个数之和。

∑(len[p]−len[fa[p]])\sum( len[p]-len[fa[p]])(len[p]len[fa[p]])

Link Cut Tree维护parent链

先写到这里吧,想到再补。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/315287.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2021牛客第一场 K.Knowledge Test about Match

https://ac.nowcoder.com/acm/contest/11166/K 题意就是使得图中的那个式子最小&#xff0c;你的答案不一定是要最标准的&#xff0c;只要平均水平下和标准值的偏差不超过4%就行了。 有了这个提示&#xff0c;那我们直接贪心瞎搞就行了&#xff0c;只有符合换过去的收益的增大…

Codeforces Round #620 (Div. 2) F2. Animal Observation (hard version) dp + 线段树

传送门 文章目录题意&#xff1a;思路&#xff1a;题意&#xff1a; 比如下面这个图&#xff1a; 思路&#xff1a; 对于这个题&#xff0c;比较容易就能考虑到dpdpdp&#xff0c;设f[i][j]f[i][j]f[i][j]为到了第iii行&#xff0c;覆盖了[j,jk−1][j,jk-1][j,jk−1]范围时候…

设计模式之总体介绍

1. 背景与介绍设计模式是经过反复使用、经过分类的代码总结。设计模式的目的是提高代码可重用性和可靠性&#xff0c;并使代码条理清晰、易于理解、易于维护。设计模式描述了在各种情况下&#xff0c;要选择什么样的方案来解决问题。设计模式通常以类和对象来描述其中的关系和相…

回文自动机:从入门到只会打板

写在前面 如果你会SAMSAMSAM&#xff0c;相信回文自动机不会难懂。 如果你不会&#xff0c;你可以参考我的上一篇文章。 至少回文自动机是治愈系的吧。 作用 回文自动机&#xff0c;也叫回文树&#xff0c;简称PAMPAMPAM实际上它既不是自动机也不是树 处理回文串的有力工…

2021牛客第一场 I. Increasing Subsequence-前缀和优化dp

https://ac.nowcoder.com/acm/contest/11166/I 思路&#xff1a;dp[i][j] 是表示上上步走在i点&#xff0c;上一步走在j点的期望。首先我们很容易想到n^3的做法&#xff0c;那我们必须考虑去优化一维的时间复杂度。我们可以考虑使用前缀和优化dp转移。 我们枚举i点&#xff0c…

Codeforces Round #620 (Div. 2) E. 1-Trees and Queries 思维 + LCA

传送门 文章目录题意思路&#xff1a;题意 思路&#xff1a; 照例&#xff0c;先考虑不加边怎么做。由于可以经过重复的边或点&#xff0c;设aaa与bbb之间长度为lenlenlen&#xff0c;那么需要len<klen<klen<k并且还需要(k−len)mod20(k-len) \bmod 20(k−len)mod20&…

.NET Core 微服务之Polly熔断策略

紧接着上一篇说&#xff0c;咱们继续介绍Polly这个类库熔断策略&#xff08;Circuit-breaker&#xff09;如果调用某个目标服务出现过多超时、异常等情况&#xff0c;可以采取一定时间内熔断该服务的调用&#xff0c;熔断期间的请求将不再继续调用目标服务&#xff0c;而是直接…

牛客第二场 G.League of Legends-单调队列优化dp

https://ac.nowcoder.com/acm/contest/11253/G 上面出题人给的题解&#xff1a; 思路基本差不多&#xff0c;这里主要说一下合并小区间的dp&#xff0c; dp[i][j]代表前i个分成j组最大的时间max 我们首先将区间排好序&#xff0c;如果满足a[k]>b[i] ,则有 j都是由j-1转…

.NET中扩展方法和Enumerable(System.Linq)

LINQ是我最喜欢的功能之一&#xff0c;程序中到处是data.Where(xx>5).Select(x)等等的代码&#xff0c;她使代码看起来更好&#xff0c;更容易编写&#xff0c;使用起来也超级方便&#xff0c;foreach使循环更加容易&#xff0c;而不用for int..&#xff0c;linq用起来那么爽…

Planes, Trains, but not Automobiles-求最小路径覆盖的起点终点

https://vjudge.net/problem/Kattis-planestrainsbutnotautomobiles 题意&#xff1a;给一个有向图&#xff0c;火车可以由任意一个起点开始&#xff0c;每一个点只能经过一次&#xff0c;在坐火车的时候你可以选择坐飞机到另外一个点&#xff0c;求坐飞机的最小次数&#xff…

译 | .NET Core 3.0 对诊断的改进

原文&#xff1a;Sourabh Shirhatti翻译&#xff1a;Edi Wang在 .NET Core 3.0 中&#xff0c;我们将引入一套工具&#xff0c;这些工具利用 .NET 运行时中的新功能&#xff0c;使诊断和解决性能问题变得更加容易。这些运行时功能可帮助您回答一些常见的诊断问题&#xff1a;我…

【AT987】高橋君【组合数】【莫队】

传送门 题意&#xff1a;TTT组询问NNN个相同物品选不超过KKK个的方案数&#xff0c;T,N≤1e5T,N \leq 1e5T,N≤1e5 设f(x,y)∑i0yCxif(x,y)\sum_{i0}^{y}C_x^if(x,y)∑i0y​Cxi​即所求 直接求并没有很好的性质 但我们发现:f(x,y)2f(x−1,y)−Cx−1yf(x,y)2f(x-1,y)-C_{x-1…

2021牛客第一场H.Hash Function—FFT求差值的卷

https://ac.nowcoder.com/acm/contest/11166/H 官方题解。 比赛时&#xff0c;我们都是用暴力写的&#xff0c;数据太弱了&#xff0c;今天突然想起来&#xff0c;用fft写了一下。 主要使用fft求差值的卷&#xff0c;乘法我们在多项式的系数上做&#xff0c;加减法 我们在多项…

设计模式之策略者模式

策略者模式简介策略者模式定义一个算法接口&#xff0c;并由其实现类去实现&#xff0c;使得每一个算法都得到封装&#xff0c;并让他们可以相互替换。这是一种行为型模式。策略者模式降低了算法行为和环境角色的耦合度&#xff0c;使得算法可以独立发生变化。策略者模式在现实…

Codeforces Round #622 (Div. 2) D. Happy New Year 状压dp

传送门 文章目录题意&#xff1a;思路&#xff1a;题意&#xff1a; n≤1e5,m≤1e9,k≤8.n\le 1e5,m\le 1e9,k\le 8.n≤1e5,m≤1e9,k≤8. 思路&#xff1a; 注意到题目中保证了每个孩子至多收到kkk个&#xff0c;且k≤8k\le 8k≤8&#xff0c;注意到这是题目保证的&#xff0…

2021牛客第四场-E Tree Xor-线段树区间异或

https://ac.nowcoder.com/acm/contest/11255/E 题目大意&#xff1a;有n个点&#xff0c;每一点有一个区间[l,r]范围的权值可能&#xff0c;有n-1条边&#xff0c;边上的权值为w,ww(u)^w(v),问你满足权值范围和边权值的方案数。 思路&#xff1a;我们把树根的值设为0&#xff…

【SPOJ2666】QTree4【链分治】

传送门 题意&#xff1a;给一棵带边权的树&#xff0c;每个点开始时为白色&#xff0c;维护两种操作&#xff1a; 1.改变一个点的颜色&#xff08;白变黑&#xff0c;黑变白&#xff09; 2.询问最远的两个白点之间的距离 树分治国集论文 链分治的本质其实就是树链剖分。它们…

2021牛客第五场 I.Interval Queries-回滚莫队

如图&#xff1a;一道很裸的回滚莫队&#xff0c;注意加入的操作和回滚的操作就好了。 #include <cstdio> #include <cstring> #include <string> #include <cmath> #include <iostream> #include <algorithm> #include <queue> #i…

Linux下搭建asp.net运行环境

最近有个项目&#xff0c;是在Windows平台下开发的&#xff0c;需要把 asp.net web应用移植到 CentOS下&#xff0c;甚是头疼&#xff1b;翻阅资料&#xff0c;发现Jexus是个可行的方案&#xff0c;下面是官方对Jexus的定义&#xff1a;什么是JexusJexus是一款Linux平台上的高性…

Codeforces Round #736 (Div. 2)E. The Three Little Pigs-长除法求多项式系数

https://codeforces.com/contest/1549/problem/E 题目大意自己悟吧&#xff0c;不解释了。 这题在赛时我想的是fft&#xff0c;但是题解说不用fft就能求出多项式的系数&#xff0c;fft在这题时间复杂度有点高。 使用多项式长除法就能求出系数&#xff0c;k^x的系数就是抓x个p…