算法竞赛进阶指南——后缀数组

后缀数组

后缀数组 (SA) 是一种重要的数据结构,通常使用倍增或者DC3算法实现,这超出了我们的讨论范围。
在本题中,我们希望使用快排、Hash与二分实现一个简单的O(nlog2n)的后缀数组求法。
详细地说,给定一个长度为 n 的字符串S(下标 0~n-1),我们可以用整数 k(0≤k<n) 表示字符串S的后缀 S(k~n-1)。
把字符串S的所有后缀按照字典序排列,排名为 i 的后缀记为 SA[i]。
额外地,我们考虑排名为 i 的后缀与排名为 i-1 的后缀,把二者的最长公共前缀的长度记为 Height[i]。
我们的任务就是求出SA与Height这两个数组。

输入格式
输入一个字符串,其长度不超过30万。
字符串由小写字母构成。

输出格式
第一行为数组SA,相邻两个整数用1个空格隔开。
第二行为数组Height,相邻两个整数用1个空格隔开,我们规定Height[1]=0。

输入样例:
ponoiiipoi
输出样例:
9 4 5 6 2 8 3 1 7 0
0 1 2 1 0 0 2 1 0 2


说实话看到这道题的时候真的是一脸懵,这东西咋用hash,二分,快排。
后来找了些博客看,终于理解其中的思路了,
一、先记录整条的hash值。
二、用一个sort函数,自定义cmp。
三、通过二分确定两个后缀字符之间的前缀相同字母。

这道题写这篇题解的时候又重新去写了一遍,感觉真的难。

#include<iostream>
#include<cstring>
#include<algorithm>
#include<cstdio>
using namespace std;
typedef unsigned long long ull;
const int base = 131;
const int N = 3e5 + 10;
char str[N];
ull h[N], p[N];
int sa[N], n;
ull gethash(int l, int r) {//得到某一段的hash值return h[r] - h[l - 1] * p[r - l + 1];
}
int sumsub(int a, int b) {int l = 0, r = min(n - a + 1, n - b + 1);//取最小的。while(l < r) {//二分。int mid = (l + r + 1) >> 1;if(gethash(a, a + mid - 1) != gethash(b, b + mid - 1))  r = mid - 1;else l = mid;}return r;
}
bool cmp(int a, int b) {int l = sumsub(a, b);//两个的相同前缀长度。int x = a + l > n ? - 1e9 : str[a + l];如果有一个单词都是前缀,防止发生数组越界。int y = b + l > n ? - 1e9 : str[b + l];return x < y;
}
int main() {scanf("%s", str + 1);//从第一个字符开始可以避免hash的边界问题。n = strlen(str + 1);p[0] = 1;for(int i = 1; i <= n; i++) {h[i] = h[i - 1] * base + str[i] - 'a' + 1;p[i] = p[i - 1] * base;sa[i] = i;}sort(sa + 1, sa + n + 1, cmp);//对下标进行排序。for(int i = 1; i <= n; i++) printf("%d%c", sa[i] - 1, i == n ? '\n' : ' ');printf("0 ");for(int i = 2; i <= n; i++)    printf("%d%c", sumsub(sa[i], sa[i - 1]), i == n ? '\n' : ' ');return 0;
}

这个算法耗时还是非常长的,并不是真正的能用的算法,但是这个写法的综合力度还是比较高的,思想还是可以借鉴的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/314622.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NWERC 2018 A. Access Points 二维转一维 + 单调栈

传送门 文章目录题意&#xff1a;思路&#xff1a;题意&#xff1a; 给你平面上nnn个点&#xff0c;你需要对于1−n1-n1−n依次选择nnn个点作为每个点的终点&#xff0c;满足选择的点i<j,xi≤xj,yi≤yji<j,x_i\le x_j,y_i\le y_ji<j,xi​≤xj​,yi​≤yj​&#xff0…

【译】在 Linux 上不安装 Mono 构建 .NET Framework 类库

在这篇文章中&#xff0c;我展示了如何在 Linux 上构建针对 .NET Framework 版本的.NET项目&#xff0c;而不使用 Mono。通用使用微软新发布的 Mocrosoft.NETFramework.ReferenceAssemblies NuGet 包&#xff0c;您将不需要安装除 .NET Core SDK 之外的任何其他软件包&#xff…

hdu 5023 线段树染色问题

题目链接 A Corrupt Mayor’s Performance Art Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 100000/100000 K (Java/Others) Total Submission(s): 4094 Accepted Submission(s): 1418 Problem Description Corrupt governors always find ways to get dirty money…

Codeforces Round #740 (Div. 2) D2. Up the Strip dp + 分块优化 + 逆向思维

传送门 文章目录题意&#xff1a;思路题意&#xff1a; 有nnn个细胞&#xff0c;你初始在第nnn细胞上&#xff0c;假设你当前在xxx处&#xff0c;你每次可以进行如下两个操作&#xff1a; (1)(1)(1)选择[1,x−1][1,x-1][1,x−1]内一个数yyy&#xff0c;跳到第x−yx-yx−y个细胞…

poj 2528 线段树离散化+染色

题目链接 Mayor’s posters Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 92628 Accepted: 26452 Description The citizens of Bytetown, AB, could not stand that the candidates in the mayoral election campaign have been placing their electoral pos…

Codeforces Round #740 (Div. 2) E. Bottom-Tier Reversals 构造

传送门 文章目录题意&#xff1a;思路&#xff1a;题意&#xff1a; 给你一个长度为奇数nnn的排列aaa&#xff0c;每次可以选择长度为奇数的前缀&#xff0c;并将[1,len][1,len][1,len]翻转&#xff0c;你需要用不超过5n2\frac{5n}{2}25n​次操作将其变成有序的&#xff0c;输…

DevOps书单:调研了101名专家,推荐这39本必读书籍

任何一个领域都遵循从新人到熟手&#xff0c;从熟手到专家的路径。在成长过程中&#xff0c;DevOps人经常会陷入没人带&#xff0c;没人管&#xff0c;找不到职业方向的迷茫。DevOps是在商业演进与企业协作的进化过程中诞生的一个全新职业&#xff0c;被很多人看成是一个“全栈…

模板:Prime最小生成树堆优化 + Dijkstra单源最短路堆优化

Dijkstra 单源最短路堆优化 #include<bits/stdc.h> using namespace std; typedef pair<int, int> PII; const int N 2e5 10; int head[N], to[N], value[N], nex[N], cnt 1; int n, m, rt, st, dis[N], visit[N]; struct cmp {bool operator()(PII a, PII b) …

Gym - 102001K Boomerangs 构造 + 三元环

传送门 文章目录题意&#xff1a;思路&#xff1a;题意&#xff1a; 给你一张nnn个点mmm条边的简单图&#xff0c;让你找出尽可能多的三元环&#xff0c;要求每个三元环都不能共边&#xff0c;输出三元环数量和具体是那个。 n,m≤1e5n,m\le1e5n,m≤1e5 思路&#xff1a; 其实…

面对人性,有的选择向左,有的向右

这里是Z哥的个人公众号每周五11&#xff1a;45 按时送达有时也会有感而发&#xff0c;来加个餐&#xff5e;我的第「84」篇原创敬上前天早上&#xff0c;在36kr看到一篇文章《一个负能量的人&#xff0c;可以轻易搞垮周围人的生活》&#xff0c;讲述了可能我们每个人身边都存在…

10分钟了解分布式CAP、BASE理论

CAP理论2000年7月&#xff0c;Eric Brewer教授提出CAP猜想&#xff1b;2年后&#xff0c;Seth Gilbert和Nancy Lynch从理论上证明了CAP&#xff1b;之后&#xff0c;CAP理论正式成为分布式计算领域的公认定理。CAP定律说的是在一个分布式计算机系统中&#xff0c;一致性&#x…

2018 ICPC Asia Jakarta Regional Contest J. Future Generation 状压dp

传送门 文章目录题意&#xff1a;思路&#xff1a;题意&#xff1a; 给你nnn个串&#xff0c;字符集是a−za-za−z&#xff0c;让你在每个串种选择一个子序列&#xff0c;保证对于i<j,si<sji<j,s_i<s_ji<j,si​<sj​&#xff0c;也就是选择的串字典序是严格…

ASP.NET Core Web Api之JWT刷新Token(三)

本节我们进入JWT最后一节内容&#xff0c;JWT本质上就是从身份认证服务器获取访问令牌&#xff0c;继而对于用户后续可访问受保护资源&#xff0c;但是关键问题是&#xff1a;访问令牌的生命周期到底设置成多久呢&#xff1f;见过一些使用JWT的童鞋会将JWT过期时间设置成很长&a…

简单dfs序 + 树链剖分

树链剖分 DFS序 先来讲一讲DFS序是什么东西&#xff0c;直接上图&#xff0c;方便理解。 估计巨巨们应该知道了DFS序的两个重要的东西&#xff0c;in,outin,outin,out数组。 ininin数组就是这个点进入DFS的时间。outoutout数组就是这个点退出DFS递归栈的时间。这个时间要注意…

#3864. Hero meet devil dp套dp + 状压 + 状态机

传送门 文章目录题意&#xff1a;思路&#xff1a;题意&#xff1a; 给你一个只包含ACGTACGTACGT的串sss&#xff0c;再给你一个mmm&#xff0c;第iii行输出有多少个长度为mmm且只包含ACGTACGTACGT的串与sss的lcslcslcs为iii。 ∣s∣≤15,m≤1000|s|\le15,m\le1000∣s∣≤15,m…

WeihanLi.Npoi 导出支持自定义列内容啦

WeihanLi.Npoi 导出支持自定义列内容啦Intro之前也有网友给提出过希望列合并或者自定义列内容的 issue 或请求&#xff0c;起初因为自己做 WeihanLi.Npoi 这个扩展的最初目的是导入导出的简单化&#xff0c;使用这个扩展导出的 Excel/csv 可以直接导入成 List<TEntity>&a…

线段树优化的Dijkstra

板子 我测得的是这个东西在不开O2O2O2的情况下比pairpriorityqueuepair priority_queuepairpriorityq​ueue快了将近1/31/31/3 #include<bits/stdc.h> #define mid (l r >> 1) #define lson rt << 1, l, mid #define rson rt << 1 | 1, mid 1, ru…

P4590 [TJOI2018]游园会 dp套dp + 状态机

传送门 文章目录题意&#xff1a;思路&#xff1a;题意&#xff1a; 给你一个长度为nnn的串sss&#xff0c;其只包含NOINOINOI三个字母&#xff0c;给你一个mmm&#xff0c;代表ttt串的长度&#xff0c;ttt串包含NOINOINOI三个字母但是不存在三个连续的NOINOINOI子串&#xff…

让 .Net 更方便的导入导出 Excel

让 .Net 更方便的导入导出ExcelIntro因为前一段时间需要处理一些 excel 数据&#xff0c;主要是导入/导出操作&#xff0c;将 Excel 数据转化为对象再用程序进行处理和分析&#xff0c;没有找到比较满意的库&#xff0c;于是就自己造了一个轮子&#xff0c;屏蔽掉了 xlsx 与 xl…

最大流,最小费用最大流:解析 + 各种板子

网络流初步 Edmond-Karp算法 网络流的基本概念 源点&#xff0c;这个点只有流量的流出&#xff0c;没有流入。汇点&#xff0c;这个点只有流量的流入&#xff0c;没有流出。容量&#xff0c;每条有向边的最大可承受的流的理论大小。流量&#xff0c;每条有向边的最大可承受的…