您的位置：首页 > 其它

后缀数组小结（markdown版）

2016-01-16 11:06 246 查看

这篇文章看的人还是挺多的，为了提升大家的阅读快感，特地写了这markdown版。希望大家会喜欢。还可以去我的新blog里看这篇文章

【前言】

后缀数组号称字符串处理神器，不过发现好多人都只会用模板，其实这不是我们学算法的本质，我们学习算法的本质应该理解其实现原理，并加以实现，特别是算法，更讲究的是一种思想。一年前的我也是只会用别人的模板，最近却静下心来，研究了一下后缀数组，自己写了一份自己的模板。

我基本上是跟着连教的ppt来学习的，当然也少不了百度，先讲一下基本概念。(这里大量引用了连教的ppt)

【基本定义】

1.子串（注：串!=字符串）：字符串 S 的子串r[i..j] ，i ≤ j，表示r 串中从 i 到 j 这一段，就是顺次排列r[i]，r[i+1]，…，r[j] 形成的子串。

2.后缀：后缀是指从某个位置 i 开始到整个串末尾结束的一个特殊子串。字符串r 的从第 i 个字符开始的后缀表示为 Suffix(i) ，也就是Suffix(i)=r[i..len(r)] 。

3.后缀数组（SA[i]存放排名第i大的子串首字符下标）： 后缀数组 SA 是一个一维数组，它保存1..n 的某个排列 SA1，SA[2]， ……，SA
，并且保证Suffix(SA[i]) < Suffix(SA[i+1])，1 ≤ i < n。也就是将 S 的 n 个后缀从小到大进行排序之后把排好序的后缀的开头位置顺次放入SA 中。

4.名次数组（rank[i]存放suffix(i)的优先级）：名次数组 Rank[i] 保存的是 Suffix(i) 在所有后缀中从小到大排列的 “ 名次 ” 。

注：这个是排序的关键字~（这句话是我们排序的重点）

【算法目标】

目标是求得串的sa数组和rank数组：易知sa和rank互为逆操作，即sa[rank[i]] = i；Rank[sa[i]] = i;（所以我们只要求得其一，就能O(n）算出另一个）

注：这个结论只在最后完成排序的时候符合。但sa和rank的定义一直都是适用的。原因是最后的时候不会存在相同（rank相等）的两个子串。

【算法基本流程】

1.设排序的的当前长度是h。Suffix(i,h) 表示suffix(i)前h个字符(大于length会截断)。

2.先按H=1，对suffix(i,H)(0 < i < s.length)排序。

3.倍增长度H，利用之前排序H/2长度后得到的rank数组作为关键字，把后H/2部分作为第二关键字，把前H/2部分作为第一关键字，对H长度的子串作排序。

4.由于是倍增长度，所以最多作logn次排序。

注：那么复杂要做到nlogn，显然排序要o(n)，O(n)一般都选计数排序。

【计数排序】

不会的自己看看这个百度百科，是代码的主要部分。

这里选计数排序还有一个重要的原因，它是一个稳定排序，这就保证了数组的下标识第二关键字，我们前面说了，对于倍增长度H，利用之前排序H/2长度后得到的rank数组作为关键字,把后H/2部分作为第二关键字，嗯，就是这里，所以我们要先排后H/2的序，然后得到新的数组序列，下标就是第二关键字了，数组里面就是前H/2 rank的值，这是第一关键字，那么直接排序就相当于先对前H/2排序，如果这里相等，那么就会按下标排序，既第二关键字排序。

【动手环节】

以下内容请按代码手动模拟一个串abab的构造过程，求sa数组。这能让你真正清楚后缀数组实现的精妙所在。

按H=1进行计数排序

// cnt是计数排序的辅助数组，k是第一关键字，id是第二关键字下标数组，r是以下标为第二关键字的新构数组，w存放的是字符串信息。sa保存的是排第i的是谁，
// #define rep(i,n) for(int i = 0;i < n; i++) ，
int *k = rk,*id = height,*r = res, *cnt = wa;//计数排序
rep(i,up) cnt[i] = 0;
rep(i,len) cnt[k[i] = w[i]]++;
rep(i,up) cnt[i+1] += cnt[i];
for(int i = len - 1; i >= 0; i--) {
sa[--cnt[k[i]]] = i;
}

求第二关键字（想想为什么构造w数组的时候末尾要加个0）

//cnt是计数排序的辅助数组，k是第一关键字，id是第二关键字下标数组，r是以下标为第二关键字的新构数组，w存放的是字符串信息，sa保存的是排第i的是谁。
for(int i = len - d; i < len; i++) id[p++] = i;
rep(i,len) if(sa[i] >= d) id[p++] = sa[i] - d;  //id保存了按后h/2排序的的序列，即排第i的后h/2的是原数组中的那个
rep(i,len) r[i] = k[id[i]];  //构造新的排序数组

对新数组排序

//cnt是计数排序的辅助数组，k是第一关键字，id是第二关键字下标数组,r是以下标为第二关键字的新构数组，w存放的是字符串信息，sa保存的是排第i的是谁
rep(i,up) cnt[i] = 0;
rep(i,len) cnt[r[i]]++;
rep(i,up) cnt[i+1] += cnt[i];
for(int i = len - 1; i >= 0; i--) {
sa[--cnt[r[i]]] = id[i];
}

得到新的关键字(即按H长度排序后的离散序列)

//cnt是计数排序的辅助数组，k是第一关键字，id是第二关键字下标数组,r是以下标为第二关键字的新构数组，w存放的是字符串信息，sa保存的是排第i的是谁
swap(k,r);
p = 0;
k[sa[0]] = p++;
rep(i,len-1) {
if(sa[i]+d < len && sa[i+1]+d <len &&r[sa[i]] == r[sa[i+1]]&& r[sa[i]+d] == r[sa[i+1]+d])
k[sa[i+1]] = p - 1;
else k[sa[i+1]] = p++;
}

重复以上最后可以得到sa数组

Sa和rank有什么用？

求height数组！！

height[i] 表示sa[i]和sa[i-1]的最长前缀，height的构造看代码手推一定能弄懂，自己找题目试试。

【后缀数组模板】

模板为了短小精悍，所以尽量压缩了代码。

#define rep(i,n) for(int i = 0;i < n; i++)
using namespace std;
const int size  = 200005,INF = 1<<30;
int rk[size],sa[size],height[size],w[size],wa[size],res[size];
void getSa (int len,int up) {
int *k = rk,*id = height,*r = res, *cnt = wa;
rep(i,up) cnt[i] = 0;
rep(i,len) cnt[k[i] = w[i]]++;
rep(i,up) cnt[i+1] += cnt[i];
for(int i = len - 1; i >= 0; i--) {
sa[--cnt[k[i]]] = i;
}
int d = 1,p = 0;
while(p < len){
for(int i = len - d; i < len; i++) id[p++] = i;
rep(i,len)  if(sa[i] >= d) id[p++] = sa[i] - d;
rep(i,len) r[i] = k[id[i]];
rep(i,up) cnt[i] = 0;
rep(i,len) cnt[r[i]]++;
rep(i,up) cnt[i+1] += cnt[i];
for(int i = len - 1; i >= 0; i--) {
sa[--cnt[r[i]]] = id[i];
}
swap(k,r);
p = 0;
k[sa[0]] = p++;
rep(i,len-1) {
if(sa[i]+d < len && sa[i+1]+d <len &&r[sa[i]] == r[sa[i+1]]&& r[sa[i]+d] == r[sa[i+1]+d])
k[sa[i+1]] = p - 1;
else k[sa[i+1]] = p++;
}
if(p >= len) return ;
d *= 2,up = p, p = 0;
}
}
void getHeight(int len) {
rep(i,len) rk[sa[i]] = i;
height[0] =  0;
for(int i = 0,p = 0; i < len - 1; i++) {
int j = sa[rk[i]-1];
while(i+p < len&& j+p < len&& w[i+p] == w[j+p]) {
p++;
}
height[rk[i]] = p;
p = max(0,p - 1);
}
}
int getSuffix(char s[]) {
int len = strlen(s),up = 0;
for(int i = 0; i < len; i++) {
w[i] = s[i];
up = max(up,w[i]);
}
w[len++] = 0;
getSa(len,up+1);
getHeight(len);
return len;
}

【练手】

最后给出几题练习题。

•Poj 2774 –最长公共连续子串（入门题目）

•Poj1743—最长不重叠重复子串（二分的判定要小心点，这题有点特别。）

•Poj3294—出现次数超过一半的最长子串（判断组中不同串出现次数的技巧很关键）

•Poj3261—重复k次可重叠子串。（会了上面两题，这题应该很简单，可以试试用单调栈。）

•Poj2758—后缀数组+rmq（这题难度不在rmq，而在于写代码的能力和查询的算法实现。）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 后缀数组算法排序字符串处理

相关文章推荐

新的分享

章节导航