后缀数组小结(markdown版)
2016-01-16 11:06
246 查看
这篇文章看的人还是挺多的,为了提升大家的阅读快感,特地写了这markdown版。希望大家会喜欢。还可以去我的新blog里看这篇文章
我基本上是跟着连教的ppt来学习的,当然也少不了百度,先讲一下基本概念。(这里大量引用了连教的ppt)
2.后缀:后缀是指从某个位置 i 开始到整个串末尾结束的一个特殊子串。字符串r 的从 第 i 个字 符 开 始 的 后 缀 表 示 为 Suffix(i) ,也 就 是Suffix(i)=r[i..len(r)] 。
3.后缀数组(SA[i]存放排名第i大的子串首字符下标): 后缀数组 SA 是一个一维数组,它保存1..n 的某个排列 SA1,SA[2], ……,SA
,并且保证Suffix(SA[i]) < Suffix(SA[i+1]),1 ≤ i < n。也就是将 S 的 n 个后缀从小到大进行排序之后把排好序的后缀的开头位置顺次放入SA 中。
4.名次数组(rank[i]存放suffix(i)的优先级):名次数组 Rank[i] 保存的是 Suffix(i) 在所有后缀中从小到大排列的 “ 名次 ” 。
注:这个是排序的关键字~(这句话是我们排序的重点)
注:这个结论只在最后完成排序的时候符合。但sa和rank的定义一直都是适用的。原因是最后的时候不会存在相同(rank相等)的两个子串。
2.先按H=1,对suffix(i,H)(0 < i < s.length)排序。
3.倍增长度H,利用之前排序H/2长度后得到的rank数组作为关键字,把后H/2部分作为第二关键字,把前H/2部分作为第一关键字,对H长度的子串作排序。
4.由于是倍增长度,所以最多作logn次排序。
注:那么复杂要做到nlogn,显然排序要o(n),O(n)一般都选计数排序。
这里选计数排序还有一个重要的原因,它是一个稳定排序,这就保证了数组的下标识第二关键字,我们前面说了,对于倍增长度H,利用之前排序H/2长度后得到的rank数组作为关键字,把后H/2部分作为第二关键字,嗯,就是这里,所以我们要先排后H/2的序,然后得到新的数组序列,下标就是第二关键字了,数组里面就是前H/2 rank的值,这是第一关键字,那么直接排序就相当于先对前H/2排序,如果这里相等,那么就会按下标排序,既第二关键字排序。
按H=1进行计数排序
求第二关键字(想想为什么构造w数组的时候末尾要加个0)
对新数组排序
得到新的关键字(即按H长度排序后的离散序列)
重复以上最后可以得到sa数组
Sa和rank有什么用?
求height数组!!
height[i] 表示sa[i]和sa[i-1]的最长前缀,height的构造看代码手推一定能弄懂,自己找题目试试。
•Poj 2774 –最长公共连续子串(入门题目)
•Poj1743—最长不重叠重复子串(二分的判定要小心点,这题有点特别。)
•Poj3294—出现次数超过一半的最长子串(判断组中不同串出现次数的技巧很关键)
•Poj3261—重复k次可重叠子串。(会了上面两题,这题应该很简单,可以试试用单调栈。)
•Poj2758—后缀数组+rmq(这题难度不在rmq,而在于写代码的能力和查询的算法实现。)
【前言】
后缀数组号称字符串处理神器,不过发现好多人都只会用模板,其实这不是我们学算法的本质,我们学习算法的本质应该理解其实现原理,并加以实现,特别是算法,更讲究的是一种思想。一年前的我也是只会用别人的模板,最近却静下心来,研究了一下后缀数组,自己写了一份自己的模板。我基本上是跟着连教的ppt来学习的,当然也少不了百度,先讲一下基本概念。(这里大量引用了连教的ppt)
【基本定义】
1.子串(注:串!=字符串):字符串 S 的子串r[i..j] ,i ≤ j,表示r 串中从 i 到 j 这一段,就是顺次排列r[i],r[i+1],…,r[j] 形成的子串。2.后缀:后缀是指从某个位置 i 开始到整个串末尾结束的一个特殊子串。字符串r 的从 第 i 个字 符 开 始 的 后 缀 表 示 为 Suffix(i) ,也 就 是Suffix(i)=r[i..len(r)] 。
3.后缀数组(SA[i]存放排名第i大的子串首字符下标): 后缀数组 SA 是一个一维数组,它保存1..n 的某个排列 SA1,SA[2], ……,SA
,并且保证Suffix(SA[i]) < Suffix(SA[i+1]),1 ≤ i < n。也就是将 S 的 n 个后缀从小到大进行排序之后把排好序的后缀的开头位置顺次放入SA 中。
4.名次数组(rank[i]存放suffix(i)的优先级):名次数组 Rank[i] 保存的是 Suffix(i) 在所有后缀中从小到大排列的 “ 名次 ” 。
注:这个是排序的关键字~(这句话是我们排序的重点)
【算法目标】
目标是求得串的sa数组和rank数组:易知sa和rank互为逆操作,即sa[rank[i]] = i;Rank[sa[i]] = i;(所以我们只要求得其一,就能O(n)算出另一个)注:这个结论只在最后完成排序的时候符合。但sa和rank的定义一直都是适用的。原因是最后的时候不会存在相同(rank相等)的两个子串。
【算法基本流程】
1.设排序的的当前长度是h。Suffix(i,h) 表示suffix(i)前h个字符(大于length会截断)。2.先按H=1,对suffix(i,H)(0 < i < s.length)排序。
3.倍增长度H,利用之前排序H/2长度后得到的rank数组作为关键字,把后H/2部分作为第二关键字,把前H/2部分作为第一关键字,对H长度的子串作排序。
4.由于是倍增长度,所以最多作logn次排序。
注:那么复杂要做到nlogn,显然排序要o(n),O(n)一般都选计数排序。
【计数排序】
不会的自己看看这个百度百科,是代码的主要部分。这里选计数排序还有一个重要的原因,它是一个稳定排序,这就保证了数组的下标识第二关键字,我们前面说了,对于倍增长度H,利用之前排序H/2长度后得到的rank数组作为关键字,把后H/2部分作为第二关键字,嗯,就是这里,所以我们要先排后H/2的序,然后得到新的数组序列,下标就是第二关键字了,数组里面就是前H/2 rank的值,这是第一关键字,那么直接排序就相当于先对前H/2排序,如果这里相等,那么就会按下标排序,既第二关键字排序。
【动手环节】
以下内容请按代码手动模拟一个串abab的构造过程,求sa数组。这能让你真正清楚后缀数组实现的精妙所在。按H=1进行计数排序
// cnt是计数排序的辅助数组,k是第一关键字,id是第二关键字下标数组,r是以下标为第二关键字的新构数组,w存放的是字符串信息。sa保存的是排第i的是谁, // #define rep(i,n) for(int i = 0;i < n; i++) , int *k = rk,*id = height,*r = res, *cnt = wa;//计数排序 rep(i,up) cnt[i] = 0; rep(i,len) cnt[k[i] = w[i]]++; rep(i,up) cnt[i+1] += cnt[i]; for(int i = len - 1; i >= 0; i--) { sa[--cnt[k[i]]] = i; }
求第二关键字(想想为什么构造w数组的时候末尾要加个0)
//cnt是计数排序的辅助数组,k是第一关键字,id是第二关键字下标数组,r是以下标为第二关键字的新构数组,w存放的是字符串信息,sa保存的是排第i的是谁。 for(int i = len - d; i < len; i++) id[p++] = i; rep(i,len) if(sa[i] >= d) id[p++] = sa[i] - d; //id保存了按后h/2排序的的序列,即排第i的后h/2的是原数组中的那个 rep(i,len) r[i] = k[id[i]]; //构造新的排序数组
对新数组排序
//cnt是计数排序的辅助数组,k是第一关键字,id是第二关键字下标数组,r是以下标为第二关键字的新构数组,w存放的是字符串信息,sa保存的是排第i的是谁 rep(i,up) cnt[i] = 0; rep(i,len) cnt[r[i]]++; rep(i,up) cnt[i+1] += cnt[i]; for(int i = len - 1; i >= 0; i--) { sa[--cnt[r[i]]] = id[i]; }
得到新的关键字(即按H长度排序后的离散序列)
//cnt是计数排序的辅助数组,k是第一关键字,id是第二关键字下标数组,r是以下标为第二关键字的新构数组,w存放的是字符串信息,sa保存的是排第i的是谁 swap(k,r); p = 0; k[sa[0]] = p++; rep(i,len-1) { if(sa[i]+d < len && sa[i+1]+d <len &&r[sa[i]] == r[sa[i+1]]&& r[sa[i]+d] == r[sa[i+1]+d]) k[sa[i+1]] = p - 1; else k[sa[i+1]] = p++; }
重复以上最后可以得到sa数组
Sa和rank有什么用?
求height数组!!
height[i] 表示sa[i]和sa[i-1]的最长前缀,height的构造看代码手推一定能弄懂,自己找题目试试。
【后缀数组模板】
模板为了短小精悍,所以尽量压缩了代码。#define rep(i,n) for(int i = 0;i < n; i++) using namespace std; const int size = 200005,INF = 1<<30; int rk[size],sa[size],height[size],w[size],wa[size],res[size]; void getSa (int len,int up) { int *k = rk,*id = height,*r = res, *cnt = wa; rep(i,up) cnt[i] = 0; rep(i,len) cnt[k[i] = w[i]]++; rep(i,up) cnt[i+1] += cnt[i]; for(int i = len - 1; i >= 0; i--) { sa[--cnt[k[i]]] = i; } int d = 1,p = 0; while(p < len){ for(int i = len - d; i < len; i++) id[p++] = i; rep(i,len) if(sa[i] >= d) id[p++] = sa[i] - d; rep(i,len) r[i] = k[id[i]]; rep(i,up) cnt[i] = 0; rep(i,len) cnt[r[i]]++; rep(i,up) cnt[i+1] += cnt[i]; for(int i = len - 1; i >= 0; i--) { sa[--cnt[r[i]]] = id[i]; } swap(k,r); p = 0; k[sa[0]] = p++; rep(i,len-1) { if(sa[i]+d < len && sa[i+1]+d <len &&r[sa[i]] == r[sa[i+1]]&& r[sa[i]+d] == r[sa[i+1]+d]) k[sa[i+1]] = p - 1; else k[sa[i+1]] = p++; } if(p >= len) return ; d *= 2,up = p, p = 0; } } void getHeight(int len) { rep(i,len) rk[sa[i]] = i; height[0] = 0; for(int i = 0,p = 0; i < len - 1; i++) { int j = sa[rk[i]-1]; while(i+p < len&& j+p < len&& w[i+p] == w[j+p]) { p++; } height[rk[i]] = p; p = max(0,p - 1); } } int getSuffix(char s[]) { int len = strlen(s),up = 0; for(int i = 0; i < len; i++) { w[i] = s[i]; up = max(up,w[i]); } w[len++] = 0; getSa(len,up+1); getHeight(len); return len; }
【练手】
最后给出几题练习题。•Poj 2774 –最长公共连续子串(入门题目)
•Poj1743—最长不重叠重复子串(二分的判定要小心点,这题有点特别。)
•Poj3294—出现次数超过一半的最长子串(判断组中不同串出现次数的技巧很关键)
•Poj3261—重复k次可重叠子串。(会了上面两题,这题应该很简单,可以试试用单调栈。)
•Poj2758—后缀数组+rmq(这题难度不在rmq,而在于写代码的能力和查询的算法实现。)
相关文章推荐
- 在命令行用 sort 进行排序
- 书评:《算法之美( Algorithms to Live By )》
- 动易2006序列号破解算法公布
- 文件遍历排序函数
- C#选择排序法实例分析
- Ruby实现的矩阵连乘算法
- C#插入法排序算法实例分析
- BAT批处理中的字符串处理详解(字符串截取)
- Lua函数与字符串处理简明总结
- C#实现Datatable排序的方法
- 超大数据量存储常用数据库分表分库算法总结
- SQLSERVER的排序问题结果不是想要的
- Windows Powershell排序和分组管道结果
- C#数据结构与算法揭秘二
- C#冒泡法排序算法实例分析
- C#通过IComparable实现ListT.sort()排序
- C#选择法排序实例分析
- 算法练习之从String.indexOf的模拟实现开始
- C#算法之关于大牛生小牛的问题