后缀树应用之寻找重复出现过的最长子串
2017-05-08 16:59
288 查看
后缀数组应用之寻找重复出现过的最长子串
给定一个字符串s,假设该字符串内只包含数字和字母,试找出其重复出现的最长子串。Sample Input:
strstr
thisisastringwhichisisis
Sample Output:
str
isis
《编程珠玑》最后一章有提到这个例子,书中使用了后缀数组这一技巧。后缀数组其实可以看作一个由字符串s倒数i个字符组成的子串的集合,其中
0<i<s.length(),例如 字符串
strstr的后缀数组为:
{r,tr,str,rstr,trstr,strstr}
得到这个集合之后,我们可以发现,最长重复子串其实变成了求该集合中任意两个元素的最长公共前缀的问题。因为在这个集合中,原字符串中的每个字符都会出现在集合中元素的首位,而如果有子串重复出现,那么该子串肯定会出现在某两个或者多个元素的公共前缀上。
接下来问题就变成了如何去寻找最长公共前缀,除了暴力搜素之外,我们可以考虑先对该集合中的元素按照字典序进行排序,然后依次比较相邻的元素,找出其中的最长公共前缀即可。
代码如下:
首先构造一个后缀数组:
vector<string> suffixtree(string s){ vector<string> vs(s.length());//用vs来保存这些元素 for(int i = 0;i<s.length();i++){ //依次将后i个元素放入vs中 vs[i] = s.substr(s.length()-i-1,i+1); } //排序并返回 sort(vs.begin(),vs.end()); return vs; }
得到这个后缀数组之后,我们需要寻找其最长公共前缀,代码如下:
string longcom(vector<string> vs){ int maxLen = 0; string ret; for(int i = 0;i<vs.size()-1;i++){ string cur = vs[i]; string suf = vs[i+1]; int tlen = 0; //循环条件是尚未到达任意一个的末尾 for(int j = 0;j<min(cur.length(),suf.length());j++){ //如果发现有不匹配,立刻退出循环, //如果是第一个元素就不匹配,那么没有必要匹配下去 //如果是后面的元素不匹配,那么在上一次循环中已经设置了maxLen if(cur[j]!=suf[j]){ tlen = 0; break; } else if(cur[j]==suf[j]){ tlen++; } //更新maxLen if(maxLen<tlen){ maxLen =tlen; ret = suf.substr(0,maxLen); //cout<<ret<<endl; } } } return ret; }
那么我们可以知道,该返回值
ret就是该字符串的最长重复子串了。
相关文章推荐
- 求串s中出现的第一个最长重复子串及其位置
- KMP算法应用------求解一个字符串的最长重复子串
- 寻找一个字符串中最长的重复子串,如 abcdabc 最长重复串 是abc
- leetcode:Longest Substring Without Repeating Characters (寻找最长无重复字符的子串)
- 后缀数组应用4: 求不可重叠最长重复子串
- poj 3261 Milk Patterns 最长的出现最少k次的重复(可重叠)子串 后缀数组
- 【字符串问题】求一个字符串中重复出现的最长的子串
- poj1743 Musical Theme 后缀数组的应用(求最长不重叠重复子串)
- 【每天学点算法题10.17】寻找一个字符串中的最长重复子串
- 求一个串中出现的第一个最长重复子串
- 在一个字符串中寻找到最长重复子串(1)
- 求一个串中出现的第一个最长可重叠重复子串 [后缀数组解法]
- 寻找字符串s中第一个最长的重复子串及其位置
- 出现k次以上重复的最长子串 poj 3261
- KMP数组之应用之 最长重复子串的求取(不太好形容)
- 算法题目二:寻找最长重复子序列(4) 求给定字符串重复最长的子串
- poj 3882 后缀数组 求一个串至少出现k次的最长重复子串的长度
- 【寻找一个字符串中最长的重复子串】
- 字符串中重复出现的最长字串-后缀树思想
- 面试题35:寻找一个字符串中最长的重复子串