夕拾算法进阶篇:21)最长公共子串(DP+后缀数组)
2017-02-14 11:40
218 查看
动态规划
这里首先区分最长最长公共子序列和最长公共子串,子串要求是连续的,而序列不要求,在之前的博客中讨论过如果用DP来解决最长公共序列的问题,子串和子序列的解决方法类似。令二维数组dp[i][j]表示字符串A的i号位和字符串B的j号位之前的最长公共子串,那么A[i]和B[j]可以分为2种情况:
(1)A[i]==B[j],说明字符串A与字符串B的最长公共子序列长度又增加了1位,即dp[i][j]=dp[i-1][j-1]+1
(2)若A[i]!=B[j],说明字符串A的i号位和字符串B的j号位之前的最长公共子串为0。即d[i][j]=0
根据上面的分析,很容易写出状态转移方面的代码:
dp[i][j]= (A[i]==B[j] ? d[i-1][j-1]+1:0) (1<=i<=An,1<=j<=Bn)
相应的代码如下:
#include <cstdio> using namespace std; const int M=1000+6; int dp[M][M]; char str1[M],str2[M]; int main(){ int i,j;//从数组的下标1开始读取字符串 while(scanf("%s%s",str1+1,str2+1)!=EOF){ int max=-1; for(i=1;str1[i];i++){ for(j=1;str2[j];j++){ if(str1[i]==str2[j]){ dp[i][j]=dp[i-1][j-1]+1; if(max<dp[i][j]){ //保存最大的公共子串长度 max=dp[i][j]; } }else{ dp[i][j]=0; } } } printf("%d\n",max); } }
因为dp[i][j]只与dp[i-1][j-1]有关,换句话说,第i行只与i-1行有关,因此可以把二维的dp数组换成一维的,但需要逆序枚举j,这和01背包的降维是一致的,dp[j]左边的给当前i行使用,dp[j]右边的给下一行使用。这样不仅优化了空间复杂度,而且还可以处理较长的字符串。修改后的代码如下:
#include <cstdio> #include <cstring> using namespace std; const int M=100000+6; int dp[M]; char str1[M],str2[M]; int main(){ int i,j,len1,len2,max;//从数组的下标1开始读取字符串 while(scanf("%s%s",str1+1,str2+1)!=EOF){ memset(dp,0,sizeof(dp)); max=-1; //注意求长度的为str的地址+1 len1=strlen(str1+1); len2=strlen(str2+1); for(i=len1;i>=1;i--){ //str1和str2从末端开始比较 for(j=len2;j>=1;j--){ if(str1[i]==str2[j]){ dp[j]=dp[j-1]+1; if(max<dp[j]){ max=dp[j]; } }else{ dp[j]=0; } } } printf("%d\n",max); } }
后缀数组
动态规划的方法无论怎么优化时间复杂度都为O(n^2),而使用后缀数组可以最优可以让时间复杂度降到O(n)。后缀数组可以算得上是处理字符串的利器,现在又成熟的模板代码,这里不详细介绍,以后有时间定专门研究下,感兴趣的同学可以参看09年罗穗骞大神的论文《后缀数组——处理字符串的有力工具》。
题意:判断给定的两个串中,最长的公共串。
思路:将它们合并为一个串,然后利用后缀数组求解。
首先是二倍增算法:时间复杂度为O(n*log(n))
#include <stdio.h> #include <string.h> #define max 1000010 int wa[max],wb[max],wv[max],ws[max]; int rank[max],height[max]; int sa[max],r[max]; char str[max*2]; int cmp(int *r,int a,int b,int l) { return r[a]==r&&r[a+l]==r[b+l]; } void da(int *r,int *sa,int n,int m) { int i,j,p,*x=wa,*y=wb,*t; for(i=0; i<m; i++) ws[i]=0; for(i=0; i<n; i++) ws[x[i]=r[i]]++; for(i=1; i<m; i++) ws[i]+=ws[i-1]; for(i=n-1; i>=0; i--) sa[--ws[x[i]]]=i; for(p=1,j=1; p<n; j*=2,m=p) { for(p=0,i=n-j; i<n; i++) y[p++]=i; for(i=0; i<n; i++) if(sa[i]>=j) y[p++]=sa[i]-j; for(i=0; i<n; i++) wv[i]=x[y[i]]; for(i=0; i<m; i++) ws[i]=0; for(i=0; i<n; i++) ws[wv[i]]++; for(i=1; i<m; i++) ws[i]+=ws[i-1]; for(i=n-1; i>=0; i--) sa[--ws[wv[i]]]=y[i]; for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1; i<n; i++ ) x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++; } } void calheight(int *r,int *sa,int n) { int i,j,k=0; for(i=1; i<=n; i++) rank[sa[i]]=i; for(i=0; i<n; height[rank[i++]]=k) for(k?k--:0,j=sa[rank[i]-1]; r[i+k]==r[j+k]; k++); } int main() { while(scanf("%s",str)!=EOF) { int len=strlen(str); int len1=len; str[len]='9'; scanf("%s",str+len1+1); len=strlen(str); for(int i=0;i<len;i++) r[i]=str[i]; r[len]=0; da(r,sa,len,300); calheight(r,sa,len); int maxint=0; for(int i=2; i<len; i++) { if(maxint<height[i]) { if((sa[i]>len1&&sa[i-1]<len1)||(sa[i]<len1&&sa[i-1]>len1)) maxint=height[i]; } } printf("%d\n",maxint); } return 0; }
[b]DC3算法的时间复杂度为:O(n)
#include <stdio.h> #include <string.h> #define N 4000010 #define F(x) x/3+(x%3==1? 0:tb) #define G(x) x<tb? x*3+1:(x-tb)*3+2 int wa ,wb ,wv ,ws ,sa ,r ; int height ,rank ; char str[N*2]; int c0(int *r,int a,int b) { return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2]; } int c12(int k,int *r,int a,int b) { if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1); else return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1]; } void sort(int *r,int *a,int *b,int n,int m) { int i; for(i=0;i<n;i++) wv[i]=r[a[i]]; for(i=0;i<m;i++) ws[i]=0; for(i=0;i<n;i++) ws[wv[i]]++; for(i=1;i<m;i++) ws[i]+=ws[i-1]; for(i=n-1;i>=0;i--) b[--ws[wv[i]]]=a[i]; } void dc3(int *r,int *sa,int n,int m) { int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p; r =r[n+1]=0; for(i=0;i<n;i++) if(i%3!=0) wa[tbc++]=i; sort(r+2,wa,wb,tbc,m); sort(r+1,wb,wa,tbc,m); sort(r,wa,wb,tbc,m); for(p=1,rn[F(wb[0])]=0,i=1;i<tbc;i++) rn[F(wb[i])]=c0(r,wb[i-1],wb[i])? p-1:p++; if(p<tbc) dc3(rn,san,tbc,p); else for(i=0;i<tbc;i++) san[rn[i]]=i; for(i=0;i<tbc;i++) if(san[i]<tb) wb[ta++]=san[i]*3; if(n%3==1) wb[ta++]=n-1; sort(r,wb,wa,ta,m); for(i=0;i<tbc;i++) wv[wb[i]=G(san[i])]=i; for(i=0,j=0,p=0;i<ta&&j<tbc;p++) sa[p]=c12(wb[j]%3,r,wa[i],wb[j])? wa[i++]:wb[j++]; for(;i<ta;p++) sa[p]=wa[i++]; for(;j<tbc;p++) sa[p]=wb[j++]; } void calheight(int *r,int *sa,int n) { int i,j,k=0; for(i=1; i<=n; i++) rank[sa[i]]=i; for(i=0; i<n; height[rank[i++]]=k) for(k?k--:0,j=sa[rank[i]-1]; r[i+k]==r[j+k]; k++); } int main() { while(scanf("%s",str)!=EOF) { int len=strlen(str); int len1=len; str[len]='9'; scanf("%s",str+len1+1); len=strlen(str); for(int i=0;i<len;i++) r[i]=str[i]; r[len]=0; //注意最后一个元素尽量小,所以为0合适 dc3(r,sa,len,300); calheight(r,sa,len); int maxint=0; for(int i=2; i<len; i++) { if(maxint<height[i]) { if((sa[i]>len1&&sa[i-1]<len1)||(sa[i]<len1&&sa[i-1]>len1)) maxint=height[i]; } } printf("%d\n",maxint); } return 0; }
参考:http://blog.csdn.net/acdreamers/article/details/8583796
题目来源:http://acm.hdu.edu.cn/showproblem.php?pid=1403
相关文章推荐
- 数组字符串那些经典算法:最大子序列和,最长递增子序列,最长公共子串,最长公共子序列,字符串编辑距离,最长不重复子串,最长回文子串 (转)
- 【算法之动态规划(三)】动态规划算法之:最长公共子序列 & 最长公共子串(LCS),字符串相似度算法
- 算法导论—最长公共子串
- LCS算法求最长公共子串
- 数组字符串那些经典算法:最大子序列和,最长递增子序列,最长公共子串,最长公共子序列,字符串编辑距离,最长不重复子串,最长回文子串
- lcs.py 最长公共子串算法
- LCS/最长公共子串算法分析
- 算法作业6 动态规划 - 最长公共子串问题
- 求最长公共子串问题的算法分析--《计算机仿真》2007年12期
- 最长公共子串算法
- 数组字符串那些经典算法:最大子序列和,最长递增子序列,最长公共子串,最长公共子序列,字符串编辑距离,最长不重复子串,最长回文子串
- 算法题9 动态规划之最长公共子序列&amp;最长公共子串
- 【算法题】最长公共子串
- 程序员面试题精选100题-最长公共子串[算法]
- LCS 最长公共子串算法实现 C#
- 找工作知识储备---数组字符串那些经典算法:最大子序列和,最长递增子序列,最长公共子串,最长公共子序列,字符串编辑距离,最长不重复子串,最长回文子串
- LCS算法找出两个字符串最长公共子串(C#实现)
- 最长公共子串[算法]
- 最长连续公共子串算法
- 左神算法 最长公共子串 最长上升子序列