您的位置:首页 > 其它

夕拾算法进阶篇:21)最长公共子串(DP+后缀数组)

2017-02-14 11:40 218 查看

动态规划

这里首先区分最长最长公共子序列和最长公共子串,子串要求是连续的,而序列不要求,在之前的博客中讨论过如果用DP来解决最长公共序列的问题,子串和子序列的解决方法类似。

令二维数组dp[i][j]表示字符串A的i号位和字符串B的j号位之前的最长公共子串,那么A[i]和B[j]可以分为2种情况:

(1)A[i]==B[j],说明字符串A与字符串B的最长公共子序列长度又增加了1位,即dp[i][j]=dp[i-1][j-1]+1

(2)若A[i]!=B[j],说明字符串A的i号位和字符串B的j号位之前的最长公共子串为0。即d[i][j]=0

根据上面的分析,很容易写出状态转移方面的代码:

                      dp[i][j]= (A[i]==B[j] ? d[i-1][j-1]+1:0)            (1<=i<=An,1<=j<=Bn)

 相应的代码如下:

#include <cstdio>
using namespace std;

const int M=1000+6;
int dp[M][M];
char str1[M],str2[M];

int main(){
int i,j;//从数组的下标1开始读取字符串
while(scanf("%s%s",str1+1,str2+1)!=EOF){
int max=-1;
for(i=1;str1[i];i++){
for(j=1;str2[j];j++){
if(str1[i]==str2[j]){
dp[i][j]=dp[i-1][j-1]+1;
if(max<dp[i][j]){ //保存最大的公共子串长度
max=dp[i][j];
}
}else{
dp[i][j]=0;
}
}
}
printf("%d\n",max);
}
}


因为dp[i][j]只与dp[i-1][j-1]有关,换句话说,第i行只与i-1行有关,因此可以把二维的dp数组换成一维的,但需要逆序枚举j,这和01背包的降维是一致的,dp[j]左边的给当前i行使用,dp[j]右边的给下一行使用。这样不仅优化了空间复杂度,而且还可以处理较长的字符串。修改后的代码如下:

#include <cstdio>
#include <cstring>
using namespace std;

const int M=100000+6;
int dp[M];
char str1[M],str2[M];

int main(){
int i,j,len1,len2,max;//从数组的下标1开始读取字符串
while(scanf("%s%s",str1+1,str2+1)!=EOF){
memset(dp,0,sizeof(dp));
max=-1; //注意求长度的为str的地址+1
len1=strlen(str1+1); len2=strlen(str2+1);
for(i=len1;i>=1;i--){ //str1和str2从末端开始比较
for(j=len2;j>=1;j--){
if(str1[i]==str2[j]){
dp[j]=dp[j-1]+1;
if(max<dp[j]){
max=dp[j];
}
}else{
dp[j]=0;
}
}
}
printf("%d\n",max);
}
}

后缀数组

动态规划的方法无论怎么优化时间复杂度都为O(n^2),而使用后缀数组可以最优可以让时间复杂度降到O(n)。

后缀数组可以算得上是处理字符串的利器,现在又成熟的模板代码,这里不详细介绍,以后有时间定专门研究下,感兴趣的同学可以参看09年罗穗骞大神的论文《后缀数组——处理字符串的有力工具》。

题意:判断给定的两个串中,最长的公共串。

思路:将它们合并为一个串,然后利用后缀数组求解。

首先是二倍增算法:时间复杂度为O(n*log(n))

#include <stdio.h>
#include <string.h>
#define max 1000010

int wa[max],wb[max],wv[max],ws[max];
int rank[max],height[max];
int sa[max],r[max];
char str[max*2];

int cmp(int *r,int a,int b,int l)
{
return r[a]==r&&r[a+l]==r[b+l];
}

void da(int *r,int *sa,int n,int m)
{
int i,j,p,*x=wa,*y=wb,*t;
for(i=0; i<m; i++) ws[i]=0;
for(i=0; i<n; i++) ws[x[i]=r[i]]++;
for(i=1; i<m; i++) ws[i]+=ws[i-1];
for(i=n-1; i>=0; i--) sa[--ws[x[i]]]=i;
for(p=1,j=1; p<n; j*=2,m=p)
{
for(p=0,i=n-j; i<n; i++) y[p++]=i;
for(i=0; i<n; i++) if(sa[i]>=j) y[p++]=sa[i]-j;
for(i=0; i<n; i++) wv[i]=x[y[i]];
for(i=0; i<m; i++) ws[i]=0;
for(i=0; i<n; i++) ws[wv[i]]++;
for(i=1; i<m; i++) ws[i]+=ws[i-1];
for(i=n-1; i>=0; i--)
sa[--ws[wv[i]]]=y[i];
for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1; i<n; i++ )
x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
}
}

void calheight(int *r,int *sa,int n)
{
int i,j,k=0;
for(i=1; i<=n; i++)
rank[sa[i]]=i;
for(i=0; i<n; height[rank[i++]]=k)
for(k?k--:0,j=sa[rank[i]-1]; r[i+k]==r[j+k]; k++);
}

int main()
{
while(scanf("%s",str)!=EOF)
{
int len=strlen(str);
int len1=len;
str[len]='9';
scanf("%s",str+len1+1);
len=strlen(str);
for(int i=0;i<len;i++)
r[i]=str[i];
r[len]=0;
da(r,sa,len,300);
calheight(r,sa,len);
int maxint=0;
for(int i=2; i<len; i++)
{
if(maxint<height[i])
{
if((sa[i]>len1&&sa[i-1]<len1)||(sa[i]<len1&&sa[i-1]>len1))
maxint=height[i];
}
}
printf("%d\n",maxint);
}
return 0;
}

[b]DC3算法的时间复杂度为:O(n)


#include <stdio.h>
#include <string.h>
#define N 4000010

#define F(x) x/3+(x%3==1? 0:tb)
#define G(x) x<tb? x*3+1:(x-tb)*3+2

int wa
,wb
,wv
,ws
,sa
,r
;
int height
,rank
;
char str[N*2];

int c0(int *r,int a,int b)
{
return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];
}

int c12(int k,int *r,int a,int b)
{
if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1);
else     return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];
}

void sort(int *r,int *a,int *b,int n,int m)
{
int i;
for(i=0;i<n;i++) wv[i]=r[a[i]];
for(i=0;i<m;i++) ws[i]=0;
for(i=0;i<n;i++) ws[wv[i]]++;
for(i=1;i<m;i++) ws[i]+=ws[i-1];
for(i=n-1;i>=0;i--) b[--ws[wv[i]]]=a[i];
}

void dc3(int *r,int *sa,int n,int m)
{
int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;
r
=r[n+1]=0;
for(i=0;i<n;i++) if(i%3!=0) wa[tbc++]=i;
sort(r+2,wa,wb,tbc,m);
sort(r+1,wb,wa,tbc,m);
sort(r,wa,wb,tbc,m);
for(p=1,rn[F(wb[0])]=0,i=1;i<tbc;i++)
rn[F(wb[i])]=c0(r,wb[i-1],wb[i])? p-1:p++;
if(p<tbc) dc3(rn,san,tbc,p);
else for(i=0;i<tbc;i++) san[rn[i]]=i;
for(i=0;i<tbc;i++) if(san[i]<tb) wb[ta++]=san[i]*3;
if(n%3==1) wb[ta++]=n-1;
sort(r,wb,wa,ta,m);
for(i=0;i<tbc;i++) wv[wb[i]=G(san[i])]=i;
for(i=0,j=0,p=0;i<ta&&j<tbc;p++)
sa[p]=c12(wb[j]%3,r,wa[i],wb[j])? wa[i++]:wb[j++];
for(;i<ta;p++) sa[p]=wa[i++];
for(;j<tbc;p++) sa[p]=wb[j++];
}

void calheight(int *r,int *sa,int n)
{
int i,j,k=0;
for(i=1; i<=n; i++)
rank[sa[i]]=i;
for(i=0; i<n; height[rank[i++]]=k)
for(k?k--:0,j=sa[rank[i]-1]; r[i+k]==r[j+k]; k++);
}

int main()
{
while(scanf("%s",str)!=EOF)
{
int len=strlen(str);
int len1=len;
str[len]='9';
scanf("%s",str+len1+1);
len=strlen(str);
for(int i=0;i<len;i++)
r[i]=str[i];
r[len]=0;           //注意最后一个元素尽量小,所以为0合适
dc3(r,sa,len,300);
calheight(r,sa,len);
int maxint=0;
for(int i=2; i<len; i++)
{
if(maxint<height[i])
{
if((sa[i]>len1&&sa[i-1]<len1)||(sa[i]<len1&&sa[i-1]>len1))
maxint=height[i];
}
}
printf("%d\n",maxint);
}
return 0;
}


参考:http://blog.csdn.net/acdreamers/article/details/8583796

题目来源:http://acm.hdu.edu.cn/showproblem.php?pid=1403
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐