最长公共子序列问题(LCS)
2014-08-04 16:36
148 查看
最长公共子序列问题(LCS)
【问题】求两字符序列的最长公共字符子序列
问题描述:字符序列的子序列是指从给定字符序列中随意地(不一定连续)去掉若干个字符(可能一个也不去掉)后所形成的字符序列。令给定的字符序列X=“x0,x1,…,xm-1”,序列Y=“y0,y1,…,yk-1”是X的子序列,存在X的一个严格递增下标序列<i0,i1,…,ik-1>,使得对所有的j=0,1,…,k-1,有xij=yj。例如,X=“ABCBDAB”,Y=“BCDB”是X的一个子序列。
思路:
考虑最长公共子序列问题如何分解成子问题,设A=“a0,a1,…,am-1”,B=“b0,b1,…,bm-1”,并Z=“z0,z1,…,zk-1”为它们的最长公共子序列。不难证明有以下性质:
(1)如果am-1=bn-1,则zk-1=am-1=bn-1,且“z0,z1,…,zk-2”是“a0,a1,…,am-2”和“b0,b1,…,bn-2”的一个最长公共子序列;
(2)如果am-1!=bn-1,则若zk-1!=am-1,蕴涵“z0,z1,…,zk-1”是“a0,a1,…,am-2”和“b0,b1,…,bn-1”的一个最长公共子序列;
(3)如果am-1!=bn-1,则若zk-1!=bn-1,蕴涵“z0,z1,…,zk-1”是“a0,a1,…,am-1”和“b0,b1,…,bn-2”的一个最长公共子序列。
这样,在找A和B的公共子序列时,如有am-1=bn-1,则进一步解决一个子问题,找“a0,a1,…,am-2”和“b0,b1,…,bm-2”的一个最长公共子序列;如果am-1!=bn-1,则要解决两个子问题,找出“a0,a1,…,am-2”和“b0,b1,…,bn-1”的一个最长公共子序列和找出“a0,a1,…,am-1”和“b0,b1,…,bn-2”的一个最长公共子序列,再取两者中较长者作为A和B的最长公共子序列。
求解:
引进一个二维数组c[][],用c[i][j]记录X[i]与Y[j] 的LCS 的长度,b[i][j]记录c[i][j]是通过哪一个子问题的值求得的,以决定搜索的方向。
我们是自底向上进行递推计算,那么在计算c[i,j]之前,c[i-1][j-1],c[i-1][j]与c[i][j-1]均已计算出来。此时我们根据X[i] = Y[j]还是X[i] != Y[j],就可以计算出c[i][j]。
问题的递归式写成:
![](http://p.blog.csdn.net/images/p_blog_csdn_net/hhygcy/EntryImages/20090302/lcs_1.PNG)
回溯输出最长公共子序列过程:
![](http://p.blog.csdn.net/images/p_blog_csdn_net/hhygcy/EntryImages/20090302/lcs_2.PNG)
算法分析:
由于每次调用至少向上或向左(或向上向左同时)移动一步,故最多调用(m + n)次就会遇到i = 0或j = 0的情况,此时开始返回。返回时与递归调用时方向相反,步数相同,故算法时间复杂度为Θ(m + n)。
输出结果为:A B C B (倒序输出的),应该存储起来倒序输出
附递归写法代码:
附动态规划写法代码:
最长公共子串和最长公共子序列的区别。
最长公共子串(Longest Common Substirng)和最长公共子序列(Longest
Common Subsequence,LCS)的区别为:子串是串的一个连续的部分,子序列则是从不改变序列的顺序,而从序列中去掉任意的元素而获得新的序列;
也就是说,子串中字符的位置必须是连续的,子序列则可以不必连续。
子序列(subsequence)的概念不同于串的子串。它是一个不一定连续但按顺序取自字符串X中的字符序列。
n例如:串"AAAG"就是串“CGATAATTGAGA”的一个子序列。
【问题】求两字符序列的最长公共字符子序列
问题描述:字符序列的子序列是指从给定字符序列中随意地(不一定连续)去掉若干个字符(可能一个也不去掉)后所形成的字符序列。令给定的字符序列X=“x0,x1,…,xm-1”,序列Y=“y0,y1,…,yk-1”是X的子序列,存在X的一个严格递增下标序列<i0,i1,…,ik-1>,使得对所有的j=0,1,…,k-1,有xij=yj。例如,X=“ABCBDAB”,Y=“BCDB”是X的一个子序列。
思路:
考虑最长公共子序列问题如何分解成子问题,设A=“a0,a1,…,am-1”,B=“b0,b1,…,bm-1”,并Z=“z0,z1,…,zk-1”为它们的最长公共子序列。不难证明有以下性质:
(1)如果am-1=bn-1,则zk-1=am-1=bn-1,且“z0,z1,…,zk-2”是“a0,a1,…,am-2”和“b0,b1,…,bn-2”的一个最长公共子序列;
(2)如果am-1!=bn-1,则若zk-1!=am-1,蕴涵“z0,z1,…,zk-1”是“a0,a1,…,am-2”和“b0,b1,…,bn-1”的一个最长公共子序列;
(3)如果am-1!=bn-1,则若zk-1!=bn-1,蕴涵“z0,z1,…,zk-1”是“a0,a1,…,am-1”和“b0,b1,…,bn-2”的一个最长公共子序列。
这样,在找A和B的公共子序列时,如有am-1=bn-1,则进一步解决一个子问题,找“a0,a1,…,am-2”和“b0,b1,…,bm-2”的一个最长公共子序列;如果am-1!=bn-1,则要解决两个子问题,找出“a0,a1,…,am-2”和“b0,b1,…,bn-1”的一个最长公共子序列和找出“a0,a1,…,am-1”和“b0,b1,…,bn-2”的一个最长公共子序列,再取两者中较长者作为A和B的最长公共子序列。
求解:
引进一个二维数组c[][],用c[i][j]记录X[i]与Y[j] 的LCS 的长度,b[i][j]记录c[i][j]是通过哪一个子问题的值求得的,以决定搜索的方向。
我们是自底向上进行递推计算,那么在计算c[i,j]之前,c[i-1][j-1],c[i-1][j]与c[i][j-1]均已计算出来。此时我们根据X[i] = Y[j]还是X[i] != Y[j],就可以计算出c[i][j]。
问题的递归式写成:
回溯输出最长公共子序列过程:
算法分析:
由于每次调用至少向上或向左(或向上向左同时)移动一步,故最多调用(m + n)次就会遇到i = 0或j = 0的情况,此时开始返回。返回时与递归调用时方向相反,步数相同,故算法时间复杂度为Θ(m + n)。
#include <iostream> #include <string> using namespace std; int max(int a,int b) { return a >= b ? a : b ; } int main() { string str1 = "ABCBDAB"; string str2 = "BDCABA"; int x_len = str1.length(); int y_len = str2.length(); int arr[50][50] = {{0,0}}; int i = 0; int j = 0; for(i = 1; i <= x_len; i++) { for(j = 1; j <= y_len; j++) { if(str1[i - 1] == str2[j - 1]) { arr[i][j] = arr[i - 1][j - 1] + 1; } else { arr[i][j] = max(arr[i][j-1],arr[i-1][j]); } } } for(i = 0 ; i <= x_len; i++) { for( j = 0; j <= y_len; j++) { cout << arr[i][j] << " "; } cout << endl; } for(i = x_len, j = y_len; i >= 1 && j >= 1;) { if(str1[i - 1] == str2[j - 1]) { cout << str1[i - 1] << " ";//倒序打印的 i--; j--; } else { // if(arr[i][j -1] >= arr[i - 1][j])//打印:B A D B if(arr[i][j -1] > arr[i - 1][j]) //打印:A B C B { j--; } else { i--; } } } cout << endl; system("pause"); return 0; }
输出结果为:A B C B (倒序输出的),应该存储起来倒序输出
附递归写法代码:
/* 题目描述:递归方法求最长公共子序列的长度 采用技术:1)设有字符串a[0...n],b[0...m],下面就是递推公式。 当数组a和b对应位置字符相同时,则直接求解下一个位置; 当不同时取两种情况中的较大数值。 用递归的方法优点是编程简单,容易理解。缺点是效率不高, 有大量的重复执行递归调用,而且只能求出最大公共子序列的长度, 求不出具体的最大公共子序列。 开发者:geefine 开发日期:20140320 */ #include<stdio.h> #include<string.h> char a[30],b[30]; int lena,lenb; int LCS(int,int);///两个参数分别表示数组a的下标和数组b的下标 int main() { strcpy(a,"ABCBDAB"); strcpy(b,"BDCABA"); lena=strlen(a); lenb=strlen(b); printf("%d\n",LCS(0,0)); system("pause"); return 0; } int LCS(int i,int j) { if(i>=lena || j>=lenb) return 0; if(a[i]==b[j]) return 1+LCS(i+1,j+1); else return LCS(i+1,j)>LCS(i,j+1)? LCS(i+1,j):LCS(i,j+1); }
附动态规划写法代码:
/* 题目描述:动态规划求最长公共子序列的长度 采用技术:动态规划采用二维数组来标识中间计算结果,避免重复的计算来提高效率。 最长公共子序列的长度的动态规划方程 设有字符串a[0...n],b[0...m],下面就是递推公式。字符串a对应的是二维数组num的行, 字符串b对应的是二维数组num的列。 另外,采用二维数组flag来记录下标i和j的走向。 数字"1"表示,斜向下;数字"2"表示,水平向右;数字"3"表示,竖直向下。 这样便于以后的求解最长公共子序列。 开发者:geefine 开发日期:20140320 */ #include<stdio.h> #include<string.h> char a[500],b[500]; char num[501][501]; ///记录中间结果的数组 char flag[501][501]; ///标记数组,用于标识下标的走向,构造出公共子序列 void LCS(); ///动态规划求解 void getLCS(); ///采用倒推方式求最长公共子序列 int main() { int i; strcpy(a,"ABCBDAB"); strcpy(b,"BDCABA"); memset(num,0,sizeof(num)); memset(flag,0,sizeof(flag)); LCS(); printf("%d\n",num[strlen(a)][strlen(b)]); getLCS(); system("pause"); return 0; } void LCS() { int i,j; for(i=1;i<=strlen(a);i++) { for(j=1;j<=strlen(b);j++) { if(a[i-1]==b[j-1]) ///注意这里的下标是i-1与j-1 { num[i][j]=num[i-1][j-1]+1; flag[i][j]=1; ///斜向下标记 } else if(num[i][j-1]>num[i-1][j]) { num[i][j]=num[i][j-1]; flag[i][j]=2; ///向右标记 } else { num[i][j]=num[i-1][j]; flag[i][j]=3; ///向下标记 } } } } void getLCS() { char res[500]; int i=strlen(a); int j=strlen(b); int k=0; ///用于保存结果的数组标志位 while(i>0 && j>0) { if(flag[i][j]==1) ///如果是斜向下标记 { res[k]=a[i-1]; k++; i--; j--; } else if(flag[i][j]==2) ///如果是斜向右标记 j--; else if(flag[i][j]==3) ///如果是斜向下标记 i--; } for(i=k-1;i>=0;i--) printf("%c",res[i]); }
最长公共子串和最长公共子序列的区别。
最长公共子串(Longest Common Substirng)和最长公共子序列(Longest
Common Subsequence,LCS)的区别为:子串是串的一个连续的部分,子序列则是从不改变序列的顺序,而从序列中去掉任意的元素而获得新的序列;
也就是说,子串中字符的位置必须是连续的,子序列则可以不必连续。
子序列(subsequence)的概念不同于串的子串。它是一个不一定连续但按顺序取自字符串X中的字符序列。
n例如:串"AAAG"就是串“CGATAATTGAGA”的一个子序列。
相关文章推荐
- 三、动态规划算法解最长公共子序列LCS问题(2011.12.13重写)
- 程序员编程艺术第十一章:最长公共子序列(LCS)问题
- 最长公共子序列(LCS)问题(连续子序列)的三种解法
- 动态规划算法解最长公共子序列LCS问题
- 系列之五:最长公共子序列(LCS)问题(非连续子序列)的两种解法
- 三、动态规划算法解最长公共子序列LCS问题(2011.12.13重写)
- 算法系列之五:最长公共子序列(LCS)问题(非连续子序列)的两种解法
- 动态规划算法解最长公共子序列LCS问题
- 动态规划经典问题---最长公共子序列(LCS)
- 算法系列之五:最长公共子序列(LCS)问题(非连续子序列)的两种解法
- 程序员编程艺术第十一章:最长公共子序列(LCS)问题
- 最长公共子序列(LCS)问题
- 算法系列之五:最长公共子序列(LCS)问题(非连续子序列)的两种解法
- 最长公共子序列(LCS)问题
- 动态规划---LCS问题 最长公共子序列
- LCS最长公共子序列问题
- 程序员编程艺术第十一章:最长公共子序列(LCS)问题
- 最长公共子序列(LCS)问题(非连续子序列)的两种解法
- 最长公共子序列(LCS)问题
- 最长公共子序列(LCS)问题