您的位置:首页 > 其它

字符串相似度(编辑距离)

2015-09-01 14:44 447 查看

定义字符串的相似度有很多种度量,像前面说的最长公共子序列就是其中的一种,本节所说的“编辑距离”也算是一种,简单来说,编辑距离就是将两个字符串变成相同字符串所需要的最小操作次数。所需的操作可能有:

修改一个字符(如把“a”替换为“b”)
增加一个字符(如把“abdd”变为“aebdd”)
删除一个字符(如把“travelling”变为“traveling”)

例如,对于“abcdefg”和“abcdef”两个字符串来讲,可以通过增加/减少一个“g”的方式来达到目的。上面的两种方案,都仅需要一次操作。把这个操作所需要的次数定义为两个字符串的“编辑距离”。如何计算两个字符串的“编辑距离”?

鉴于DP自底向上求解子问题的性质,我们还是对字符串从后向前分析,这样寻找编辑距离的子问题比较直观,而且分解的子问题使得递归做备忘录变得容易理解,也使得自底向上实现时对状态转移矩阵的初始化更为简便易懂。

寻找子问题时,我们完全可以像分析最长公共子序列那样分析这个问题,我觉得它们是灰常相似的,都是“从后向前”看,假设有两个串X=abcdaex,Y=fdfax,它们的最后一个字符是相同的,只要计算X[1,…,6]=abcdae和Y[1,…,4]=fdfa的距离就可以了;但是如果两个串的最后一个字符不相同,那么就可以进行如下的操作来达到目的(xlen和ylen是X串和Y串的长度):

一步操作之后,再计算X[1,…,xlen-1]和Y[1,…ylen]的距离。这个操作可以是删除X的最后一个字符,也可以是增加X串的最后一个字符到Y串的最后字符之后

一步操作之后,再计算X[1,…,xlen]和Y[1,…ylen-1]的距离。这个操作与情况1类似,反过来而已
一步操作之后,再计算X[1,…,xlen-1]和Y[1,…ylen-1]的距离。这个操作可以是修改X串的最后有一个字符为Y串的最后一个字符,后者修改Y的变为X的最后一个字符,使得二者相同。

注意:我们计算编辑距离,并不需要关心两个字符串相等之后是怎样的,也不需要具体采取了什么操作,只是需要知道操作次数就可以,所以经过上面的分析,我们就可以尝试写状态方程了,这个的初始状态就是当两个串的长度都为0,那么编辑距离就是0,所以与最长公共子序列一样,dp[i][j]中的i和j表示串X和Y的长度,其中,如果某一个串的长度为0,则编辑距离就是另一个串的长度,这很容易理解。状态转移方程为

dp[i][j] = 0 如果i=0 & j=0
dp[i][j] = xlen | ylen 如果j=0 | i=0
dp[i][j] = dp[i-1][j-1] 如果X[i-1] = Y[i-1]
dp[i][j] = 1 + min{ dp[i-1][j], dp[i][j-1], dp[i-1][j-1] } 如果X[i-1] != Y[i-1]

好,到这里问题就解决了一半,代码如下,本节给出了三种实现方式,第一种是根据分析给出的递归搜索方法;由于具有重叠子问题,所以第二种方法便是使用了备忘录的递归方法(注:分治与动态规划的重要区别就是分治递归不断产生新的子问题,没有重叠子问题;而DP则是在递归不断产生子问题的同时很多子问题是重复计算的,即重叠子问题);第三种便是根据状态转移方程给出了自底向上的实现,这也是最符合DP性质的实现方式。

方法一:简单递归搜索:

/* 递归搜索 */
int calDistance1(char *ptrX, int xbeg, int xend, char *ptrY, int ybeg, int yend)
{
	if(xbeg > xend)
	{
		if(ybeg > yend)
			return 0;
		else
			return yend - ybeg + 1;
	}
	if(ybeg > yend)
	{
		if(xbeg > xend)
			return 0;
		else
			return xend - xbeg + 1;
	}
	if(ptrX[xend] == ptrY[yend])
	{
		return calDistance1(ptrX,xbeg,xend-1,ptrY,ybeg,yend-1);
	}else
	{
		int t1 = calDistance1(ptrX,xbeg,xend-1,ptrY,ybeg,yend);
		int t2 = calDistance1(ptrX,xbeg,xend,ptrY,ybeg,yend-1);
		int t3 = calDistance1(ptrX,xbeg,xend-1,ptrY,ybeg,yend-1);
		t1 = t1 < t2 ? t1 : t2;
		return (t1 < t3 ? t1 : t3) + 1;
	}
}

方法二:递归+备忘录:

/* 编辑距离
 * 设每个字符串长度不超过 30
*/

/* 存储子问题的解 i,j表示X,Y长度
 * dp[i][j]表示X[0-i)与Y[0-j)的编辑距离
*/
int dp[31][31];
/* 自顶向下 & 备忘录 */
int calDistance2(char *ptrX, int xbeg, int xend, char *ptrY, int ybeg, int yend)
{
	if(xend == 0)
	{
		if(yend == 0)
			return 0;
		else
			return yend - ybeg + 1;
	}
	if(yend == 0)
	{
		if(xend == 0)
			return 0;
		else
			return xend - xbeg + 1;
	}
	if(ptrX[xend-1] == ptrY[yend-1])
	{
		if(dp[xend-1][yend-1] == 0)
		{
			dp[xend-1][yend-1] = calDistance2(ptrX,xbeg,xend-1,ptrY,ybeg,yend-1);
		}
		return dp[xend-1][yend-1];
	}else
	{
		int t1, t2, t3;
		if(dp[xend-1][yend] == 0)
		{
			dp[xend-1][yend] = calDistance2(ptrX,xbeg,xend-1,ptrY,ybeg,yend);
		}
		t1 = dp[xend-1][yend];
		if(dp[xend][yend-1] == 0)
		{
			dp[xend][yend-1] = calDistance2(ptrX,xbeg,xend,ptrY,ybeg,yend-1);
		}
		t2 = dp[xend][yend-1];
		if(dp[xend-1][yend-1] == 0)
		{
			dp[xend-1][yend-1] = calDistance2(ptrX,xbeg,xend-1,ptrY,ybeg,yend-1);
		}
		t3 = dp[xend-1][yend-1];
		t1 = t1 < t2 ? t1 : t2;
		return (t1 < t3 ? t1 : t3) + 1;
	}
}

方法三:自底向上DP:

/* 编辑距离
 * 设每个字符串长度不超过 30
*/

/* 存储子问题的解 i,j表示X,Y长度
 * dp[i][j]表示X[0-i)与Y[0-j)的编辑距离
*/
int dp[31][31];
char X[31];
char Y[31];
/* 自底向上 DP */
int calDistance3(char *ptrX, int xlen, char *ptrY, int ylen)
{
	int i, j;
	for(i = 1; i <= xlen; ++i)
	{
		dp[i][0] = i;
	}
	for(j = 1; j <= ylen; ++j)
	{
		dp[0][j] = j;
	}
	for(i = 1; i <= xlen; ++i)
	{
		for(j = 1; j <= ylen; ++j)
		{
			if(ptrX[i-1] == ptrY[j-1])
			{
				dp[i][j] = dp[i-1][j-1];
			}else
			{
				int t1 = dp[i-1][j];
				t1 = t1 < dp[i][j-1] ? t1 :dp[i][j-1];
				t1 = t1 < dp[i-1][j-1] ? t1 : dp[i-1][j-1];
				dp[i][j] = t1 + 1;
			}
		}
	}
	return dp[xlen][ylen];
}

给出测试用例:

#include <iostream>
using namespace std;
void main()
{
	cin.getline(X,30);
	cin.getline(Y,30);

	int xlen = strlen(X);
	int ylen = strlen(Y);

	printf("%d\n",calDistance1(X,0,xlen-1,Y,0,ylen-1));
	//printf("%d\n",calDistance2(X,0,xlen,Y,0,ylen));
	printf("%d\n",calDistance3(X,xlen,Y,ylen));
}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: