您的位置：首页 > 其它

字符串相似度（编辑距离）

2015-09-01 14:44 447 查看

定义字符串的相似度有很多种度量，像前面说的最长公共子序列就是其中的一种，本节所说的“编辑距离”也算是一种，简单来说，编辑距离就是将两个字符串变成相同字符串所需要的最小操作次数。所需的操作可能有：

修改一个字符（如把“a”替换为“b”）
增加一个字符（如把“abdd”变为“aebdd”）
删除一个字符（如把“travelling”变为“traveling”）

例如，对于“abcdefg”和“abcdef”两个字符串来讲，可以通过增加/减少一个“g”的方式来达到目的。上面的两种方案，都仅需要一次操作。把这个操作所需要的次数定义为两个字符串的“编辑距离”。如何计算两个字符串的“编辑距离”？

鉴于DP自底向上求解子问题的性质，我们还是对字符串从后向前分析，这样寻找编辑距离的子问题比较直观，而且分解的子问题使得递归做备忘录变得容易理解，也使得自底向上实现时对状态转移矩阵的初始化更为简便易懂。

寻找子问题时，我们完全可以像分析最长公共子序列那样分析这个问题，我觉得它们是灰常相似的，都是“从后向前”看，假设有两个串X=abcdaex，Y=fdfax，它们的最后一个字符是相同的，只要计算X[1,…,6]=abcdae和Y[1,…,4]=fdfa的距离就可以了；但是如果两个串的最后一个字符不相同，那么就可以进行如下的操作来达到目的（xlen和ylen是X串和Y串的长度）：

一步操作之后，再计算X[1,…,xlen-1]和Y[1,…ylen]的距离。这个操作可以是删除X的最后一个字符，也可以是增加X串的最后一个字符到Y串的最后字符之后

一步操作之后，再计算X[1,…,xlen]和Y[1,…ylen-1]的距离。这个操作与情况1类似，反过来而已
一步操作之后，再计算X[1,…,xlen-1]和Y[1,…ylen-1]的距离。这个操作可以是修改X串的最后有一个字符为Y串的最后一个字符，后者修改Y的变为X的最后一个字符，使得二者相同。

注意：我们计算编辑距离，并不需要关心两个字符串相等之后是怎样的，也不需要具体采取了什么操作，只是需要知道操作次数就可以，所以经过上面的分析，我们就可以尝试写状态方程了，这个的初始状态就是当两个串的长度都为0，那么编辑距离就是0，所以与最长公共子序列一样，dp[i][j]中的i和j表示串X和Y的长度，其中，如果某一个串的长度为0，则编辑距离就是另一个串的长度，这很容易理解。状态转移方程为

dp[i][j] = 0 如果i=0 & j=0
dp[i][j] = xlen | ylen 如果j=0 | i=0
dp[i][j] = dp[i-1][j-1] 如果X[i-1] = Y[i-1]
dp[i][j] = 1 + min{ dp[i-1][j], dp[i][j-1], dp[i-1][j-1] } 如果X[i-1] != Y[i-1]

好，到这里问题就解决了一半，代码如下，本节给出了三种实现方式，第一种是根据分析给出的递归搜索方法；由于具有重叠子问题，所以第二种方法便是使用了备忘录的递归方法（注：分治与动态规划的重要区别就是分治递归不断产生新的子问题，没有重叠子问题；而DP则是在递归不断产生子问题的同时很多子问题是重复计算的，即重叠子问题）；第三种便是根据状态转移方程给出了自底向上的实现，这也是最符合DP性质的实现方式。

方法一：简单递归搜索：

/* 递归搜索 */
int calDistance1(char *ptrX, int xbeg, int xend, char *ptrY, int ybeg, int yend)
{
	if(xbeg > xend)
	{
		if(ybeg > yend)
			return 0;
		else
			return yend - ybeg + 1;
	}
	if(ybeg > yend)
	{
		if(xbeg > xend)
			return 0;
		else
			return xend - xbeg + 1;
	}
	if(ptrX[xend] == ptrY[yend])
	{
		return calDistance1(ptrX,xbeg,xend-1,ptrY,ybeg,yend-1);
	}else
	{
		int t1 = calDistance1(ptrX,xbeg,xend-1,ptrY,ybeg,yend);
		int t2 = calDistance1(ptrX,xbeg,xend,ptrY,ybeg,yend-1);
		int t3 = calDistance1(ptrX,xbeg,xend-1,ptrY,ybeg,yend-1);
		t1 = t1 < t2 ? t1 : t2;
		return (t1 < t3 ? t1 : t3) + 1;
	}
}

方法二：递归+备忘录：

/* 编辑距离
 * 设每个字符串长度不超过 30
*/

/* 存储子问题的解 i,j表示X，Y长度
 * dp[i][j]表示X[0-i)与Y[0-j)的编辑距离
*/
int dp[31][31];
/* 自顶向下 & 备忘录 */
int calDistance2(char *ptrX, int xbeg, int xend, char *ptrY, int ybeg, int yend)
{
	if(xend == 0)
	{
		if(yend == 0)
			return 0;
		else
			return yend - ybeg + 1;
	}
	if(yend == 0)
	{
		if(xend == 0)
			return 0;
		else
			return xend - xbeg + 1;
	}
	if(ptrX[xend-1] == ptrY[yend-1])
	{
		if(dp[xend-1][yend-1] == 0)
		{
			dp[xend-1][yend-1] = calDistance2(ptrX,xbeg,xend-1,ptrY,ybeg,yend-1);
		}
		return dp[xend-1][yend-1];
	}else
	{
		int t1, t2, t3;
		if(dp[xend-1][yend] == 0)
		{
			dp[xend-1][yend] = calDistance2(ptrX,xbeg,xend-1,ptrY,ybeg,yend);
		}
		t1 = dp[xend-1][yend];
		if(dp[xend][yend-1] == 0)
		{
			dp[xend][yend-1] = calDistance2(ptrX,xbeg,xend,ptrY,ybeg,yend-1);
		}
		t2 = dp[xend][yend-1];
		if(dp[xend-1][yend-1] == 0)
		{
			dp[xend-1][yend-1] = calDistance2(ptrX,xbeg,xend-1,ptrY,ybeg,yend-1);
		}
		t3 = dp[xend-1][yend-1];
		t1 = t1 < t2 ? t1 : t2;
		return (t1 < t3 ? t1 : t3) + 1;
	}
}

方法三：自底向上DP：

/* 编辑距离
 * 设每个字符串长度不超过 30
*/

/* 存储子问题的解 i,j表示X，Y长度
 * dp[i][j]表示X[0-i)与Y[0-j)的编辑距离
*/
int dp[31][31];
char X[31];
char Y[31];
/* 自底向上 DP */
int calDistance3(char *ptrX, int xlen, char *ptrY, int ylen)
{
	int i, j;
	for(i = 1; i <= xlen; ++i)
	{
		dp[i][0] = i;
	}
	for(j = 1; j <= ylen; ++j)
	{
		dp[0][j] = j;
	}
	for(i = 1; i <= xlen; ++i)
	{
		for(j = 1; j <= ylen; ++j)
		{
			if(ptrX[i-1] == ptrY[j-1])
			{
				dp[i][j] = dp[i-1][j-1];
			}else
			{
				int t1 = dp[i-1][j];
				t1 = t1 < dp[i][j-1] ? t1 :dp[i][j-1];
				t1 = t1 < dp[i-1][j-1] ? t1 : dp[i-1][j-1];
				dp[i][j] = t1 + 1;
			}
		}
	}
	return dp[xlen][ylen];
}

给出测试用例：

#include <iostream>
using namespace std;
void main()
{
	cin.getline(X,30);
	cin.getline(Y,30);

	int xlen = strlen(X);
	int ylen = strlen(Y);

	printf("%d\n",calDistance1(X,0,xlen-1,Y,0,ylen-1));
	//printf("%d\n",calDistance2(X,0,xlen,Y,0,ylen));
	printf("%d\n",calDistance3(X,xlen,Y,ylen));
}

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航