动态规划求解编辑距离问题
2013-08-07 20:16
459 查看
编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
例如将kitten一字转成sitting:
sitten (k→s)
sittin (e→i)
sitting (→g)
俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。
应用:
DNA分析
拼字检查
语音辨识
抄袭侦测
相似度计算
动态规划经常被用来作为这个问题的解决手段之一。
整数 Levenshtein距离(字符串 str1[1..m], 字符串 str2[1..n])
//声明变量, d[i , j]用于记录str1[1...i]与str2[1..j]的Levenshtein距离
int d[0..m, 0..n]
//初始化
for i from 0 to m
d[i, 0] := i
for j from 0 to n
d[0, j] := j
//用动态规划方法计算Levenshtein距离
for i from 1 to m
for j from 1 to n
{
//计算替换操作的代价,如果两个字符相同,则替换操作代价为0,否则为1
if str1[i]== str2[j] then cost := 0
else cost := 1
//d[i,j]的Levenshtein距离,可以有
d[i, j] := minimum(
d[i-1, j] + 1, //在str1上i位置删除字符(或者在str2上j-1位置插入字符)
d[i, j-1] + 1, //在str1上i-1位置插入字符(或者在str2上j位置删除字符)
d[i-1, j-1] + cost // 替换操作
)
}
//返回d[m, n]
return d[m, n]
wikisource上有不同的编程语言的版本。
源代码:
例如将kitten一字转成sitting:
sitten (k→s)
sittin (e→i)
sitting (→g)
俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。
应用:
DNA分析
拼字检查
语音辨识
抄袭侦测
相似度计算
动态规划经常被用来作为这个问题的解决手段之一。
整数 Levenshtein距离(字符串 str1[1..m], 字符串 str2[1..n])
//声明变量, d[i , j]用于记录str1[1...i]与str2[1..j]的Levenshtein距离
int d[0..m, 0..n]
//初始化
for i from 0 to m
d[i, 0] := i
for j from 0 to n
d[0, j] := j
//用动态规划方法计算Levenshtein距离
for i from 1 to m
for j from 1 to n
{
//计算替换操作的代价,如果两个字符相同,则替换操作代价为0,否则为1
if str1[i]== str2[j] then cost := 0
else cost := 1
//d[i,j]的Levenshtein距离,可以有
d[i, j] := minimum(
d[i-1, j] + 1, //在str1上i位置删除字符(或者在str2上j-1位置插入字符)
d[i, j-1] + 1, //在str1上i-1位置插入字符(或者在str2上j位置删除字符)
d[i-1, j-1] + cost // 替换操作
)
}
//返回d[m, n]
return d[m, n]
wikisource上有不同的编程语言的版本。
源代码:
#include<stdio.h> #include<string.h> char s1[1000],s2[1000]; int min(int a,int b,int c) { int tmp=a<b?a:b; return tmp<c?tmp:c; } void editDistance(int len1,int len2) { int **d=new int*[len1+1]; for(int i=0;i<=len1;i++) d[i]=new int[len2+1]; int i,j; for(i=0;i<=len1;i++) d[i][0]=i; for(j=0;j<=len2;j++) d[0][j]=j; for(i=1;i<=len1;i++) { for(j=1;j<=len2;j++) { int cost=s1[i]==s2[j]?0:1; int deletion=d[i-1][j]+1; int insertion=d[i][j-1]+1; int substitution=d[i-1][j-1]+cost; d[i][j]=min(deletion,insertion,substitution); } } printf("距离为:%d\n",d[len1][len2]); for(int i=0;i<=len1;i++) { delete[] d[i]; } delete[] d; } int main() { while(scanf("%s%s",s1,s2)!=EOF) { editDistance(strlen(s1),strlen(s2)); } }
相关文章推荐
- 动态规划求解编辑距离问题
- 动态规划求解编辑距离问题
- 动态规划求解编辑距离问题(转)
- 动态规划求解编辑距离问题
- 算法_动态规划_编辑距离问题
- [动态规划]背包问题(找零/子集和/编辑距离)
- 51nod 编辑距离问题(动态规划)
- 【动态规划】序列连配问题:编辑距离
- 算法:编辑距离问题(动态规划)
- 编辑距离问题求解思路
- java--动态规划--编辑距离问题
- 编辑距离问题——动态规划
- 动态规划求解编辑距离
- DP-编辑距离问题
- 动态规划之编辑距离问题
- 《编程之美》- 3.3 - 计算字符串相似度 即 最小编辑距离问题
- POJ-3356 AGTC (最短编辑距离问题)
- 动态规划求解最长公共子序列问题
- 矩阵连乘问题-动态规划求解
- 动态规划 数塔问题求解 C++实现