您的位置:首页 > 其它

Levenshtein距离(编辑距离)

2011-01-17 15:31 141 查看
编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

我们对字符可能进行的操作有三种:删除、插入、替换

d[i, j] := 最小值(
d[i-1, j  ] + 1,     // 刪除
d[i  , j-1] + 1,     // 插入
d[i-1, j-1] + cost   // 替換
)


#coding=utf_8_decode
def word_distance(m,n):
c=[[i] for i in range(0,len(m)+1) ]
c[0]=[j for j in range(0,len(n)+1)]
for i in range(len(m)):
for j in range(len(n)):
c[i+1].append(
min(
c[i][j+1]+1,# 插入n[j]
c[i+1][j]+1,# 删除m[j]
c[i][j] + (0 if m[i]==n[j] else 1 )#改
)
)
return c[-1][-1]
print word_distance("pennsylvania","pencilvaneya")
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: