您的位置:首页 > 其它

经典算法教程:KMP字符串匹配算法

2018-01-31 20:46 495 查看
在文本S中找到模板P所处的位置,称为字符串匹配。如图所示



最经典的算法莫过于由Knuth、Morris和Pratt三人设计的线性时间算法,简称KMP算法。

1.原理解释

如图,假设有文本S,模板P,在start位置开始匹配。当start=0时,表示从文本S的第一个字符开始匹配。



假设逐个匹配到模板P中第j+1个字符时,S与P中的字符不相等,表示S与P中的前j个字符都相等。当j=0时,表示第一个字符就不相等。



再假设模板P[0:j]的子串中,前缀和后缀相同的最长长度为N,当N=0时,表示没有相同的前缀和后缀。

比如在字符串abcab中,前缀与后缀可以表示如下

长度前缀后缀
长度1aa
长度2abab
长度3abccab
长度4abcabcab
从表中可以看出,前缀与后缀相同的最长长度为2,所以N=2。

如图所示,绿色部分即为相同的前缀与后缀,且长度为N.



此时将模板P的前缀移动到前一次比较的后缀处。如下图所示



此时模板P的移动距离为x=j−Nx=j−N,等效于将文本S的startstart更新为start+j−Nstart+j−N.

所以关键就是求N,而N即为前缀和后缀相同的最长长度。

举个例子:假设模板P为abacdaba

j表示前j个字符匹配成功,N表示前j个字符中前缀和后缀相同的最长长度

j匹配成功N
0null0
1a0
2ab0
3aba1
4abac0
5abacd0
6abacda1
7abacdab2
8abacdaba3
上表列出了模板P中j与N的关系,明确了这些可以开始写代码了

2.代码分析

计算N的值

def calNext(p):
#p为模板串
n = len(p)
next = [0]*n                        #N即为next数组
for i in range(n):
for j in range(i):
if p[:i-j] == p[j+1:i+1]:   #找到相同前缀与后缀最长长度i-j
next[i] = i-j
break
return next


KMP算法

在求出N值后,KMP算法就十分简单了

def kmp(s, p):
#s文本串,p模板串
m, n = len(s), len(p)
Next = calNext(p)
start = 0
match_indexs = []
while start <= m - n:
i = 0
while(i < n and s[start+i] == p[i]):   #第i个位置匹配成功
i += 1
if i == n:
match_indexs.append(start)
start += max(i - Next[i-1], 1)      #start每次更新为start+i-N
if match_indexs:
print("match successed, the index is")
print(*match_indexs, sep='\n')
else:
print("match failed")


3.再分析N即next数组的求法

假设已经知道next[0],next[1],……,next[j-1],考虑如何求next[j]。

下图,假设next[j-1] = N



如果蓝色与红色相等,可以知道next[j] = N + 1

如果蓝色与红色不相等,在绿色区域内寻找是否存在前缀与后缀相同的子串,假设存在即图中黄色,再判断黄色片段后一个字符是否与第j个字符相等,如果相等,则黄色子串+1的长度即为next[j];如果不相等继续在黄色子串内找前缀与后缀相同的子串,重复上述步骤。



def calNext(p):
n = len(p)
next = [0]*n
for i in range(1,n):
k = next[i-1]
while p[k] != p[i] and k != 0:  #直到p[k] == p[i]退出循环
k = next[k-1]
if p[k] == p[i]:
next[i] = k + 1
return next
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息