经典算法教程:KMP字符串匹配算法
2018-01-31 20:46
495 查看
在文本S中找到模板P所处的位置,称为字符串匹配。如图所示
最经典的算法莫过于由Knuth、Morris和Pratt三人设计的线性时间算法,简称KMP算法。
1.原理解释
如图,假设有文本S,模板P,在start位置开始匹配。当start=0时,表示从文本S的第一个字符开始匹配。
假设逐个匹配到模板P中第j+1个字符时,S与P中的字符不相等,表示S与P中的前j个字符都相等。当j=0时,表示第一个字符就不相等。
再假设模板P[0:j]的子串中,前缀和后缀相同的最长长度为N,当N=0时,表示没有相同的前缀和后缀。
比如在字符串abcab中,前缀与后缀可以表示如下
从表中可以看出,前缀与后缀相同的最长长度为2,所以N=2。
如图所示,绿色部分即为相同的前缀与后缀,且长度为N.
此时将模板P的前缀移动到前一次比较的后缀处。如下图所示
此时模板P的移动距离为x=j−Nx=j−N,等效于将文本S的startstart更新为start+j−Nstart+j−N.
所以关键就是求N,而N即为前缀和后缀相同的最长长度。
举个例子:假设模板P为abacdaba
j表示前j个字符匹配成功,N表示前j个字符中前缀和后缀相同的最长长度
上表列出了模板P中j与N的关系,明确了这些可以开始写代码了
2.代码分析
计算N的值
KMP算法
在求出N值后,KMP算法就十分简单了
3.再分析N即next数组的求法
假设已经知道next[0],next[1],……,next[j-1],考虑如何求next[j]。
下图,假设next[j-1] = N
如果蓝色与红色相等,可以知道next[j] = N + 1
如果蓝色与红色不相等,在绿色区域内寻找是否存在前缀与后缀相同的子串,假设存在即图中黄色,再判断黄色片段后一个字符是否与第j个字符相等,如果相等,则黄色子串+1的长度即为next[j];如果不相等继续在黄色子串内找前缀与后缀相同的子串,重复上述步骤。
最经典的算法莫过于由Knuth、Morris和Pratt三人设计的线性时间算法,简称KMP算法。
1.原理解释
如图,假设有文本S,模板P,在start位置开始匹配。当start=0时,表示从文本S的第一个字符开始匹配。
假设逐个匹配到模板P中第j+1个字符时,S与P中的字符不相等,表示S与P中的前j个字符都相等。当j=0时,表示第一个字符就不相等。
再假设模板P[0:j]的子串中,前缀和后缀相同的最长长度为N,当N=0时,表示没有相同的前缀和后缀。
比如在字符串abcab中,前缀与后缀可以表示如下
长度 | 前缀 | 后缀 |
---|---|---|
长度1 | a | a |
长度2 | ab | ab |
长度3 | abc | cab |
长度4 | abca | bcab |
如图所示,绿色部分即为相同的前缀与后缀,且长度为N.
此时将模板P的前缀移动到前一次比较的后缀处。如下图所示
此时模板P的移动距离为x=j−Nx=j−N,等效于将文本S的startstart更新为start+j−Nstart+j−N.
所以关键就是求N,而N即为前缀和后缀相同的最长长度。
举个例子:假设模板P为abacdaba
j表示前j个字符匹配成功,N表示前j个字符中前缀和后缀相同的最长长度
j | 匹配成功 | N |
---|---|---|
0 | null | 0 |
1 | a | 0 |
2 | ab | 0 |
3 | aba | 1 |
4 | abac | 0 |
5 | abacd | 0 |
6 | abacda | 1 |
7 | abacdab | 2 |
8 | abacdaba | 3 |
2.代码分析
计算N的值
def calNext(p): #p为模板串 n = len(p) next = [0]*n #N即为next数组 for i in range(n): for j in range(i): if p[:i-j] == p[j+1:i+1]: #找到相同前缀与后缀最长长度i-j next[i] = i-j break return next
KMP算法
在求出N值后,KMP算法就十分简单了
def kmp(s, p): #s文本串,p模板串 m, n = len(s), len(p) Next = calNext(p) start = 0 match_indexs = [] while start <= m - n: i = 0 while(i < n and s[start+i] == p[i]): #第i个位置匹配成功 i += 1 if i == n: match_indexs.append(start) start += max(i - Next[i-1], 1) #start每次更新为start+i-N if match_indexs: print("match successed, the index is") print(*match_indexs, sep='\n') else: print("match failed")
3.再分析N即next数组的求法
假设已经知道next[0],next[1],……,next[j-1],考虑如何求next[j]。
下图,假设next[j-1] = N
如果蓝色与红色相等,可以知道next[j] = N + 1
如果蓝色与红色不相等,在绿色区域内寻找是否存在前缀与后缀相同的子串,假设存在即图中黄色,再判断黄色片段后一个字符是否与第j个字符相等,如果相等,则黄色子串+1的长度即为next[j];如果不相等继续在黄色子串内找前缀与后缀相同的子串,重复上述步骤。
def calNext(p): n = len(p) next = [0]*n for i in range(1,n): k = next[i-1] while p[k] != p[i] and k != 0: #直到p[k] == p[i]退出循环 k = next[k-1] if p[k] == p[i]: next[i] = k + 1 return next
相关文章推荐
- 查找算法(1)、经典算法(6):KMP字符串匹配算法
- 【经典算法】——KMP,深入讲解next数组的求解 【待研究】
- 【经典算法】——KMP,深入讲解next数组的求解
- 经典串匹配算法(KMP)解析
- 【经典算法】——KMP,深入讲解next数组的求解
- 【经典算法】——KMP,深入讲解next数组的求解
- 【经典算法】——KMP,深入讲解next数组的求解
- 【经典算法】——KMP,深入讲解next数组的求解
- 【算法】KMP经典算法,你真的懂了吗?
- 【经典算法】——KMP,深入讲解next数组的求解
- 【经典算法】——KMP,深入讲解next数组的求解
- 【经典算法】——KMP,深入讲解next数组的求解
- 【经典算法】——KMP,深入讲解next数组的求解
- 经典算法之KMP中next函数解析
- 【小算法】KMP字符串匹配算法实现
- 【经典算法】——KMP,深入讲解next数组的求解
- 【经典算法】——KMP,深入讲解next数组的求解
- kmp经典算法
- 【算法题】字符串匹配算法KMP
- 【经典算法】——KMP,深入讲解next数组的求解