您的位置:首页 > 编程语言 > Python开发

Python实现KMP算法

2015-01-29 12:40 295 查看
KMP算法是一种字符串匹配算法!

下面的程序利用kmp优化了字符串匹配功能相当于python中的str.find(sub)

KMP核心思想是:当匹配发生失败时,利用已经匹配串的信息来快速的移动匹配模板。

假设我们已经匹配了P(0,i),在匹配P(i+1)是失败!那么,我们需要移动匹配起点(已经匹配字符个数)-next(i)重新开始匹配。这里的next(i)是由前缀函数生成的。针对不同的匹配模板P,我们可以得到数组next。

next数组表示的是字符串P(0,i)的一个前缀最大长度,我们要求同时这个前缀又可以当作P(0,i)的后缀,想就像这样avaa.......avaa 那么这个next【i】=4

计算next数组的方式可以线性规划的方法

当我们计算next【i+1】时,

如果P【i+1】==P【next【i】】那么说明相对于之前的next【i】,扩张了一个avade.......avade,那么next【i+1】=next【i】+1

如果P【i+1】!=P【next【i】】那么next【i+1】必定是减小

比如avaae.......aavaa

那么新的next【i+1】应该在avaa中找P【k】==P【i+1】,k<next【i】

avaae.......aavaa

#coding:UTF-8
__author__ = 'LQ'

def nextval(P):
#字符的前缀函数
nt=[0]#nt[]表示P直到下标i的一个偏移(及P(nt[i]-1)是P(i)真前缀的同时也是他的后缀,nt[i]是其长度)
for i in range(1,len(P)):
if P[i]==P[nt[i-1]]:#新增的字符可以根据之前的前缀扩张,
k=nt[i-1]+1
else:               #新增的字符不能扩张前缀,因此在现有的前缀中找一个更小的前缀
k=nt[i-1]     #在P(nt[i-1]-1)内找一个小的前缀
while (P[i]!=P[k] and k!=0):
k=nt[nt[k-1]]
nt.append(k)
return nt

def KMP(st,P):
nt=nextval(P)
s,q,k=0,0,0#s,q是当前匹配位置,k是匹配开始位置,都是从0开始
while k<len(st):
q,s=0,k
while q<len(P) and P[q]==st[s]:
q+=1
s+=1
#发生失配或者匹配成功
if q==len(P) :return k
if q==0:k+=1#一个也没匹配上
else:k+=q-nt[q-1]#q是已经匹配的个数
return None
if __name__=="__main__":
sub='rerwbaca'
A="arerwbaca"
#使用find函数
print A.find(sub)
print KMP(A,sub)
顺便贴一个C语言的

#include<string.h>
#include<iostream>
#include<stdlib.h>
#define N 1000

void nextval(char *P,int* pi)
{
int len=strlen(P);
pi[0]=0;
int k;
for(int i=1;i<len;i++)
{
k=pi[i-1];//上一个字串的对称块的长度
if(P[i]==P[k])
pi[i]=pi[i-1]+1;//对称块扩张
else
{
//对称块必定是缩小的,利用递归来找到对称块大小
//并且这个小的对称块是在实在当前对称块的内部
while(k!=0)
{
//这里pi[]//事先全部初始化为0,所以即使找不到对称块也不用对他幅值
k=pi[k-1];
if(P[i]==P[k])
{
pi[i]=k+1;
break;
}
}
}
}
}

char* KMP(char *A,char *sub)
{
int len=strlen(A),sublen=strlen(sub);
int* pi=(int*)calloc(len,sizeof(int));
nextval(sub,pi);
int s=0,q=0,k=0;
while(k<len)
{
//k表示开始匹配的位置
for(s=k,q=0;sub[q]==A[s]&&q<sublen&&s<len;s++,q++);
if(q==sublen)
return A+k;//匹配成功
else
if(q==0)
k+=1;//一个也没匹配上
else
k+=q-pi[q-1];//匹配上q个,这里q是发生失配的下标
}
free(pi);
return NULL;
}

int main(int argc,char** argv)
{
char A[]="ababarerwbaca";
char sub
="rerwbaca";
printf("%s\n",strstr(A,sub));
printf("%s\n",KMP(A,sub));
system("pause");
return 0;
}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: