您的位置:首页 > 其它

模式匹配、KMP算法

2017-09-21 22:56 218 查看

简介

从目标串S中查找模式为T的子串的过程称为“模式匹配”。

简单的模式匹配

遍历主串的每一个字符直到出现目标子串为止,输出子串在主串中的起始位置。如果到最后也没有找到子串则输出0,表示主串中不含目标子串。

相对课本来说较易理解一些的CODE:

#include <stdio.h>
#include <string.h>
int main()
{
char s1[100],s2[100];
int i,j;
scanf("%s%s",s1,s2);
int l1=strlen(s1);
int l2=strlen(s2);
for(i=1;i<=l1;i++)
{
int t=i;
for(j=1;j<=l2;j++)
if(s1[t++]!=s2[j])
break;
if(j==l2)
{
printf("%d\n",t-l2);
return 0;
}
}
printf("0\n");
return 0;
}


KMP算法

假设文本是一个长度为l1的字符s1,模板是一个长度为l2的字符串s2,且l2<=l1。需要求出模板在文本中所有的匹配点i,即满足s1[i]=s2[0],s1[i+1]=s2[1],……,s1[l2-1]=s2[l2-1]的非负整数i,注意(字符串下标是从0开始的)

讲解

和普通的模式匹配比做了一些优化,文字说明课本上已经有了,如果看不明白,我们就通过例子解释一下:

普通:ababac和abac

1
ababac
abac
2
ababac
ab
3
ababac
abac


这时候我们就已经发现了一个可以优化的步骤

第一步中我们发现倒数第二个字符跟第一个字符相同,a b a c

那么我们下一次比较的时候就可以从文本中的第四个字符和模板中的第二个字符开始比较了,因为文本中第三个字符和模式串的第三个字符相等也就是和模式串中的第一个相等就不用再比了

1
ababac
abac
2
ababac
abac


所以我们先初始计算一下当某个字符与本文不符时,有多少字符不用比,也就是下文的Next函数

然后在进行遍历就可以省很多时间

next[i]中存一整数k,是s2中第i个元素之前的前k个字符与l2-k到l2个元素相同

next的求法,按照函数自己在纸上走一遍就知道怎么回事了

就走abcab这个例子

next的值为0 0 0 1 2

#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <iostream>
#include <algorithm>
#include <cmath>
using namespace std;
int Next(char* s2,int* next)
{
int l=strlen(s2);
next[0]=0;
next[1]=0;
for(int i=1;i<l;i++)
{
int j=next[i];
while(j&&s2[i]!=s2[j])
j=next[j];
next[i+1]=s2[i]==s2[j]?j+1:0;
}
}
int KMP(char* s1,char* s2,int* next)
{
int l1=strlen(s1);
int l2=strlen(s2);
Next(s2,next);
int i,j=0;
for(i=0;i<l1;i++)
{
while(j&&s2[j]!=s1[i])
j=next[j];
if(s2[j]==s1[i])
j++;
if(j==l2)
printf("%d\n",i-l2+1);;
}
}
int main()
{
int next[100];
char s1[100],s2[100];
int l1,l2;
scanf("%s%s",s1,s2);
l1=strlen(s1);
l2=strlen(s2);
KMP(s1,s2,next);
return 0;
}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  kmp 算法