您的位置:首页 > 其它

扩展KMP

2017-05-24 13:58 141 查看
扩展 KMP 算法

2017 年 03 月 12 日 • 阅读: 256 • 技术

前文已经介绍了经典的 KMP 算法,本文继续介绍 KMP 算法的扩展,即扩展 KMP 算法。

问题定义:给定两个字符串 S 和 T(长度分别为 n 和 m),下标从 0 开始,定义extend[i]等于S[i]…S[n-1]与 T 的最长相同前缀的长度,求出所有的extend[i]。举个例子,看下表:

i 0 1 2 3 4 5 6 7

S a a a a a b b b

extend[i] 5 4 3 2 1 0 0 0

T a a a a a c

为什么说这是 KMP 算法的扩展呢?显然,如果在 S 的某个位置 i 有extend[i]等于 m,则可知在 S 中找到了匹配串 T,并且匹配的首位置是 i。而且,扩展 KMP 算法可以找到 S 中所有 T 的匹配。接下来具体介绍下这个算法。

一:算法流程TOC

(1)

如上图,假设当前遍历到 S 串位置 i,即 extend[0]…extend[i-1] 这 i 个位置的值已经计算得到。算法在遍历过程中记录了匹配成功的字符的最远位置 p,及这次匹配的起始位置 a。相较于字符串 T 得出,S[a]…S[p] 等于 T[0]…T[p-a]。

再定义一个辅助数组int next[],其中next[i]含义为:T[i]…T[m-1]与 T 的最长相同前缀长度,m 为串 T 的长度。

(2)

椭圆的长度为next[i-a],对比 S 和 T,很容易发现,三个椭圆完全相同。如上图,此时i+next[i-a]

include

include

using namespace std;

/* 求解T中next[],注释参考GetExtend() */

void GetNext(string T, int next[])

{

int t_len = T.size();

next[0] = t_len;

int a;

int p;

for (int i = 1, j = -1; i < t_len; i++, j--)
{
if (j < 0 || i + next[i - a] >= p)
{
if (j < 0)
p = i, j = 0;

while (p < t_len&&T[p] == T[j])
p++, j++;

next[i] = j;
a = i;
}
else
next[i] = next[i - a];
}


}

/* 求解extend[] */

void GetExtend(string S, string T, int extend[], int next[])

{

GetNext(T, next); //得到next

int a;

int p; //记录匹配成功的字符的最远位置p,及起始位置a

int s_len = S.size();

int t_len = T.size();

for (int i = 0, j = -1; i < s_len; i++, j--)  //j即等于p与i的距离,其作用是判断i是否大于p(如果j<0,则i大于p)
{
if (j < 0 || i + next[i - a] >= p)  //i大于p(其实j最小只可以到-1,j<0的写法方便读者理解程序),
{                                   //或者可以继续比较(之所以使用大于等于而不用等于也是为了方便读者理解程序)
if (j < 0)
p = i, j = 0;  //如果i大于p

while (p < s_len&&j < t_len&&S[p] == T[j])
p++, j++;

extend[i] = j;
a = i;
}
else
extend[i] = next[i - a];
}


}

int main()

{

int next[100] = { 0 };

int extend[100] = { 0 };

string S = “aaaaabbb”;

string T = “aaaaac”;

GetExtend(S, T, extend, next);

//打印next和extend
cout << "next:    " << endl;
for (int i = 0; i < T.size(); i++)
cout << next[i] << " ";

cout << "\nextend:  " << endl;
for (int i = 0; i < S.size(); i++)
cout << extend[i] << " ";

cout << endl;
return 0;


}

三:时间复杂度TOC

对比 KMP 算法,很容易发现时间复杂度为 Θ(n+m)。

参考文献:

[1] NOALGO. 扩展 KMP 算法

[2] ACdreamer. 扩展 KMP 算法

—- 完 ヾ (^▽^*)))

下方可以给博主打赏哦☆⌒(*^- ゜)v THX!!

本作品采用知识共享署名 - 非商业性使用 - 禁止演绎 4.0 国际许可协议进行许可。

http://www.61mon.com/index.php/archives/186/
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: