您的位置:首页 > 其它

BZOJ 3670 浅谈KMP算法的拓展应用

2017-07-30 09:42 246 查看


世界真的很大

KMP处理字符串的匹配问题是非常熟悉的

KMP算法很独特的地方在于其失配指针,nxt数组,这个在其他字符串处理算法中也有应用

深刻理解nxt数组的实际意义对题目有时会有很大帮助

nxt数组不光是失配位置而已

这道题好写好调

看题先:

description:

近日,园长发现动物园中好吃懒做的动物越来越多了。例如企鹅,只会卖萌向游客要吃的。为了整治动物园的不良风气,让动物们凭自己的真才实学向游客要吃的,园长决定开设算法班,让动物们学习算法。
某天,园长给动物们讲解KMP算法。
园长:“对于一个字符串S,它的长度为L。我们可以在O(L)的时间内,求出一个名为next的数组。有谁预习了next数组的含义吗?”
熊猫:“对于字符串S的前i 个字符构成的子串,既是它的后缀又是它的前缀的字符串中(它本身除外),最长的长度记作next[i]。”
园长:“非常好!那你能举个例子吗?”
熊猫:“例S为abcababc,则next[5]=2。因为S的前5个字符为abcab,ab既是它的后缀又是它的前缀,并且找不到一个更长的字符串满足这个性质。同理,还可得出next[1] = next[2] = next[3] = 0,next[4] = next[6] = 1,next[7] = 2,next[8] = 3。”
园长表扬了认真预习的熊猫同学。随后,他详细讲解了如何在O(L)的时间内求出next数组。
下课前,园长提出了一个问题:“KMP算法只能求出next数组。我现在希望求出一个更强大num 数组一一对于字符串S的前i个字符构成的子串,既是它的后缀同时又是它的前缀,并且该后缀与该前缀不重叠,将这种字符串的数量记作num[i]。例如S为aaaaa,则num[4] = 2。这是因为S的前4个字符为aaaa,其中a和aa都满足性质‘既是后缀又是前缀’,同时保证这个后缀与这个前缀不重叠。而aaa虽然满足性质‘既是后缀又是前缀’,但遗憾的是这个后缀与这个前缀重叠了,所以不能计算在内。同理,num[1] = 0,num[2] = num[3] = 1,num[5] = 2。”
最后,园长给出了奖励条件,第一个做对的同学奖励巧克力一盒。听了这句话,睡了一节课的企鹅立刻就醒过来了!但企鹅并不会做这道题,于是向参观动物园的你寻求帮助。你能否帮助企鹅写一个程序求出num 数组呢?
特别地,为了避免大量的输出,你不需要输出num[i]分别是多少,你只需要输出对1,000,000,007 取模的结果即可。


input

第1行仅包含一个正整数n ,表示测试数据的组数。随后n行,每行描述一组测试数据。每组测试数据仅含有一个字符串S,S的定义详见题目描述。数据保证S 中仅含小写字母。输入文件中不会包含多余的空行,行末不会存在多余的空格。


output

包含 n 行,每行描述一组测试数据的答案,答案的顺序应与输入数据的顺序保持一致。对于每组测试数据,仅需要输出一个整数,表示这组测试数据的答案对 1,000,000,007 取模的结果。输出文件中不应包含多余的空行。


首先题目化简:

给定一个长为L的字符串,求一个num数组,num[i]表示长度为i的前缀中字符串S’的数量,其中S‘既是该前缀的前缀也是该前缀的后缀,且|S’|*2<=i。为了方便输出,只用输出(num[i]+1)的乘积。

求得每一个前缀中满足条件的S’的数量,这个S’的条件是,S’既是整个字符串的前缀,又是当前前缀的后缀,就是说,字符串的当前位置,往前数S’个字符,和开头的S’个字符是一样的

这恰恰是nxt指针的实际意义,nxt[i]表示i往前数多少位和开头的多少位是一样的,也就是如果从i这个位置失配了,可以从哪里开始继续匹配

但是nxt[i]表示的是往前数的最长的长度,也就是失配时重新开始匹配的最远位置,而并不是“可以从多少个地方开始匹配”,而这个才是题目要求的NUM数组

现在开始重新分析这个num数组的性质,假设在i位置失配了,跳到nxt[i]的位置,那么1到nxt[i],i-nxt[i]到i,这两段就是完全一样的,nxt[i]位置往前数有多少个和开头的多少个是一样的,那么i往前数就有多少个和开头的多少个是一样的,这个值就是nxt[nxt[i]]

明朗了,对于一个i,一直往前跳nxt,能跳多少次,就是有多少不同的S’,这个可以当成KMP的一个性质来记

并且要使得S’ < i/2,记录次数,就是num数组

但是我们不可能对于每一个i都往前一直跳,这样的复杂度是O(n^2)的

考虑记录一个cnt数组,cnt[i]表示从i开始往前跳,还能跳多少次,这样就可以大大减少时间了,而这个预处理可以在求nxt数组时顺便完成,接下来再跑一遍就行了

完整代码:

#include<stdio.h>
#include<cstring>
using namespace std;
typedef long long dnt;

const dnt mod=1e9+7;

int m,T,nxt[1000010];
dnt ans=1,cnt[1000010];
char ss[1000010];

void init()
{
ans=1;
memset(nxt,0,sizeof(nxt));
memset(cnt,0,sizeof(cnt));
}

void calnxt(int flag)
{
int i=0,j=-1;
nxt[0]=-1;
while(i<m)
{
if(j==-1 || ss[i]==ss[j])
{
i++,j++;
if(flag)
{
while(j!=-1 && j*2>i)
j=nxt[j];
if(j!=-1 && i!=-1) ans=(ans*(cnt[j]+1))%mod;
}
else
{
cnt[i]=cnt[j]+1;
nxt[i]=j;
}
}
else
j=nxt[j];
}
}

int main()
{
scanf("%d",&T);
while(T--)
{
init();
scanf("%s",ss);
m=strlen(ss);
calnxt(0);
ans=1;
calnxt(1);
printf("%lld\n",ans);
}
return 0;
}
/*
Whoso pulleth out this sword from this stone and anvil is duly born King of all England
*/


嗯,就是这样
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: