Z-algorithm字符串匹配 算法小结
2018-02-05 22:40
246 查看
昨天学习了字符串匹配,一种新算法Z-algorithm,现作如下总结。
设想一个z数组,z[i]表示他的最长公共前缀即s[i]…s[i+z[i]].我们将其称之为i这个位置控制的范围,称为一个Z-box。我们定义l,r为右端点最靠右的Z-box的控制范围(即i和i+z[i])。下面进行分类讨论。
1.若i > r,则证明前面的所有Z-box和我们没有任何关联,我们无法利用,同时也证明i这个位置的Z-box一定是最靠右的,更新l=r=i,暴力匹配。
2.若i < r,则令k=i-l,因为i位于Z-box内,则我们知道s[l]…s[r]应该与s[0]..s[r-l]匹配,所以此处的k对应的是i∈[l,r]这个位置在前缀即[0,r-l]中的对应位置,故我们可以根据z[k]的数值来计算我们的z[i]。令z[i]=min(z[k],r-i+1).Z-box在这里会有两种可能。(1)包含。k这个位置控制的Z-box的右端点并没有超过[l,r]这个Z-box的右端点,直接令z[i]=z[k]。(2)超过。k这个位置控制的Z-box的右端点超过了超过了[l,r]对应的前缀。因为我们仅仅知道s[l]…s[r]与s[0]..s[r-l]匹配,后面的部分一概不知,所以我们令l=i,继续暴力匹配后面的长度,匹配完成后令z[i]=r-l即可。
题目大意:你要在一个串中找到“密码”,密码定义为既是前缀,也是后缀,同时在串中间出现过的子串。
思路:用到了字符串匹配。我们先预处理处z数组。如何保证前缀也是后缀呢?z[i]==n-i.直观理解上就是以这一位为开始的串有n-i位与前缀相同。显而易见这说的就是后缀和前缀相等。那如何保证这一个串在中间也出现过呢?遍历的过程中记录一个z[i]的最大值maxx,若这个maxx>=n-i,则说明前面至少出现过不短于他的一个和前缀相同的串。输出。
代码如下
题目大意:给你一个模式串和原串的长度,并且告诉你模式串再原串中出现的位置,求原串有几种可能。
思路: 计算出模式串的z数组待用。
读进来每一个位置,先判断答案是否可行。有两种可能:这个串和前一个串有重合或没有重合。没有重合我们就默认他可以放在这里。如果有重合怎么办呢?前面的z数组就可以派上用场了。计算出重合的长度吗,如果这段长度的后缀和前缀是完全匹配的,那么就可以,否则就是不合法的。
因为是计算方案数,所以我们需要找出没有被锁死的位置来计算总数,采用差分的方法,区间打上标记表示被占用过,最后加起来看看哪里的标记是0,计算26的乘方即可。
代码
题目大意:定义一种奇怪的二元组< char , int >,表示前一个字符连续出现了几次,用这种二元组表示出文本串和模式串。问在文本串中能够匹配多少次模式串。
思路:思路也很清奇。最初一看似乎无从下手,但是我们发现,其实这个串想要匹配的条件其实很苛刻。仔细一想,去掉头尾两个二元组的话,中间那些部分必须完全相等才能匹配。我们采用如下方式构造新串:将文本串(大串)接在去掉头尾两个二元组的模式串上,获取它的z数组。
然后我们就可以先找到能够匹配中间部分的位置,此时我们再单独比较头尾是否可行即可。
这种方法需要特判1,因为去掉头尾是无法看出长度为1的串的。。。
代码:
题目大意:给定一个文本串和多个模式串,问有多少个串能被拆分成恰好两段被匹配到。
思路:肯定是一个模式串一个模式串的分开做。对于每一个模式串,我们将文本串接在模式串后面,处理出新串的z数组。
再定义一个新数组pos[i]表示模式串长度为i的前缀最小被匹配到的位置。然后把模式串和文本串分别反过来,再次匹配,匹配到长度为len-i时判断是否合法即可。
代码:
算法大意
Z-algorithm是用于字符串匹配。定义z[i]表示以i开头的子串和原串的最长公共前缀。我们通过线性时间计算出整个串的z数组,从而进行一些字符串的相关操作,该算法等价于扩展KMP。如何操作
我们通过已知的串s和z[1]…z[i-1]来求z[i]。设想一个z数组,z[i]表示他的最长公共前缀即s[i]…s[i+z[i]].我们将其称之为i这个位置控制的范围,称为一个Z-box。我们定义l,r为右端点最靠右的Z-box的控制范围(即i和i+z[i])。下面进行分类讨论。
1.若i > r,则证明前面的所有Z-box和我们没有任何关联,我们无法利用,同时也证明i这个位置的Z-box一定是最靠右的,更新l=r=i,暴力匹配。
2.若i < r,则令k=i-l,因为i位于Z-box内,则我们知道s[l]…s[r]应该与s[0]..s[r-l]匹配,所以此处的k对应的是i∈[l,r]这个位置在前缀即[0,r-l]中的对应位置,故我们可以根据z[k]的数值来计算我们的z[i]。令z[i]=min(z[k],r-i+1).Z-box在这里会有两种可能。(1)包含。k这个位置控制的Z-box的右端点并没有超过[l,r]这个Z-box的右端点,直接令z[i]=z[k]。(2)超过。k这个位置控制的Z-box的右端点超过了超过了[l,r]对应的前缀。因为我们仅仅知道s[l]…s[r]与s[0]..s[r-l]匹配,后面的部分一概不知,所以我们令l=i,继续暴力匹配后面的长度,匹配完成后令z[i]=r-l即可。
复杂度
复杂度线性。不用太过严格证明,我们说说道理。不难看出r这个指针是单调递增的。证毕。代码实现
void get_z() { int l=0,r=0; for (int i=1;i<n;i++) { if (i>r) { l=i,r=i; while (r<n && s[r-l]==s[r]) r++; z[i]=r-l,r--; } else { int k=i-l; if (z[k]<r-i+1) z[i]=z[k]; else { l=i; while (r<n && s[r-l]==s[r]) r++; z[i]=r-l,r--; } } } }
算法应用
几道例题看看这个算法怎么用。Codeforces 126B Password
链接信手拈来题目大意:你要在一个串中找到“密码”,密码定义为既是前缀,也是后缀,同时在串中间出现过的子串。
思路:用到了字符串匹配。我们先预处理处z数组。如何保证前缀也是后缀呢?z[i]==n-i.直观理解上就是以这一位为开始的串有n-i位与前缀相同。显而易见这说的就是后缀和前缀相等。那如何保证这一个串在中间也出现过呢?遍历的过程中记录一个z[i]的最大值maxx,若这个maxx>=n-i,则说明前面至少出现过不短于他的一个和前缀相同的串。输出。
代码如下
#include<cstdio>
#include<cstring>
#include<string>
#include<algorithm>
#include<iostream>
#include<cmath>
#include<cstdlib>
#include<ctime>
#include<map>
#include<queue>
#include<vector>
#include<stack>
#include<set>
#define pa pair<int,int>
#define INF 0x3f3f3f3f
#define inf 0x3f
#define fi first
#define se second
#define mp make_pair
#define ll long long
#define ull unsigned long long
#define pb push_back
using namespace std;
inline ll read()
{
long long f=1,sum=0;
char c=getchar();
while (c<'0' || c>'9')
{
if (c=='-') f=-1;
c=getchar();
}
while (c>='0' && c<='9')
{
sum=sum*10+c-'0';
c=getchar();
}
return sum*f;
}
const int MAXN=1000010;
char s[MAXN];
int z[MAXN],n;
void get_z() { int l=0,r=0; for (int i=1;i<n;i++) { if (i>r) { l=i,r=i; while (r<n && s[r-l]==s[r]) r++; z[i]=r-l,r--; } else { int k=i-l; if (z[k]<r-i+1) z[i]=z[k]; else { l=i; while (r<n && s[r-l]==s[r]) r++; z[i]=r-l,r--; } } } }
int main()
{
scanf("%s",s);
n=strlen(s);
get_z();
int maxx=0,pos=0;
for (int i=1;i<n;i++)
{
if (z[i]==n-i && maxx>=n-i)
{
pos=i;
break;
}
maxx=max(maxx,z[i]);
}
if (!pos) printf
4000
("Just a legend");
else for (int i=0;i<n-pos;i++) putchar(s[i]);
return 0;
}
Codeforces 535D Tavas and Malekas
继续拈链接题目大意:给你一个模式串和原串的长度,并且告诉你模式串再原串中出现的位置,求原串有几种可能。
思路: 计算出模式串的z数组待用。
读进来每一个位置,先判断答案是否可行。有两种可能:这个串和前一个串有重合或没有重合。没有重合我们就默认他可以放在这里。如果有重合怎么办呢?前面的z数组就可以派上用场了。计算出重合的长度吗,如果这段长度的后缀和前缀是完全匹配的,那么就可以,否则就是不合法的。
因为是计算方案数,所以我们需要找出没有被锁死的位置来计算总数,采用差分的方法,区间打上标记表示被占用过,最后加起来看看哪里的标记是0,计算26的乘方即可。
代码
#include<cstdio> #include<cstring> #include<string> #include<algorithm> #include<iostream> #include<cmath> #include<cstdlib> #include<ctime> #include<map> #include<queue> #include<vector> #include<stack> #include<set> #define pa pair<int,int> #define INF 0x3f3f3f3f #define inf 0x3f #define fi first #define se second #define mp make_pair #define ll long long #define ull unsigned long long #define pb push_back using namespace std; inline ll read() { long long f=1,sum=0; char c=getchar(); while (c<'0' || c>'9') { if (c=='-') f=-1; c=getchar(); } while (c>='0' && c<='9') { sum=sum*10+c-'0'; c=getchar(); } return sum*f; } const int MAXN=1000010; const int Mod=1e9+7; char s[MAXN]; int z[MAXN],n,m,pos[MAXN],N; void get_z() { int l=0,r=0; for (int i=1;i<N;i++) { if (i>r) { l=i,r=i; while (r<N && s[r]==s[r-l]) r++; z[i]=r-l,r--; } else { int k=i-l; if (z[k]<r-i+1) z[i]=z[k]; else { l=i; while (r<N && s[r]==s[r-l]) r++; z[i]=r-l,r--; } } } } bool check(int x,int y) { if (x+n<=y) return true; return z[y-x]>=x+N-y; } int quickpow(int a,int b) { ll ans=1,x=a; while (b) { if (b&1) ans*=x; b/=2; x*=x; ans%=Mod,x%=Mod; } return (int)ans; } int a[MAXN]; int main() { scanf("%d%d",&n,&m); if (!m) { printf("%d",quickpow(26,n)); return 0; } scanf("%s",s); N=(int)strlen(s); get_z(); for (int i=1;i<=m;i++) { scanf("%d",&pos[i]); pos[i]--; } int tot=0; for (int i=1;i<m;i++) { if (check(pos[i],pos[i+1])) a[pos[i]]++,a[pos[i]+N]--; else { printf("0"); return 0; } } a[pos[m]]++,a[pos[m]+N]--; for (int i=0;i<n;i++) a[i]+=a[i-1]; for (int i=0;i<n;i++) if (!a[i]) tot++; printf("%d",quickpow(26,tot)); return 0; }
Codeforces 631D Messenger
链接又一次被拈过来了题目大意:定义一种奇怪的二元组< char , int >,表示前一个字符连续出现了几次,用这种二元组表示出文本串和模式串。问在文本串中能够匹配多少次模式串。
思路:思路也很清奇。最初一看似乎无从下手,但是我们发现,其实这个串想要匹配的条件其实很苛刻。仔细一想,去掉头尾两个二元组的话,中间那些部分必须完全相等才能匹配。我们采用如下方式构造新串:将文本串(大串)接在去掉头尾两个二元组的模式串上,获取它的z数组。
然后我们就可以先找到能够匹配中间部分的位置,此时我们再单独比较头尾是否可行即可。
这种方法需要特判1,因为去掉头尾是无法看出长度为1的串的。。。
代码:
#include<cstdio> #include<cstring> #include<string> #include<algorithm> #include<iostream> #include<cmath> #include<cstdlib> #include<ctime> #include<map> #include<queue> #include<vector> #include<stack> #include<set> #define pa pair<int,int> #define INF 0x3f3f3f3f #define inf 0x3f #define fi first #define se second #define mp make_pair #define ll long long #define ull unsigned long long #define pb push_back using namespace std; inline ll read() { long long f=1,sum=0; char c=getchar(); while (c<'0' || c>'9') { if (c=='-') f=-1; c=getchar(); } while (c>='0' && c<='9') { sum=sum*10+c-'0'; c=getchar(); } return sum*f; } const int MAXN=200010; int z[2*MAXN]; ll t1[MAXN],t2[MAXN]; char s1[MAXN],s2[MAXN],s[2*MAXN]; ll t[2*MAXN]; int main() { int n,m; char tmp[5],last='$'; scanf("%d%d",&n,&m); for (int i=1;i<=n;i++) { int x; scanf("%d",&t1[i]); scanf("%s",tmp); if (tmp[1]==last) i--,n--,t1[i]+=t1[i+1]; s1[i]=tmp[1]; last=tmp[1]; } last='$'; for (int i=1;i<=m;i++) { int x; scanf("%d",&t2[i]); scanf("%s",tmp); if (tmp[1]==last) i--,m--,t2[i]+=t2[i+1]; s2[i]=tmp[1]; last=tmp[1]; } if (m==1) { ll ans=0; for (int i=1;i<=n;i++) { if (s1[i]!=s2[1]) continue; if (t1[i]<t2[1]) continue; ans+=(t1[i]-t2[1]+1); } cout<<ans; return 0; } for (int i=2;i<m;i++) s[i-2]=s2[i],t[i-2]=t2[i]; for (int i=1;i<=n;i++) s[i+m-2]=s1[i],t[i+m-2]=t1[i]; int N=n+m-1; int l=0,r=0; for (int i=1;i<N;i++) { if (i>r) { l=i,r=i; while (r<N && t[r]==t[r-l] && s[r]==s[r-l]) r++; z[i]=r-l,r--; } else { int k=i-l; if (z[k]<r-i+1) z[i]=z[k]; else { l=i; while (r<N && t[r]==t[r-l] && s[r]==s[r-l]) r++; z[i]=r-l,r--; } } } int ans=0; for (int i=m-1;i<=m+n-2;i++) { if (z[i]!=m-2) continue; if (s[i-1]!=s2[1]) continue; if (s[i-2+m]!=s2[m]) continue; if (t[i-1]<t2[1]) continue; if (t[i-2+m]<t2[m]) continue; ans++; } cout<<ans; return 0; }
Codeforces 149E Martian Strings
链接啊链接题目大意:给定一个文本串和多个模式串,问有多少个串能被拆分成恰好两段被匹配到。
思路:肯定是一个模式串一个模式串的分开做。对于每一个模式串,我们将文本串接在模式串后面,处理出新串的z数组。
再定义一个新数组pos[i]表示模式串长度为i的前缀最小被匹配到的位置。然后把模式串和文本串分别反过来,再次匹配,匹配到长度为len-i时判断是否合法即可。
代码:
#include<cstdio> #include<cstring> #include<string> #include<algorithm> #include<iostream> #include<cmath> #include<cstdlib> #include<ctime> #include<map> #include<queue> #include<vector> #include<stack> #include<set> #define pa pair<int,int> #define INF 0x3f3f3f3f #define inf 0x3f #define fi first #define se second #define mp make_pair #define ll long long #define ull unsigned long long #define pb push_back using namespace std; inline ll read() { long long f=1,sum=0; char c=getchar(); while (c<'0' || c>'9') { if (c=='-') f=-1; c=getchar(); } while (c>='0' && c<='9') { sum=sum*10+c-'0'; c=getchar(); } return sum*f; } const int MAXN=200010; const int MAXM=1010; char s[MAXN],c[MAXN],S[MAXN]; int z[MAXN],N,pos[MAXM],n,len,tot; void get_z() { int l=0,r=0; for (int i=1;i<=n+len;i++) { if (i>r) { l=i,r=i; while (r<n+len && s[r]==s[r-l]) r++; z[i]=r-l,r--; } else { int k=i-l; if (z[k]<r-i+1) z[i]=z[k]; else { l=i; while (r<n+len && s[r]==s[r-l]) r++; z[i]=r-l,r--; } } if (i>len && z[i]) pos[z[i]]=min(pos[z[i]],i-len+z[i]-1); } } void get_Z() { int l=0,r=0; for (int i=1;i<=n+len;i++) { if (i>r) { l=i,r=i; while (r<n+len && S[r]==S[r-l]) r++; z[i]=r-l,r--; } else { int k=i-l; if (z[k]<r-i+1) z[i]=z[k]; else { l=i; while (r<n+len && S[r]==S[r-l]) r++; z[i]=r-l,r--; } } if (i>len) if (pos[len-z[i]]<=n+len-i-z[i]+1) {tot++;break;} } } int main() { scanf("%s",c); n=(int)strlen(c); int T; tot=0; scanf("%d",&T); while (T--) { memset(pos,inf,sizeof(pos)); scanf("%s",s); len=strlen(s); if (len<2) continue; for (int i=0;i<n;i++) s[i+len+1]=c[i]; for (int i=0;i<len;i++) S[i]=s[len-i-1]; for (int i=0;i<n;i++) S[i+len+1]=c[n-i-1]; S[len]='$',s[len]='$'; get_z(); for (int i=len-1;i>=1;i--) pos[i]=min(pos[i+1]-1,pos[i]); get_Z(); } cout<<tot; return 0; }
该算法的用法
大概就是字符串匹配吧。模式串+’$’+文本串是一个很好的选择。相关文章推荐
- 字符串匹配算法之Brute force algorithm
- 字符串匹配算法之Brute force algorithm
- 字符串匹配算法之"The Knuth-Morris-Pratt algorithm"
- 字符串匹配算法之Boyer-Moore-Horspool Algorithm
- [Algorithm] 字符串匹配算法——KMP算法
- 【算法】一种字符串匹配算法:z-algorithm
- 算法——字符串匹配之有限自动机算法
- 【算法分析】字符串匹配:BF、KMP算法
- 字符串匹配算法KMP实现
- 算法——字符串匹配之BM算法
- 3. 字符串匹配算法:朴素的匹配算法、KMP算法。
- 字符串匹配算法之BF(Brute-Force)算法
- 字符串匹配算法-KMP算法
- 字符串匹配算法之SimHash算法
- 算法 字符串匹配之朴素算法和KMP算法及JAVA代码实现
- 字符串匹配算法总结
- 字符串匹配算法 之 基于DFA(确定性有限自动机)
- 字符串匹配算法
- 【数据结构与算法】字符串匹配之BF&KMP算法
- 字符串匹配算法总结