Wannafly挑战赛11 D 白兔的字符串 (字符串hash)
2018-03-12 15:22
495 查看
点击打开链接
解析:
字符串hash就是进制表示,就是让每一个字母都有一个值,类似与二进制
例如 01011011 (二进制)-> 91 (十进制)
这样每一个二进制数都对应一个十进制数,且不会有两个二进制数对应一个十进制数的情况
这样到字符串的话,就将a-z字母每一个定义一个权值(0-26等等都可以,只要是连续的),进制选取的话根据你定义的权值选取,如果按我那样选取的话
就必须大于26,一般我们都会选233,等一些质数,这样你就可以把一串字符当成一个233进制数,只要在某一串的某一位上一个字母改变,那么整个串的值就会变,这样每一个字符串都唯一对应一个十进制的值,只要两个串不相等,那么他们的值就不一样。所以,我们就可以用通过两个串的值(十进制)是否相等,来判断两个串是否相等
因为字符串的长度可以很长,那么相应的值就会很大,这里我们就有两中方法来处理
1.将他们的值都取模点击打开链接
2.用unsigned long long 存值,因为unsigned long long 如果溢出的话会自动模上2^64点击打开链接
并且值得注意的话,字符串hash其实是包含一点玄学的因素在的,同一段代码交了5次,可能只有一次是过的,并且可能有些题目存在有两组数据%你的模数相等,那么就这个只能看天了。
字符串hash的查找的时间复杂度大概位O(m*f(i)) f(i)取决于你搜索值的算法,我这里测出来是unordered_set效率比较快,但这个东西太新了,有些编译器都根本编译不了他的头文件#include <unordered_set>
所以相对的unordered_map,二分也可以的
实现1:
实现1.2:二分(比较慢)
实现2:
#include <bits/stdc++.h>
#include <unordered_set>
using namespace std;
typedef unsigned long long ull;
#define rep(i,a,b) for(int i=a;i<=b;i++)
const ull base=233;
const int MAXN = 1e6+10;
ull has[MAXN*2];
ull f[MAXN],p[MAXN];
char str[MAXN];
unordered_set<ull> ms;
inline
4000
void init(){//处理hash值
p[0] = 1;
has[0] = 0;
int n = strlen(str + 1);
for(int i = 1; i <= n; i ++)p[i] =p[i-1] * base;
for(int i = 1; i <= n; i ++)has[i] = has[i - 1] * base + (str[i] - 'a');
}
inline ull get(int l, int r, ull g[]){//取出g里l - r里面的字符串的hash值
return g[r] - g[l - 1] * p[r - l + 1];
}
int main()
{
int t;
scanf("%s",str+1);
has[0]=0;
int le=strlen(str+1);
//for(int i=1;i<=le;i++)
init();
//for(int i=le+1;i<=2*le;i++)
rep(i,le+1,2*le)
{
has[i] = has[i - 1] * base + (str[i-le] - 'a');
}
//for(int i=1;i<=le;i++)
rep(i,1,le)
{
//has[i-1].first=getlr(has[i-1].first,has[i+le-1].first,gap1,MOD1);
has[i-1] = has[i+le-1]-has[i-1]*p[le];
//has[i-1].second=getlr(has[i-1].second,has[i+le-1].second,gap2,MOD2);
//ms.insert(has[i-1].first*100000000+has[i-1].second);
ms.insert(has[i-1]);
}
scanf("%d",&t);
while(t--)
{
scanf("%s",str+1);
int len_=strlen(str+1);
f[0]=0;
//for(int i=1;i<=len_;i++)
rep(i,1,len_)
{
f[i] = f[i - 1] * base + (str[i] - 'a');
}
int ans=0;
//for(int i=1;i<=len_;i++)
rep(i,1,len_-le+1)
{
f[i-1]= f[i+le-1] - f[i-1] * p[le];
//if(ms.count(f[i-1].first*100000000+f[i-1].second)) ans++;
if(ms.count(f[i-1])) ans++;
}
printf("%d\n",ans);
}
return 0;
}
解析:
字符串hash就是进制表示,就是让每一个字母都有一个值,类似与二进制
例如 01011011 (二进制)-> 91 (十进制)
这样每一个二进制数都对应一个十进制数,且不会有两个二进制数对应一个十进制数的情况
这样到字符串的话,就将a-z字母每一个定义一个权值(0-26等等都可以,只要是连续的),进制选取的话根据你定义的权值选取,如果按我那样选取的话
就必须大于26,一般我们都会选233,等一些质数,这样你就可以把一串字符当成一个233进制数,只要在某一串的某一位上一个字母改变,那么整个串的值就会变,这样每一个字符串都唯一对应一个十进制的值,只要两个串不相等,那么他们的值就不一样。所以,我们就可以用通过两个串的值(十进制)是否相等,来判断两个串是否相等
因为字符串的长度可以很长,那么相应的值就会很大,这里我们就有两中方法来处理
1.将他们的值都取模点击打开链接
2.用unsigned long long 存值,因为unsigned long long 如果溢出的话会自动模上2^64点击打开链接
并且值得注意的话,字符串hash其实是包含一点玄学的因素在的,同一段代码交了5次,可能只有一次是过的,并且可能有些题目存在有两组数据%你的模数相等,那么就这个只能看天了。
字符串hash的查找的时间复杂度大概位O(m*f(i)) f(i)取决于你搜索值的算法,我这里测出来是unordered_set效率比较快,但这个东西太新了,有些编译器都根本编译不了他的头文件#include <unordered_set>
所以相对的unordered_map,二分也可以的
实现1:
#include <bits/stdc++.h> #include <unordered_set> using namespace std; typedef long long int lli; #define MOD1 1000000007 #define MOD2 19260817 #define rep(i,a,b) for(int i=a;i<=b;i++) typedef pair<lli,lli> pii; const lli base=233; const int MAXN = 1e6+10; pii has[MAXN*2]; pii f[MAXN]; char str[MAXN]; unordered_set<lli> ms; inline lli getlr(lli l,lli r,lli gg,lli MOD) { return (r-((l*gg)%MOD)+MOD)%MOD; } int main() { int t; scanf("%s",str+1); has[0].first=has[0].second=0; int le=strlen(str+1); lli gap1=1,gap2=1; //for(int i=1;i<=le;i++) rep(i,1,le) { has[i].first=(has[i-1].first*base+str[i])%MOD1; has[i].second=(has[i-1].second*base+str[i])%MOD2; gap1=gap1*base%MOD1; gap2=gap2*base%MOD2; } //for(int i=le+1;i<=2*le;i++) rep(i,le+1,2*le) { has[i].first=(has[i-1].first*base+str[i-le])%MOD1; has[i].second=(has[i-1].second*base+str[i-le])%MOD2; } //for(int i=1;i<=le;i++) rep(i,1,le) { has[i-1].first=getlr(has[i-1].first,has[i+le-1].first,gap1,MOD1); //has[i-1].first=(has[i+le-1].first-((has[i-1].first*gap1)%MOD1)+MOD1)%MOD1; //has[i-1].second=(has[i+le-1].second-((has[i-1].second*gap2)%MOD2)+MOD2)%MOD2; has[i-1].second=getlr(has[i-1].second,has[i+le-1].second,gap2,MOD2); ms.insert(has[i-1].first*100000000+has[i-1].second); } scanf("%d",&t); while(t--) { scanf("%s",str+1); int len_=strlen(str+1); f[0].first=f[0].second=0; //for(int i=1;i<=len_;i++) rep(i,1,len_) { f[i].first=(f[i-1].first*base+str[i])%MOD1; f[i].second=(f[i-1].second*base+str[i])%MOD2; } int ans=0; //for(int i=1;i<=len_;i++) rep(i,1,len_-le+1) { //if(i+le-1>len_) break; f[i-1].first=getlr(f[i-1].first,f[i+le-1].first,gap1,MOD1); //f[i-1].first=(f[i+le-1].first-((f[i-1].first*gap1)%MOD1)+MOD1)%MOD1; f[i-1].second=getlr(f[i-1].second,f[i+le-1].second,gap2,MOD2); //f[i-1].second=(f[i+le-1].second-((f[i-1].second*gap2)%MOD2)+MOD2)%MOD2; if(ms.count(f[i-1].first*100000000+f[i-1].second)) ans++; } printf("%d\n",ans); } return 0; }
实现1.2:二分(比较慢)
#include <bits/stdc++.h> //#include <unordered_set> using namespace std; typedef long long int lli; #define MOD1 1000000007 #define MOD2 19260817 #define rep(i,a,b) for(int i=a;i<=b;i++) typedef pair<lli,lli> pii; const lli base=233; const int MAXN = 1e6+10; pii has[MAXN*2]; pii f[MAXN]; char str[MAXN]; //unordered_set<lli> ms; inline lli getlr(lli l,lli r,lli gg,lli MOD) { return (r-((l*gg)%MOD)+MOD)%MOD; } int judge(pii a,int l,int r) { while(l+1<r) { int mid=(l+r)>>1; if(has[mid]>a) r=mid; else if(has[mid]<a) l=mid+1; else return 1; } if(has[l]==a||has[r]==a) return 1; return 0; } int main() { int t; scanf("%s",str+1); has[0].first=has[0].second=0; int le=strlen(str+1); lli gap1=1,gap2=1; //for(int i=1;i<=le;i++) rep(i,1,le) { has[i].first=(has[i-1].first*base+str[i])%MOD1; has[i].second=(has[i-1].second*base+str[i])%MOD2; gap1=gap1*base%MOD1; gap2=gap2*base%MOD2; } //for(int i=le+1;i<=2*le;i++) rep(i,le+1,2*le) { has[i].first=(has[i-1].first*base+str[i-le])%MOD1; has[i].second=(has[i-1].second*base+str[i-le])%MOD2; } //for(int i=1;i<=le;i++) rep(i,1,le) { //has[i-1].first=getlr(has[i-1].first,has[i+le-1].first,gap1,MOD1); has[i-1].first=(has[i+le-1].first-((has[i-1].first*gap1)%MOD1)+MOD1)%MOD1; has[i-1].second=(has[i+le-1].second-((has[i-1].second*gap2)%MOD2)+MOD2)%MOD2; //has[i-1].second=getlr(has[i-1].second,has[i+le-1].second,gap2,MOD2); //ms.insert(has[i-1].first*100000000+has[i-1].second); } sort(has,has+le); scanf("%d",&t); while(t--) { scanf("%s",str+1); int len_=strlen(str+1); f[0].first=f[0].second=0; //for(int i=1;i<=len_;i++) rep(i,1,len_) { f[i].first=(f[i-1].first*base+str[i])%MOD1; f[i].second=(f[i-1].second*base+str[i])%MOD2; } int ans=0; //for(int i=1;i<=len_;i++) rep(i,1,len_-le+1) { //if(i+le-1>len_) break; //f[i-1].first=getlr(f[i-1].first,f[i+le-1].first,gap1,MOD1); f[i-1].first=(f[i+le-1].first-((f[i-1].first*gap1)%MOD1)+MOD1)%MOD1; //f[i-1].second=getlr(f[i-1].second,f[i+le-1].second,gap2,MOD2); f[i-1].second=(f[i+le-1].second-((f[i-1].second*gap2)%MOD2)+MOD2)%MOD2; //if(ms.count(f[i-1].first*100000000+f[i-1].second)) ans++; if(judge(f[i-1],0,le-1)) ans++; } printf("%d\n",ans); } return 0; }
实现2:
#include <bits/stdc++.h>
#include <unordered_set>
using namespace std;
typedef unsigned long long ull;
#define rep(i,a,b) for(int i=a;i<=b;i++)
const ull base=233;
const int MAXN = 1e6+10;
ull has[MAXN*2];
ull f[MAXN],p[MAXN];
char str[MAXN];
unordered_set<ull> ms;
inline
4000
void init(){//处理hash值
p[0] = 1;
has[0] = 0;
int n = strlen(str + 1);
for(int i = 1; i <= n; i ++)p[i] =p[i-1] * base;
for(int i = 1; i <= n; i ++)has[i] = has[i - 1] * base + (str[i] - 'a');
}
inline ull get(int l, int r, ull g[]){//取出g里l - r里面的字符串的hash值
return g[r] - g[l - 1] * p[r - l + 1];
}
int main()
{
int t;
scanf("%s",str+1);
has[0]=0;
int le=strlen(str+1);
//for(int i=1;i<=le;i++)
init();
//for(int i=le+1;i<=2*le;i++)
rep(i,le+1,2*le)
{
has[i] = has[i - 1] * base + (str[i-le] - 'a');
}
//for(int i=1;i<=le;i++)
rep(i,1,le)
{
//has[i-1].first=getlr(has[i-1].first,has[i+le-1].first,gap1,MOD1);
has[i-1] = has[i+le-1]-has[i-1]*p[le];
//has[i-1].second=getlr(has[i-1].second,has[i+le-1].second,gap2,MOD2);
//ms.insert(has[i-1].first*100000000+has[i-1].second);
ms.insert(has[i-1]);
}
scanf("%d",&t);
while(t--)
{
scanf("%s",str+1);
int len_=strlen(str+1);
f[0]=0;
//for(int i=1;i<=len_;i++)
rep(i,1,len_)
{
f[i] = f[i - 1] * base + (str[i] - 'a');
}
int ans=0;
//for(int i=1;i<=len_;i++)
rep(i,1,len_-le+1)
{
f[i-1]= f[i+le-1] - f[i-1] * p[le];
//if(ms.count(f[i-1].first*100000000+f[i-1].second)) ans++;
if(ms.count(f[i-1])) ans++;
}
printf("%d\n",ans);
}
return 0;
}
相关文章推荐
- Wannafly挑战赛11 D 白兔的字符串 [Hash]
- Wannafly挑战赛11_D_白兔的字符串(字符串hash)
- 【Wannafly挑战赛11】 A B【找规律+费马小定理】 D【字符串HASH】
- Wannafly挑战赛11 A B D【规律+逆元+字符串hash】
- wannafly挑战赛11----白兔的字符串
- Wannafly挑战赛11 D-白兔的字符串
- Wannafly挑战赛11 白兔的式子 (组合数取模)
- Wannafly挑战赛11 - 白兔的分身术
- Wannafly挑战赛11 B、白兔的式子
- Wannafly挑战赛11 B 白兔的式子【阶乘逆元 + 预处理 + 板子】
- Wannafly挑战赛11 白兔的式子
- Wannafly挑战赛11-C:白兔的棋盘(轮廓线DP)
- Wannafly挑战赛11 A-白兔的分身术
- Wannafly挑战赛11 B-白兔的式子
- Wannafly 挑战赛11 B白兔的式子
- Wannafly挑战赛11-白兔的式子(组合数取模)
- Wannafly挑战赛11 -A 白兔的分身术
- Wannafly挑战赛11_A_B_D
- [2017纪中11-8]好文章 字符串hash+STL
- 【大二最后一题】Wannafly模拟赛 矩阵【二分+二维字符串Hash】