ac自动机模板
2015-05-08 17:43
197 查看
ac自动机的大概思路就是
1.先输入字符串,构造出trie树
2.构造失败指针,由于只有当父节点的失败指针构造完毕才能构造子节点的,所以进行bfs对每一个节点进行构造失败指针
这里的模板采用的是数组模拟指针的方式
输入n个字符串构造trie树
然后输入一个文本 ,查找文本中出现的最多次数的模式字符串和其次数
注意例如模式aa 和aaa 文本aaa会确认其aa出现两次,aaa出现一次
#include<iostream>
#include<string>
#include<algorithm>
#include<cstdlib>
#include<cstdio>
#include<set>
#include<map>
#include<vector>
#include<cstring>
#include<stack>
#include<cmath>
#include<queue>
using namespace std;
#define CL(x,v); memset(x,v,sizeof(x));
#define INF 0x3f3f3f3f
#define LL long long
#define REP(i,r,n) for(int i=r;i<=n;i++)
#define RREP(i,n,r) for(int i=n;i>=r;i--)
const int SIGMA_SIZE = 26;
const int MAXNODE = 11000;
const int MAXS = 150 + 10;
map<string,int> ms;//节点编号与string的映射
//ms是为了满足特殊要求,比如模板串相同时
struct ACautomata {
int ch[MAXNODE][SIGMA_SIZE];//存储某一个节点加上一个字符所对应的子节点的编号
int f[MAXNODE]; // fail函数
int val[MAXNODE]; // 每个字符串的结尾结点都有一个非0的val
int last[MAXNODE]; // 输出链表的下一个结点
int cnt[MAXS];
int sz;//节点编号
void init() {
sz = 1;
memset(ch[0], 0, sizeof(ch[0]));
memset(cnt, 0, sizeof(cnt));
ms.clear();
}
// 字符c的编号
int idx(char c) {
return c-'a';
}
// 插入字符串。v必须非0
void insert(char *s, int v) {
int u = 0, n = strlen(s);
for(int i = 0; i < n; i++) {
int c = idx(s[i]);
if(!ch[u][c]) {
memset(ch[sz], 0, sizeof(ch[sz]));
val[sz] = 0;
ch[u][c] = sz++;
}
u = ch[u][c];
}
val[u] = v;
ms[string(s)] = v;
}
// 递归打印匹配文本串str[i]结尾的后缀,以结点j结尾的所有字符串
void print(int i,int j) {
if(j) {
cnt[val[j]]++;
print(i,last[j]);
}
}
// 在T中找模板
int find(char* T) {
int n = strlen(T);
int j = 0; // 当前结点编号,初始为根结点
for(int i = 0; i < n; i++) { // 文本串当前指针
int c = idx(T[i]);
j = ch[j][c];
if(val[j]) print(i,j);
else if(last[j]) print(i,last[j]); // 找到了!
}
}
// 计算fail函数
void getFail() {
queue<int> q;
f[0] = 0;
// 初始化队列
for(int c = 0; c < SIGMA_SIZE; c++) {
int u = ch[0][c];
if(u) { f[u] = 0; q.push(u); last[u] = 0; }
}
// 按BFS顺序计算fail
while(!q.empty()) {
int r = q.front(); q.pop();
for(int c = 0; c < SIGMA_SIZE; c++) {
int u = ch[r][c];
if(!u) {
ch[r][c]=ch[f[r]][c];
continue;
}
q.push(u);
int v = f[r];
while(v && !ch[v][c]) v = f[v];
f[u] = ch[v][c];
last[u] = val[f[u]] ? f[u] : last[f[u]];
}
}
}
};
const int MAXN=1e6+10;
char str[MAXN];
char s[200][100];
ACautomata solver;
int main(){
int n;
while(~scanf("%d",&n))
{
if(!n)break;
solver.init();
REP(i,1,n){
scanf("%s",s[i]);
solver.insert(s[i],i);
}
scanf("%s",str);
solver.getFail();
solver.find(str);
int maxn=-1;
REP(i,1,n){
maxn=max(maxn,solver.cnt[i]);
}
printf("%d\n",maxn);
REP(i,1,n){
if(solver.cnt[ms[string(s[i])]]==maxn)
printf("%s\n",s[i]);
}
}
return 0;
}
ac自动机的大概思路就是
1.先输入字符串,构造出trie树
2.构造失败指针,由于只有当父节点的失败指针构造完毕才能构造子节点的,所以进行bfs对每一个节点进行构造失败指针
这里的模板采用的是数组模拟指针的方式
输入n个字符串构造trie树
然后输入一个文本 ,查找文本中出现的最多次数的模式字符串和其次数
注意例如模式aa 和aaa 文本aaa会确认其aa出现两次,aaa出现一次
#include<iostream>
#include<string>
#include<algorithm>
#include<cstdlib>
#include<cstdio>
#include<set>
#include<map>
#include<vector>
#include<cstring>
#include<stack>
#include<cmath>
#include<queue>
using namespace std;
#define CL(x,v); memset(x,v,sizeof(x));
#define INF 0x3f3f3f3f
#define LL long long
#define REP(i,r,n) for(int i=r;i<=n;i++)
#define RREP(i,n,r) for(int i=n;i>=r;i--)
const int SIGMA_SIZE = 26;
const int MAXNODE = 11000;
const int MAXS = 150 + 10;
map<string,int> ms;//节点编号与string的映射
//ms是为了满足特殊要求,比如模板串相同时
struct ACautomata {
int ch[MAXNODE][SIGMA_SIZE];//存储某一个节点加上一个字符所对应的子节点的编号
int f[MAXNODE]; // fail函数
int val[MAXNODE]; // 每个字符串的结尾结点都有一个非0的val
int last[MAXNODE]; // 输出链表的下一个结点
int cnt[MAXS];
int sz;//节点编号
void init() {
sz = 1;
memset(ch[0], 0, sizeof(ch[0]));
memset(cnt, 0, sizeof(cnt));
ms.clear();
}
// 字符c的编号
int idx(char c) {
return c-'a';
}
// 插入字符串。v必须非0
void insert(char *s, int v) {
int u = 0, n = strlen(s);
for(int i = 0; i < n; i++) {
int c = idx(s[i]);
if(!ch[u][c]) {
memset(ch[sz], 0, sizeof(ch[sz]));
val[sz] = 0;
ch[u][c] = sz++;
}
u = ch[u][c];
}
val[u] = v;
ms[string(s)] = v;
}
// 递归打印匹配文本串str[i]结尾的后缀,以结点j结尾的所有字符串
void print(int i,int j) {
if(j) {
cnt[val[j]]++;
print(i,last[j]);
}
}
// 在T中找模板
int find(char* T) {
int n = strlen(T);
int j = 0; // 当前结点编号,初始为根结点
for(int i = 0; i < n; i++) { // 文本串当前指针
int c = idx(T[i]);
j = ch[j][c];
if(val[j]) print(i,j);
else if(last[j]) print(i,last[j]); // 找到了!
}
}
// 计算fail函数
void getFail() {
queue<int> q;
f[0] = 0;
// 初始化队列
for(int c = 0; c < SIGMA_SIZE; c++) {
int u = ch[0][c];
if(u) { f[u] = 0; q.push(u); last[u] = 0; }
}
// 按BFS顺序计算fail
while(!q.empty()) {
int r = q.front(); q.pop();
for(int c = 0; c < SIGMA_SIZE; c++) {
int u = ch[r][c];
if(!u) {
ch[r][c]=ch[f[r]][c];
continue;
}
q.push(u);
int v = f[r];
while(v && !ch[v][c]) v = f[v];
f[u] = ch[v][c];
last[u] = val[f[u]] ? f[u] : last[f[u]];
}
}
}
};
const int MAXN=1e6+10;
char str[MAXN];
char s[200][100];
ACautomata solver;
int main(){
int n;
while(~scanf("%d",&n))
{
if(!n)break;
solver.init();
REP(i,1,n){
scanf("%s",s[i]);
solver.insert(s[i],i);
}
scanf("%s",str);
solver.getFail();
solver.find(str);
int maxn=-1;
REP(i,1,n){
maxn=max(maxn,solver.cnt[i]);
}
printf("%d\n",maxn);
REP(i,1,n){
if(solver.cnt[ms[string(s[i])]]==maxn)
printf("%s\n",s[i]);
}
}
return 0;
}
相关文章推荐
- 病毒侵袭持续中(我的第三道AC自动机---模板再次完善升级)
- 洛谷P3796 【模板】AC自动机(加强版)
- hdu 2222 Keywords_ac自动机模板
- hdu 3065 病毒侵袭持续中 ac自动机模板题
- AC自动机算法及模板
- [洛谷3808]【模板】AC自动机(简单版)
- 我的ac自动机模板
- HDU 2222 ac自动机入门模板题
- 洛谷 P3796 【模板】AC自动机(加强版)
- HDU 3065 病毒侵袭持续中(AC自动机模板)
- 模板——AC自动机
- HDU2222 Keywords Search 【AC自动机模板题】
- HDU 2222 Keywords Search(AC自动机模板)
- [AC自动机模板题] HDU 2222 Keywords Search
- 数据结构--AC自动机--模板2
- AC自动机算法及模板
- hdu 2222 Keywords Search(AC自动机模板)
- AC自动机模板
- AC自动机 ( 模板题啊 )——Dominating Patterns ( UVA 4670 )
- HDU2222 AC自动机 入门模板