您的位置:首页 > 其它

ac自动机模板

2015-05-08 17:43 197 查看

ac自动机的大概思路就是

1.先输入字符串,构造出trie树

 2.构造失败指针,由于只有当父节点的失败指针构造完毕才能构造子节点的,所以进行bfs对每一个节点进行构造失败指针

这里的模板采用的是数组模拟指针的方式

输入n个字符串构造trie树

然后输入一个文本 ,查找文本中出现的最多次数的模式字符串和其次数

注意例如模式aa 和aaa 文本aaa会确认其aa出现两次,aaa出现一次

#include<iostream>

#include<string>

#include<algorithm>

#include<cstdlib>

#include<cstdio>

#include<set>

#include<map>

#include<vector>

#include<cstring>

#include<stack>

#include<cmath>

#include<queue>

using namespace std;

#define CL(x,v); memset(x,v,sizeof(x));

#define INF 0x3f3f3f3f

#define LL long long

#define REP(i,r,n) for(int i=r;i<=n;i++)

#define RREP(i,n,r) for(int i=n;i>=r;i--)

const int SIGMA_SIZE = 26;

const int MAXNODE = 11000;

const int MAXS = 150 + 10;

map<string,int> ms;//节点编号与string的映射

//ms是为了满足特殊要求,比如模板串相同时

struct ACautomata {

  int ch[MAXNODE][SIGMA_SIZE];//存储某一个节点加上一个字符所对应的子节点的编号

  int f[MAXNODE];    // fail函数

  int val[MAXNODE];  // 每个字符串的结尾结点都有一个非0的val

  int last[MAXNODE]; // 输出链表的下一个结点

  int cnt[MAXS];

  int sz;//节点编号

  void init() {

    sz = 1;

    memset(ch[0], 0, sizeof(ch[0]));

    memset(cnt, 0, sizeof(cnt));

    ms.clear();

  }

  // 字符c的编号

  int idx(char c) {

    return c-'a';

  }

  // 插入字符串。v必须非0

  void insert(char *s, int v) {

    int u = 0, n = strlen(s);

    for(int i = 0; i < n; i++) {

      int c = idx(s[i]);

      if(!ch[u][c]) {

        memset(ch[sz], 0, sizeof(ch[sz]));

        val[sz] = 0;

        ch[u][c] = sz++;

      }

      u = ch[u][c];

    }

    val[u] = v;

    ms[string(s)] = v;

  }

  // 递归打印匹配文本串str[i]结尾的后缀,以结点j结尾的所有字符串

  void print(int i,int j) {

    if(j) {

      cnt[val[j]]++;

      print(i,last[j]);

    }

  }

  // 在T中找模板

  int find(char* T) {

    int n = strlen(T);

    int j = 0; // 当前结点编号,初始为根结点

    for(int i = 0; i < n; i++) { // 文本串当前指针

      int c = idx(T[i]);

      j = ch[j][c];

      if(val[j]) print(i,j);

      else if(last[j]) print(i,last[j]); // 找到了!

    }

  }

  // 计算fail函数

  void getFail() {

    queue<int> q;

    f[0] = 0;

    // 初始化队列

    for(int c = 0; c < SIGMA_SIZE; c++) {

      int u = ch[0][c];

      if(u) { f[u] = 0; q.push(u); last[u] = 0; }

    }

    // 按BFS顺序计算fail

    while(!q.empty()) {

      int r = q.front(); q.pop();

      for(int c = 0; c < SIGMA_SIZE; c++) {

        int u = ch[r][c];

        if(!u) {

            ch[r][c]=ch[f[r]][c];

            continue;

        }

        q.push(u);

        int v = f[r];

        while(v && !ch[v][c]) v = f[v];

        f[u] = ch[v][c];

        last[u] = val[f[u]] ? f[u] : last[f[u]];

      }

    }

  }

};

const int MAXN=1e6+10;

char str[MAXN];

char s[200][100];

ACautomata solver;

int main(){

    int n;

    while(~scanf("%d",&n))

    {

        if(!n)break;

        solver.init();

        REP(i,1,n){

            scanf("%s",s[i]);

            solver.insert(s[i],i);

        }

        scanf("%s",str);

        solver.getFail();

        solver.find(str);

        int maxn=-1;

        REP(i,1,n){

            maxn=max(maxn,solver.cnt[i]);

        }

        printf("%d\n",maxn);

        REP(i,1,n){

            if(solver.cnt[ms[string(s[i])]]==maxn)

                printf("%s\n",s[i]);

        }

    }

    return 0;

}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: