首页 > 代码库 > AC自动机总结及板子
AC自动机总结及板子
蒟蒻最近想学个AC自动机简直被网上的板子搞疯了,随便点开一个都是带指针的,然而平时用到指针的时候并不多,看到这些代码也完全是看不懂的状态。只好在大概理解后自己脑补(yy)了一下AC自动机的代码,居然还过了,这里对学到的东西做一点小小的总结。顺便造福一下跟我之前一样没有学过AC自动机并且不会用指针的Oier,给出一段不带指针的板子。
AC自动机的模型很好理解,就是在Trie树上做类似于KMP的操作。所以说在AC自动机里也会有一个类似于 next 数组的东西------ fail 数组来作为失配指针。它指向的 目标结点所代表的字符串 是 当前结点所代表的字符串 的最长后缀。
到这里,大概就能看出该算法的基本用途。AC自动机兼顾了 Trie树 和 KMP 的优点,多用来解决多模式串的匹配问题,即给你许多个模式串,问你这些模式串在给出的文本串里的出现情况。一般来说,AC自动机的复杂度为O(n+m),n为匹配串即文本串的长度,m为模式串的总长。在运用AC自动机时大致分为这几个步骤:建一棵 Trie树 把题目给出的模式串存入;然后建立自动机,即生成 fail 数组,一般采用 BFS 来实现这一步(在建立自动机时,我们不仅计算了 fail 数组,同时还确定了结点之间的父子关系。对于一个结点 i ,它的 fail ,即为它父亲的 fail 所对应的子结点。对于一个结点 i ,它孩子的 fail (如果该孩子在建立自动机前为空),即为 它一直失配直到找到一个存在的对应的子结点);最后一步直接将文本串放在自动机上跑就行,原理和KMP一样。
#include<iostream>
#include<cstdlib>
#include<cstdio>
#include<cstring>
#include<queue>
#include<algorithm>
#define il inline
#define RG register
#define N 10010
using namespace std;
char s[N][55],ss[N*100];
int n,times[N];//times记录单词在文本串中出现的次数
struct Tri{
int son[N][26],fail[N],root,L,num[N];
il void init(){
L=0; root=newnode();
memset(fail,0,sizeof(fail));
memset(num,0,sizeof(num));
}
il int newnode(){
for( int i=0;i<26;i++ ) son[L][i] = -1;
L++;
return L-1;
}
il void insert( char s[],int v ){
int len=strlen(s),cur=root;
for(int i=0;i<len;i++){
if( son[cur][s[i]-‘a‘]==-1 ) son[cur][s[i]-‘a‘]=newnode();
cur=son[cur][s[i]-‘a‘];
}
num[cur]=v; //记录该匹配串的输入编号
}
il void build(){ //bfs的方式来建立自动机
queue<int>Q;
fail[root]=root;
for(RG int i=0;i<26;i++)
if( son[root][i]==-1 ) son[root][i]=root;
else{
fail[ son[root][i] ]=root;
Q.push( son[root][i] );
}
while( !Q.empty() ){
RG int cur=Q.front(); Q.pop();
for(RG int i=0;i<26;i++ )
if( son[cur][i]==-1 ) son[cur][i]=son[ fail[cur] ][i];
else{
fail[ son[cur][i] ]=son[ fail[cur] ][i];
Q.push( son[cur][i] );
}
}
}
il void query( char s[] ){
RG int len=strlen(s),cur=root;
for(RG int i=0;i<len;i++){
while( cur && !son[cur][s[i]-‘a‘] ) cur=fail[cur];
if( son[ cur][s[i]-‘a‘ ] ){
cur=son[cur][s[i]-‘a‘];
RG int k=cur;
while(k) times[ num[k] ]++,k=fail[k];
}
}
}
}AC;
int main(){
scanf("%d",&n); AC.init();
for(RG int i = 1;i<=n;i++){
scanf("%s",s[i]);
AC.insert(s[i],i);
}
AC.build();
scanf("%s",ss); AC.query(ss);
for( RG int i=1;i<=n;i++ ) printf("%s %d\n",s[i],times[i]);
return 0;
}
最后给推荐几道简单的AC自动机的练手题:
HDU 2222 Keywords Search(丝毫不加掩饰的板子题)
HDU 2896 病毒侵袭
HDU 3065 病毒侵袭持续中
HDU 4117 GRE Words
UDH 2296 Ring
AC自动机总结及板子