Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1851117
  • 博文数量: 184
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 2388
  • 用 户 组: 普通用户
  • 注册时间: 2016-12-21 22:26
个人简介

90后空巢老码农

文章分类

全部博文(184)

文章存档

2021年(26)

2020年(56)

2019年(54)

2018年(47)

2017年(1)

我的朋友

分类: C/C++

2020-12-01 15:54:24

简单来说,ac自动机实际上就是把trie树和kmp的思想结合到了一起。在使用一个主串去匹配多个模式串这种应用场景,如果当前节点失配,不用重新在根节点开始匹配,多了一个fail指针,就像kmp失配时用到的next数组一样,这样就可以提升效率了~
先是构建trie树,这里不再赘述,如果不清楚,去leetcode刷刷应该就能明白了。构建完trie树之后,就需要构建前面说的fail指针了,
fail指针的含义就是:当前节点匹配,但是没有办法向下继续匹配(另一种说法是当前节点失配),需要查看当前匹配的后缀是否有更短的模式串进行匹配,如果有,跳转到对应的节点

上代码如下:

点击(此处)折叠或打开

  1. // fail传递父子关系
  2. q.push(root);
  3. while(!q.empty()){
  4.     cur = q.top();q.pop();
  5.     for(int i=0; i<26;i++){
  6.         // child入队列并且设置child的fail
  7.         child = cur->child[i];
  8.         if(child==NULL) continue;
  9.         if(cur==root)child->fail=root;
  10.         else{
  11.             q = cur->fail;
  12.             while(q){
  13.                 if(q->child[i]!=NULL){
  14.                     child->fail = q->child[i];
  15.                     break;
  16.                 }
  17.                 q=q->fail;
  18.             }
  19.             if(q==NULL) child->fail=root;
  20.         }
  21.         q.push(child);
  22.     }
  23. }
这段代码的核心思想就是当前节点fail已经设置,设置其下一层孩子的fail,原理就是查看当前节点的fail节点下是否有对应child[i]的节点,如果有,指过去,如果没有找到,指向root。


其匹配代码如下:

点击(此处)折叠或打开

  1. void match(char *str, int len){
  2.     cur = root;
  3.     for(int i=0; i<len; i++){
  4.         int idx=str[i]-'a';
  5.         while(cur->child[idx]==NULL && cur!==root)cur=cur->fail;
  6.         cur = cur->child[idx];
  7.         if(cur == NULL) cur=root;
  8.         tmp = cur;
  9.         // 每次匹配上一个字符,需要查看其对应的fail,以便查看是否命中了更短的模式串
  10.         while(tmp!=root){
  11.             if(tmp->is_leaf){
  12.                 int pos = i-tmp->length+1;
  13.                 cout<<"pos: "<<pos<<"; length:" << tmp->length<<endl;
  14.             }
  15.             tmp=tmp->fail;
  16.         }
  17.     }
  18. }

大体思路应该都没问题,这里面需要多说一嘴的就是最后的含有tmp的循环,这层循环的含义也可以帮助理解fail指针的含义:
如果当前节点可以匹配str[i],则有可能命中比当前更短的模式串,需要用fail指针不断的去递归调用,才能找到所有以str[i]结尾的模式串



主要参考资料:
https://www.cnblogs.com/sclbgw7/p/9260756.html
阅读(1157) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~