Boyer-Moore算法的C实现-Bean

潜心修行bean.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

Bean_lee

博客访问： 3916737
博文数量： 146
博客积分： 3918
博客等级：少校
技术积分： 8585
用户组：普通用户
注册时间： 2010-10-17 13:52

个人简介

个人微薄： weibo.com/manuscola

文章分类

全部博文（146）

ceph（5）
Go（6）
LISP（3）
shell（5）
UI（3）
DB（13）
PHP（0）
杂文（1）
Assembly（2）
Python（1）
Linux（23）
C（7）
algorthm（32）
Linux Kernel（29）
编译链接（14）
NETWORK（2）
未分配的博文（0）

文章存档

2016年（3）

2015年（2）

2014年（5）

2013年（42）

2012年（31）

2011年（58）

2010年（5）

我的朋友

相关博文

Boyer-Moore算法的C实现

分类： C/C++

2011-09-25 11:06:35

Boyer-Moore算法是一个文本字符串搜索算法。和暴力搜索算法相比，它充分利用待搜索字符串的一些特征，加快了搜索的步骤。

首先来介绍基本概念。我们待搜素的文本称之为 text，我们想寻找的字符串叫pattern。显然文本text很长，我们从很长的文本搜索我们关心的关键字pattern。

首先最容易想到的办法就是暴力搜索，从头到尾，挨个比较，如果和pattern字符串不一致，右移一位，再次比较。

int Naive_search(char text[],int textlen,char pattern[],int patternlen)
{
int i ;
int find = 0;
for(i = 0;i<(textlen - patternlen);i++)
{
if(memcmp(&(text[i]),pattern,patternlen) == 0)
{
find++;
FindThePattern(text,pattern,i);
}
}
return find;
}

暴力搜索最容易想到，但是它的效率太低。本文下面介绍Boyer-Moores算法。

Boyer-Moore的思想是这样的，通过预处理，获取pattern字符串的一些特征，通过这些特征，来减少不必要的比较。Boyer-Moore主要有两个启发策略来减少不必要的比较。

Boyer-Moore 算法扫描比较字符串是从右向左比较。和普通的从左到右的习惯有写不同，这种扫描有什么好处，大家理解了这个算法就明白了。

1 Bad Character 坏字符

看下面的字符串搜索，在文本“abbadabacbmnpbac”中搜索babac，我们按照从右到左的比较，text为d，而pattern为c，不匹配，按照暴力搜索的思想，我们应该右移一位，继续比较，如下图中的naive。再次比较text中的a 和pattern中的c。

但是我们注意观察下，就可以发现，上一轮比较中text中的d，在pattern字符串中根本就不存在，你右移一位，现在pattern中“babac”的倒数第二位a需要和text中的进行比较。很明显仍然不可能匹配，因为pattern中根本就没有d这个字符，无论那一位和d比较，都不会匹配，所以右移一位太保守，并没有充分利用pattern中的信息。看下图中BM哪一行，直接向右移动patternlen位。

OK，根据BM算法，我们安全移动到了第九位。发现text 为b，pattern为 c，不匹配，很不幸，这次b这个字符在pattern中存在，我们是不是只能移动一位呢。不一定，我们看到必须试图寻找和文本中的9位置的b重合的位置，pattern中的存在两个b。安全的策略是pattern最右边b的和*位置的b匹配，

换句话说，可以右移两位，如果右移4为，那就太激进了，容易漏掉某些匹配的项。

----------------------------------------------------------------------------------------

0 1 2 3 4 5 6 7 8 9 A B C D E F

text a b b a d a b a c b m n p b a c

pattern b a b a c
naive b a b a c (太保守，进行不必要的比较)

BM b a b a c

BM b a b a c (太激进，可能漏掉)

BM b a b a c

text x y a c d e f
pattern a q b c d e f
bm a q b c d e f

详解：

f e d c 都已经匹配，第一个不匹配的是a，寻找pattern最右边的a与text中的a对齐。

text x y c c d e f