白话分析字符串匹配算法——BM算法-GFree

linux开发专注者(坚持原创)linuxfocus.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

GFree_Wind

博客访问： 8182452
博文数量： 159
博客积分： 10424
博客等级：少将
技术积分： 14615
用户组：普通用户
注册时间： 2010-07-14 12:45

个人简介

啦啦啦~~~

文章分类

全部博文（159）

编写安全无错代码（11）
Linux（66）

TCP/IP源码（39）

内核I/O（0）

应用编程（7）

netfilter源码学（8）

ULK学习笔记（0）

驱动学习（0）

内核启动（1）

内核杂项（5）

shell（1）
C/C++（17）

代码优化（0）

C99标准学习笔记（4）

编译与链接（3）

避免Bug(我犯的错（3）

有趣的问题（1）

代码重构（1）

代码风格（2）

基础概念（1）
开源代码学习（8）

netmap（0）

Linux命令源代码（0）

zeromq（5）

glibc源码学习（3）
调试技巧（8）
并行编程（1）
软件工程（4）

经验之谈（1）

设计模式（3）
数据结构与算法（11）

算法（7）

数据结构（4）
网络设备开发（0）
Networks（9）

学习笔记（1）
计算机体系结构（0）
代码分享（1）
Light TCP proxy（1）
资料（0）

2012系统架构师大（0）
函数式编程（3）

Haskell（3）
职业发展（6）

我的思考（1）

优秀书目（5）
转载（1）
数据库（1）

sqlite（1）
其它（11）

职场（2）

随笔（7）
未分配的博文（0）

文章存档

2015年（5）

2014年（1）

2013年（5）

2012年（10）

2011年（116）

2010年（22）

我的朋友

相关博文

白话分析字符串匹配算法——BM算法

分类： C/C++

2011-10-26 22:26:13

作者：gfree.wind@gmail.com

博客：blog.focus-linux.net linuxfocus.blog.chinaunix.net

今天继续炒冷饭，白话分析一下BM算法——其实说分析是高抬了自己，我只是想通过学习算法的过程中，尽量的去体会如何从这些算法中获得更多思想性的东西，即除了算法本身，可以了解算法的设计者是通过何种手段，是如何去获得更好的性能。

首先关于BM算法的介绍，学习很多，CU上的Bean_lee最近也写了一篇，http://blog.chinaunix.net/space.php?uid=24774106&do=blog&id=2901288，大家可以去看一看。

BM的细节不说了，主要说一下它的设计思路：

1. BM是从右向左比较：（话说这种思路我以前也想过呵）从右比较有什么好处呢？相对于从左开始比较，从右比较有更大的可能做到更少的比较，更大的滑动。比如一个极端的例子，最右端的字母不匹配，且string中的字母根本不在pattern中存在。那么pattern可以直接向右滑动strlen(pattern)的个数。如果是从左比较呢，即使最左端的字母同样不在pattern中存在，而patter也只能像右滑动1位。但是有的朋友可能会说，有可能从右端开始的匹配字母个数要比从左端开始匹配的字母个数多怎么办？按照概率将，这个可能性也得占一半。这时BM会有其它方法去处理这些情况。请看下面的BM好后缀策略的设计思路；

2. BM的好后缀策略的思路：这个好后缀策略，跟KMP的思想很相近。都是通过已经匹配了的字符串获得除了当前位置不匹配这一信息外更多的信息——即可以向右滑动的位数。

请看下图：

这是当已匹配的字符串在pattern还有相同的重复字符串的情况。

这是已匹配的字符串在pattern中只存在后缀的重复字符串的情况。

还有一种情况，即连x不存在u中任何重复的后缀，那么可以直接向右滑动strelen(pattern)的位数了。

3. BM的坏字符策略：这个策略充分的利用了从右面匹配，可以滑动更远位数的特性。

这种情况为，不匹配的字符在前面的pattern中存在，那么可以将pattern直接向右滑动至该位置。

这种情况为不匹配的字符在前面的pattern中不存在，那么可以将pattern直接向右滑动至不匹配字符的右边1位。

当好后缀和坏字符两种策略各得到不同的滑动位数时，BM取两者之中最大者。

上面三种策略为BM高效的原因，其中好后缀的策略与KMP类似。那么如果我们将坏字符的策略引入到KMP，是否也可以生效呢？

abcdefgbcabc......

abcdefabcabc