KMP算法（转）-sh365-ChinaUnix博客

清风心情helloworld.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

sh365

博客访问： 780912
博文数量： 199
博客积分： 3584
博客等级：中校
技术积分： 2193
用户组：普通用户
注册时间： 2008-05-12 21:18

文章分类

全部博文（199）

杂章（27）
心情杂谈（15）
数据机构与算法（2）
C语言（43）
音视频资料（3）
Linux（22）
嵌入式学习（15）
未分配的博文（72）

文章存档

2018年（6）

2013年（14）

2012年（30）

2011年（28）

2010年（24）

2009年（86）

2008年（11）

我的朋友

相关博文

KMP算法（转）

分类： C/C++

2011-10-14 17:17:21

直面经典：重温KMP（不着一图，尽得精髓）

分类：算法 2008-10-20 14:45 762人阅读评论(5) 举报

KMP 算法，每一个初学者都曾被它搞迷糊，在数据结构教材上，这个算法出现的如此之早，你怎能指望一个还没搞懂二叉树遍历的人来理解KMP呢，记得越快，忘得越快。直到多年以后回过头来看看，这才发现KMP算法如神谕般震撼了我。实在无法想象当初Knuth、Pratt、Morris三人竟然同时发现了它。

我们假设一个场景，你手上拿着一串红蓝两种颜色的珠子，墙上挂着一串更长的珠子，同样是红蓝两色的,你的任务就是找出和你手中珠子排列顺序相同的一段。

最简单也最容易想到的方法，就是从墙上第一颗开始，拿手中的珠子挨个去和墙上珠子去比，都相同那就OK了，不相同再从墙上第二颗开始，以此类推。（文章中我就不给代码了，需要代码的直接跳到正文最后去复制）

有人会想：如果我手里的珠子都是红色的，我还用这种方法，我傻呀？对，Knuth当年也是这样想的。

你看，假设你手里是连续的100颗红色珠子，墙上从第一颗开始是99颗红色珠子，那么当你比到第100颗你才发现少了一颗，你要从第二颗开始再去数一遍吗？没人会这么做，除了程序员。

当然，正常人都要从第100颗之后再去找连续的红色珠子。有了这样的觉悟，我们可以开始进入KMP算法了。

现在抛开珠子的比喻，我们开始用术语："串"，现在手上的珠子称为模式串，墙上的珠子称为主串。任务就是从主串当中寻找模式串。为了突出KMP算法的优势，我们的串都是由0和1组成的。

原始方法的最大问题就是，每当不匹配，就要回头再做比较，这个术语叫回溯。KMP算法用一种巧妙的方法避免了主串的回溯。也就是说，主串从头到尾只需要扫描一遍。（现在还没有办法连模式串都不回溯，所以下文说到回溯均指主串的回溯）

到这里，产生了两个疑问：不回溯是可能的吗？任何情况下都可以不回溯吗？

第一个问题，我们前面已经肯定了，就是某些情况下，例如连续100个1时，我们不需要回溯。

第二个问题，我们的担心是，例如前5个相同，第6个不同，难道你能直接从主串第7个开始和模式串比较？万一从第2个开始恰好和模式串匹配，你就漏掉了。

而KMP的神奇就在于，如果第6个不同，那么接下来我会拿模式串的第1个至第5个之间的一个来和主串第6个比较，至于具体是哪个，由next值决定，这个后面再说。

这个方法保险吗？何止保险，万无一失！这就证明给你看：

当第6个失配时，有五种情况：

模式串前4个与主串第6个之前的相同

模式串前3个与主串第6个之前的相同

模式串前2个与主串第6个之前的相同

模式串前1个与主串第6个之前的相同

模式串前0个与主串第6个之前的相同

无论主串与模式串如何变化，总也逃不出这五种情况，而这五种情况的后续比较方法正好就是拿模式串1至5中间的的一个来继续比较。例如前4个相同，那当然从第5个开始比较；而前面没有相同的，那自然从模式串第1个开始。

这就说明了，任何情况下，主串都不需要回溯，前提是我们拥有next值。

（等等，你忽略了一个问题，如果next值是跟主串有关系怎么办？）

（Re：之前的比较已经说明了一个问题，模式串前5个与主串是相同的，主串这部分已经没有利用价值了，就算要回溯我在模式串上进行就可以了，这个解释总该满意了吧？）

好了，KMP算法可以开始工作了。

方法如下：

1 一开始还像原始方法那样，挨个比较。

2 等失配时，假设这时是主串的第i个，模式串的第j个，拿模式串的next(j)个继续和主串第i个进行比较

2.1 如果相同，那么再挨个比下去

2.1 如果不同，那么重复步骤2

3 比到模式串的最后一位仍然相同，则完成任务

4 比到主串的最后一位仍然未完成任务，则放弃

第2步的next(j)我们看做是一个函数，你不要管它为什么这样神奇，总之如果它能告诉你究竟是哪一个，你就只管用就没错了。

呵呵，看起来仿佛是神的指引呀：你只管比，出错了让神来告诉你由哪一个接着比。

这就是KMP算法了。打完收功。

-----------------------------------------------

（但是，还没有说next(j)怎么出来的呀，这样也行啊？）

其实next(j)的求法才是KMP算法最关键的地方，要理解了它，才算是理解了KMP呀！

我们来探索一下next(j)内部的原理。

前面已经提到，其实next(j)与主串一点关系也没有，这告诉我们，只需要模式串就能生成next(j)。

这么说，next(j)的值完全可以看成一个函数，它的自变量是模式串和失配位置j。

假设某一个模式串里，next(6) = 3的话，这意味着什么呢？

就是说如果第6个位置失配了，那么我直接拿模式串第3个来和主串第6个比较，之所以能这么比，只有可能是模式串的第1、2个和主串的第4、5个是匹配的，但是主串的4、5个和模式串的4、5个也是匹配的，由相等关系的传递性，我们得知模式串的1、2个和4、5个是匹配的。

这给了我们提示，如果模式串内部存在相同的片段，例如123和345相同，或者12和56相同等等这样的情况，那么我们就可以在后一个相同片段的结束出失配时，从前一个相同片段的结束处继续比较。

而如果不存在相同的片段，那么就说明主串失配位置之前的部分不会再有匹配了（否则矛盾了），我们可以从主串失配位置的后一个位置继续比较了。

这样的一对相同片段恰好要从模式串的第一个开始，这样给了我们便利，只需要：

模式串第1个和第2个开始依次比较，

然后第1个和第3个开始依次比较，然后是第1个和第4个，依次类推，就能找到全部可能的相同片段了。

凑巧，这也恰好是一个找寻模式串的任务，自己既是主串又是模式串。

上述的自我比较过程中，在每一次比较相同时，我们都可以记下一个next值，

而出现失配时，我们从主串的下个位置重新开始比，等等，想起什么来了，对，主串不需要回溯。我们不是记下了前一个next值吗？

而如果第一次就不同呢，所以我们进行一个规定，next(1)=0，next(2)=1，这样在第1个和第2个比较时，next(2)的值已经有了，随后每一个比较都已经有了当前位置的next值了。这里next值为0是表示失配位置前不可能有匹配了，这时主串从失配位置的后一个继续比，而这个位置的 next值我们同样记为0。

这样看起来，寻找next值的过程和KMP本身比较的过程何其相似呀！

不过我们注意到一点，它们并不需要相似，实际上求next值的过程不用KMP方法，用原始方法一样可以求出来，但是要麻烦一些，需要后一趟比较不要把前一趟记下的next值覆盖了。

至此KMP算法的精髓应该介绍完了吧，还剩下最后一点，就是所谓的next修正值。

这个是在求next值的过程中修正的，不修正也不影响匹配结果，修正算是一种优化吧！

具体说来，修正是这么回事：

如果在j出失配时，不是要跳到next(j)吗？而如果又失配了，不是要跳到next(next(j))吗，如果又失配，就跳到next(next(next(j)))……

为了省略不停的跳的过程，我们注意到，如果第j个和第next(j)个是相同的，那么j失配了，next(j)一定失配。既然这样，那又何必再比呢，所以计录next值的时候，就判断一下是否相同，如果相同，就直接使用上一个next值。

至此，KMP算是全部结束完毕了。代码网上满天飞，我这就不给了。
转自：http://blog.csdn.net/oyd/article/details/3110435

阅读(776) | 评论(0) | 转发(0) |

上一篇：C/C++ 语言中的表达式求值[转]

下一篇：HTTP协议的C语言编程实现实例-转

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6