白话分析字符串匹配算法——Rabin-Karp算法-GFree

linux开发专注者(坚持原创)linuxfocus.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

GFree_Wind

博客访问： 8184145
博文数量： 159
博客积分： 10424
博客等级：少将
技术积分： 14615
用户组：普通用户
注册时间： 2010-07-14 12:45

个人简介

啦啦啦~~~

文章分类

全部博文（159）

编写安全无错代码（11）
Linux（66）

TCP/IP源码（39）

内核I/O（0）

应用编程（7）

netfilter源码学（8）

ULK学习笔记（0）

驱动学习（0）

内核启动（1）

内核杂项（5）

shell（1）
C/C++（17）

代码优化（0）

C99标准学习笔记（4）

编译与链接（3）

避免Bug(我犯的错（3）

有趣的问题（1）

代码重构（1）

代码风格（2）

基础概念（1）
开源代码学习（8）

netmap（0）

Linux命令源代码（0）

zeromq（5）

glibc源码学习（3）
调试技巧（8）
并行编程（1）
软件工程（4）

经验之谈（1）

设计模式（3）
数据结构与算法（11）

算法（7）

数据结构（4）
网络设备开发（0）
Networks（9）

学习笔记（1）
计算机体系结构（0）
代码分享（1）
Light TCP proxy（1）
资料（0）

2012系统架构师大（0）
函数式编程（3）

Haskell（3）
职业发展（6）

我的思考（1）

优秀书目（5）
转载（1）
数据库（1）

sqlite（1）
其它（11）

职场（2）

随笔（7）
未分配的博文（0）

文章存档

2015年（5）

2014年（1）

2013年（5）

2012年（10）

2011年（116）

2010年（22）

我的朋友

相关博文

白话分析字符串匹配算法——Rabin-Karp算法

分类： C/C++

2011-10-30 23:31:36

作者：gfree.wind@gmail.com

博客：blog.focus-linux.net linuxfocus.blog.chinaunix.net

今天是《Algorithms In C》中关于字符串匹配算法中的最后一个，Rabin-Karp算法。

前面分析的KMP算法和BM算法的设计思路，都是通过前面已经比较过的字符，来对未来的匹配进行预判，实现最大的向右滑动。或者说通过这个预判，使下一次的比较更接近匹配的字符串。

而Rabin-Karp算法的设计思想也是利用前面已经匹配的字符。不过不同的是，Rabin-Karp算法不是未来这些信息去预判匹配的字符串，而是利用前面匹配字符的结果，使下一次匹配进行的更快。

——Rabin-Karp的具体实现请自行google。

为了实现这一目的，Rabin-Karp设计了一个巧妙的hash算法。首先计算pattern的hash值，然后在从sring的开头，计算相同长度字符串的hash值。若hash值相同，则表示匹配，若不同，则向右移动一位，计算新的hash值。

整个过程，与暴力的字符串匹配算法很相似，但由于计算hash值时，可以利用上一次的hash值，从而使新的hash值只需要加上新字母的计算，并减去上一次的第一个字母的计算，即可。这样相当于后面的每次匹配，只需要考虑一个新的字母，并减去一个老的字母，无疑极大的提高了效率——尤其是pattern的字符串很长的情况下。

那么这个hash是如何实现的呢？

hash(w[0 .. m-1])=(w[0]*2^m-1+ w[1]*2^m-2+···+ w[m-1]*2⁰) mod q
where q is a large number.

Then, rehash(a,b,h)= ((h-a*2^m-1)*2+b) mod q

上面给出这个hash的一个设计实。当不匹配时，rehash为再次hash的值，a为上次的第一个字母，b为新的字母。

下面小小的总结一下，这三个字符串匹配算法都是利用已经比较的字母，从中获得某些信息，从而提高自己的效率。而且思路却各不相同，我们需要去想，他们是如何去想出这个算法的。以前我也想过如何利用hash去实现字符串匹配，可是却觉得计算这个hash不一定比暴力算法高效多少。当时我有一个思路时，从要进行比较的字符串中，部分的进行hash，当hash不同，那么一定不匹配，hash相同则再进行字符串匹配。一般情况下，当不匹配时hash值都不同，所以可以减少一些不必要的匹配。但是还是没有想到今天这种算法。

参考：

阅读(10309) | 评论(0) | 转发(1) |

上一篇：白话分析字符串匹配算法——BM算法

下一篇：编写安全代码——无符号数减法溢出问题

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6