理解KMP算法-cobrawgl-ChinaUnix博客

Cobrawgl's Blog

首页　| 　博文目录　| 　关于我

cobrawgl

博客访问： 602677
博文数量： 207
博客积分： 10128
博客等级：上将
技术积分： 2440
用户组：普通用户
注册时间： 2004-10-10 21:40

文章分类

全部博文（207）

Erlang（0）
Shell（1）
C/C++（0）
Network（3）
Lisp/Scheme（0）
Java（2）
JavaScript（7）
Security（2）
Mac OSX（1）
Programming（5）
Algorithm（6）
Database（11）
杂文（5）
西医（0）
中医（9）
Unix/Linux/BSD（9）
Web（54）
Computer（12）
PHP（21）
Ruby（10）
Python（20）
Perl（29）
未分配的博文（0）

文章存档

2009年（200）

2008年（7）

我的朋友

最近访客

推荐博文

理解KMP算法

分类：

2009-04-01 15:04:29

KMP算法是一个快速的匹配算法, 它是对一般的字符串匹配算法的优化, 对其理解, 可以从一般字符串匹配开始!

(1) 一般字符串匹配算法:

int index(char * s, char * t, int pos)
{
int i = pos, j = 0; int sLen = strlen(s); int tLen = strlen(t);

while (i < sLen && j < tLen)
{
     if (s[i] == t[j] )
      { i++; j++; }
     else
      { i = i - j + 1;   j = 0; } // 回溯到起始比较字符的下一个字符
}

if (j == tLen)
    return i - j ; //匹配成功, 返回子串在查找串中的位子!
else
    return 0;
}

这种算法的效率比较低,主要低在回溯那一步, KMP算法,就是针对这点而研究出来的, 具体而言, 它将问题进行了转化, 本来是原串s的回溯, 现在变成了对串t 的规律研究:
假设, s[i] == t[j] 并且 s[i+1] != t[j+1]; 那么我们需要找这样一个j' , 使得t[1..j]中的头j'个字母和末j'个字母完全相等（这样j变成了j'后才能继续保持i和j的性质）, 同时, j' 当然要越大越好。

新的j可以取多少与i无关，只与t串有关。我们完全可以预处理出这样一个数组Next[j]，表示当匹配到t数组的第j个字母而第j+1个字母不能匹配了时，新的j最大是多少。Next[j]应该是所有满足 t[1..Next[j]] = t [j-Next[j]+1..j]的最大值。

现在假设该Next[]数组已经存在(并且规定Next[1] = 0;), 那么上面的算法按照 KMP的思路可以改成 (这里重写了下):

int Index_KMP(String S,String T,int pos)
{
i=pos;j=1;//这里S和T 串的第1个元素下标是都是1, 这是为了表述的方便
while(i<=S.Length && j<=T.Length)
{
    if(j==0 || S[i]==T[j]) {++i;++j;} //注意到这里的j==0,和++j的作用就知道为什么规定next[1]=0的好处了
    else j=next[j]; // i 不变（不回溯）j 跳动
}
if(j>T.Length) return i-T.Length; // 匹配成功
else return 0;
}

下面主要就是构造Next数组, 根据Next数组的意义, 它本质上是T串的自身部分匹配，那么，我只要将T串和T串自身来一次匹配就可以求出来了，这里的匹配过程不是从头一个一个匹配，而是从T[1]和T[2]开始匹配，考虑到C中习惯于下标从0开始计算, 故这里从T[0], T[1]开始匹配, 其程序为：
void get_next(char * T, int next[])
{
int i = 0, j = -1; next[0] = -1;
while (i < strlen(T))
{
      if (j == -1 || T[i] == T[j])
      { ++i; ++j; next[i] = j;} //每次增加i ,都为next[i]赋值, 该值是T串自匹配时, 已经比较了的下标 j
      else
        j = next[j]; // j 跳回到以前可以匹配的值
}
}

注: T[i]==T[j]以及 i 前面的、j前面的都匹配的情况下，于是先自增，然后记下来next[i]=j，这样每当i有自增就会求得一个next[i]，而j一定会小于等于i，于是对于已经求出来的next，可以继续求后面的next，而next[1]=0是已知，所以整个就这样递推的求出来了，方法非常巧妙。

注意到下面的匹配情况：

...aaac...
aaaa.
T串中的'a'和S串中的'c'失配，而'a'的next值指的还是'a'，那同样的比较还是会失配，而这样的比较是多余的，如果我事先知道，当T[i]==T[j]，那next[i]就设为next[j]，在求next值的时候就已经比较了，这样就可以去掉这样的多余的比较。于是稍加改进得到：

void get_nextval(char * T,int next[])
{
int i=0, j = -1; next[0]= -1;
while(i< strlen(T))
{
    if(j == -1 || T[i]==T[j])
    { ++i;++j;
      if(T[i]!=T[j]) next[i]=j;
      else next[i]=next[j];//消去多余的可能的比较,next再向前跳 (这里j 肯定是小于i的)
    }
    else j=next[j];
}
}

匹配算法不变。

附: 优化 get_nextval() 前后, next数组中的值对比:

int main()
{
     char p[] ="abababcdabcd";
     int next[256];
     int i;

get_nextval

(p,next);
     printf("The length of P:%d\n",strlen(p));
     for(i=0;i         printf("next[%d]:%d\n",i,next[i]);

    return 0;
}

优化前的值:
C:\zyf\C_C++>kmp
next[0]: -1
next[1]: 0
next[2]: 0
next[3]: 1
next[4]: 2
next[5]: 3
next[6]: 4
next[7]: 0
next[8]: 0
next[9]: 1
next[10]: 2
next[11]: 0

优化后的值:
C:\zyf\C_C++>kmp
next[0]: -1
next[1]: 0
next[2]: -1
next[3]: 0
next[4]: -1
next[5]: 0
next[6]: 4
next[7]: 0
next[8]: -1
next[9]: 0
next[10]: 2
next[11]: 0

阅读(980) | 评论(0) | 转发(0) |

上一篇：三种中文分词算法优劣比较（转载）

下一篇：php正则语法(perl兼容)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6