BM算法原理与实现（模式匹配）-red_eyed

red_eye_harebaoqunmin.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

red_eyed_hare

博客访问： 567083
博文数量： 104
博客积分： 4131
博客等级：上校
技术积分： 1137
用户组：普通用户
注册时间： 2009-07-31 15:05

文章分类

全部博文（104）

资料（1）
电机控制（6）
DSP2812（8）
VxWorks（12）
powerpc（1）
webmin（4）
Samba服务器（2）
snort（5）
OpenGL编程（3）
模式匹配（8）
linux编程（2）
Linux系统管理（16）
windows程序编程（14）
red_eyed_hare（11）
Linux驱动编程（5）
Linux内核编程（4）
未分配的博文（2）

文章存档

2011年（13）

2010年（23）

2009年（68）

我的朋友

yungho

相关博文

BM算法原理与实现（模式匹配）

分类： C/C++

2009-09-13 18:10:29

刚接触了模式匹配，了解了下经典的BM算法(Boyer-Moore算法)，下面就BM算法原理与具体实现做下总结：

BM算法采用从右向左比较的方法，同时应用到了两种启发式规则，即坏字符规则和好后缀规则，来决定向右跳跃的距离。

BM算法的基本流程: 设文本串T，模式串为P。首先将T与P进行左对齐，然后进行从右向左比较，若是某趟比较不匹配时，BM算法就采用两条启发式规则，即坏字符规则和好后缀规则，来计算模式串向右移动的距离，直到整个匹配过程的结束。

在BM算法从右向左扫描的过程中，若发现某个字符x不匹配，则按如下两种情况讨论:

1.坏字符规则:

a.如果字符x在模式P中没有出现，那么从字符x开始的m个文本显然不可能与P匹配成功，直接全部跳过该区域即可。

b.如果x在模式P中出现，则以该字符进行对齐。

用数学公式表示，设Skip(x)为P右移的距离，m为模式串P的长度，max(x)为字符x在P中最右位置。

2.好后缀规则:

若发现某个字符不匹配的同时，已有部分字符匹配成功，则按如下两种情况讨论：

a.如果在P中位置t处已匹配部分P'在P中的某位置t'也出现，且位置t'的前一个字符与位置t的前一个字符不相同，则将P右移使t'对应t方才的所在的位置。

b.如果在P中任何位置已匹配部分P'都没有再出现，则找到与P'的后缀P''相同的P的最长前缀x，向右移动P，使x对应方才P''后缀所在的位置。

用数学公式表示，设Shift(j)为P右移的距离，m为模式串P的长度，j 为当前所匹配的字符位置，s为t'与t的距离（以上情况a）或者x与P''的距离（以上情况b）。

下面就给出windows下c实现代码：

bm.h文件：

/* ------------------------------------------------------ */
/* FUNCTION BM : */
/* The Boyer-Moore String Searching Program. Given a */
/* text string text[] and a pattern string pat[], this */
/* function will find the first occurrence of pat[] in */
/* test[] by using the naive Boyer-Moore algorithm. */
/* */
/* Copyright Ching-Kuang Shene July/18/1989 */
/* ------------------------------------------------------ */

#include /* for strlen() */

#define NOT_FOUND -1
int* MakeSkip(char *ptrn, int pLen);
int* MakeShift(char* ptrn,int pLen);
int BMSearch(char *text, int tlen, char *ptrn, int plen, int *skip, int *shift);

/*
    函数：int* MakeSkip(char *, int)
    目的：根据坏字符规则做预处理，建立一张坏字符表
    参数：
        ptrn => 模式串P
        PLen => 模式串P长度
    返回：
        int* - 坏字符表
*/
int* MakeSkip(char *ptrn, int pLen)
{
    int i;
    //为建立坏字符表，申请256个int的空间
    /*PS:之所以要申请256个，是因为一个字符是8位，
      所以字符可能有2的8次方即256种不同情况*/
    int *skip = (int*)malloc(256*sizeof(int));

    if(skip == NULL)
    {
        fprintf(stderr, "malloc failed!");
        return 0;
    }

    //初始化坏字符表，256个单元全部初始化为pLen
    for(i = 0; i < 256; i++)
    {
        *(skip+i) = pLen;
    }

    //给表中需要赋值的单元赋值，不在模式串中出现的字符就不用再赋值了
    while(pLen != 0)
    {
        *(skip+(unsigned char)*ptrn++) = pLen--;
    }

    return skip;
}
/*
    函数：int* MakeShift(char *, int)
    目的：根据好后缀规则做预处理，建立一张好后缀表
    参数：
        ptrn => 模式串P
        PLen => 模式串P长度
    返回：
        int* - 好后缀表
*/
int* MakeShift(char* ptrn,int pLen)
{
    //为好后缀表申请pLen个int的空间
    int *shift = (int*)malloc(pLen*sizeof(int));
    int *sptr = shift + pLen - 1;//方便给好后缀表进行赋值的指标
    char *pptr = ptrn + pLen - 1;//记录好后缀表边界位置的指标
    char c;

    if(shift == NULL)
    {
        fprintf(stderr,"malloc failed!");
        return 0;
    }

    c = *(ptrn + pLen - 1);//保存模式串中最后一个字符，因为要反复用到它

    *sptr = 1;//以最后一个字符为边界时，确定移动1的距离

    pptr--;//边界移动到倒数第二个字符（这句是我自己加上去的，因为我总觉得不加上去会有BUG，大家试试“abcdd”的情况，即末尾两位重复的情况）

    while(sptr-- != shift)//该最外层循环完成给好后缀表中每一个单元进行赋值的工作
    {
        char *p1 = ptrn + pLen - 2, *p2,*p3;

        //该do...while循环完成以当前pptr所指的字符为边界时，要移动的距离
        do{
            while(p1 >= ptrn && *p1-- != c);//该空循环，寻找与最后一个字符c匹配的字符所指向的位置

            p2 = ptrn + pLen - 2;
            p3 = p1;

            while(p3 >= ptrn && *p3-- == *p2-- && p2 >= pptr);//该空循环，判断在边界内字符匹配到了什么位置

        }while(p3 >= ptrn && p2 >= pptr);

        *sptr = shift + pLen - sptr + p2 - p3;//保存好后缀表中，以pptr所在字符为边界时，要移动的位置
        /*
          PS:在这里我要声明一句，*sptr = （shift + pLen - sptr） + p2 - p3;
             大家看被我用括号括起来的部分，如果只需要计算字符串移动的距离，那么括号中的那部分是不需要的。
             因为在字符串自左向右做匹配的时候，指标是一直向左移的，这里*sptr保存的内容，实际是指标要移动
             距离，而不是字符串移动的距离。我想SNORT是出于性能上的考虑，才这么做的。
        */

        pptr--;//边界继续向前移动
    }

    return shift;
}

/*
    函数：int* BMSearch(char *, int , char *, int, int *, int *)
    目的：判断文本串T中是否包含模式串P
    参数：
        buf => 文本串T
        blen => 文本串T长度
        ptrn => 模式串P
        PLen => 模式串P长度
        skip => 坏字符表
        shift => 好后缀表
    返回：
        int - 1表示成功（文本串包含模式串），0表示失败（文本串不包含模式串）。
*/
int BMSearch(char *text, int tlen, char *ptrn, int plen, int *skip, int *shift)
{
    int t_idx = plen-1;
    int n;
    if (plen == 0)
        return 1;
    while (t_idx <= tlen)//计算字符串是否匹配到了尽头
    {
        int p_idx = plen-1, skip_stride, shift_stride;
        while (text[t_idx] == ptrn[p_idx])//开始匹配
        {
            if (t_idx < 0)
                return -1;
            if (p_idx == 0)
            {
                return t_idx;
            }
   t_idx--;
   p_idx--;
        }
  printf("\n%s\n", text);
  for (n = 0; n   printf(" ");
  printf("%s", ptrn);
        skip_stride = skip[(unsigned char)text[t_idx]];//根据坏字符规则计算跳跃的距离
        shift_stride = shift[p_idx];//根据好后缀规则计算跳跃的距离
        t_idx +=(skip_stride > shift_stride) ? skip_stride : shift_stride;//取大者

    }
    return -1;
}

bm.c文件：

#include
#include
#include "bm.h"
#define MAXSIZE 100

void main(void)
{
unsigned char text[MAXSIZE];
unsigned char ptrn[MAXSIZE];
int answer,i;
int tlen;
int pLen;
int *skip = (int*)malloc(MAXSIZE*sizeof(int));
int *shift = (int*)malloc(MAXSIZE*sizeof(int));
printf("\nBoyer-Moore String Searching Program");
printf("\n====================================");
printf("\n\nText String --> ");
gets(text);
printf( "\nPattern String --> ");
gets(ptrn);
tlen = strlen(text);
pLen = strlen(ptrn);
skip=MakeSkip(ptrn,pLen);
shift=MakeShift(ptrn,pLen);

if ((answer = BMSearch(text,tlen,ptrn,pLen,skip,shift)) >= 0)
{
  printf("\n");
  printf("%s\n", text);
  for (i = 0; i < answer; i++)
   printf(" ");
  printf("%s", ptrn);
  printf("\n\nPattern Found at location %d\n", answer);
}
else
  printf("\nPattern NOT FOUND.\n");
}

阅读(1438) | 评论(0) | 转发(0) |

上一篇：linux启动脚本

下一篇：KMP算法原理与实现（模式匹配）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6