字符串近似匹配算法-剑心通明-ChinaUnix博客

BSD爱好者乐园jxtm.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

剑心通明

博客访问： 19519217
博文数量： 7460
博客积分： 10434
博客等级：上将
技术积分： 78178
用户组：普通用户
注册时间： 2008-03-02 22:54

文章分类

全部博文（7460）

武林英雄攻略（0）
淘宝网推荐（0）

节日礼物（0）

特产美食（0）

运动户外（0）

计算机相关（0）

女人（0）

男人（0）

母婴（0）

居家（0）

美容时尚（0）

手机数码（0）
其他（0）
数据库/php网页编（0）
交换机/路由器/网（0）
AIX（0）
MacOS（0）
C程序设计（0）
BSD相关（0）
shell脚本（0）
未分配的博文（7460）

文章存档

2011年（1）

2009年（669）

2008年（6790）

我的朋友

相关博文

字符串近似匹配算法

分类： C/C++

2008-05-30 20:32:50

字符串的近似匹配，就是允许在匹配时有一定的误差，比如在字串“以前高手好久不见”中找“以前是高手”也能成功。具体地说，错误可以有三种类型：加字符（以前也是高手）、漏字符（以前高手）和替换字符（以前石膏手）。下面的函数在text中查找子串pat，最多允许有k个错误。返回的是匹配的终点（我还没想好如何确定起点，呵呵）。
至于算法的原理，现在一下子说不清楚，只能说这是一个非确定性有限自动机，以后有时间的话再详细介绍。有兴趣的话可以自己去看文章《faster approximate string matching》, algorithmica (1999) 23: 127-158。

算法的限制：(m-k)*(k+2) <= 64, 这里m是子串的长度。那个64是因为哦用了64位整数来编码自动机的状态。如果允许两个错误，则子串最长为18个字符，对一般应用来说足够了。

好了，废话少说，看算法吧。看不懂？没事了，哦也是半懂半不懂的。

char* amatch(const char* text, const char* pat, int k)
{
  int m = strlen(pat);
  assert(m-k>0);
  assert((m-k)*(k+2)<= 64);
  int j;
  __int64 din = 0;
  __int64 m1 = 0;
  __int64 m2 = 0;
  __int64 m3 = 0;
  __int64 g = 1 << k;
  int onekp1 = (1 << (k+1)) - 1;
  for (j=0; j  {
    din = (din << (k+2))|onekp1;
    m1 = (m1 << (k+2))|1;
    if (j < m-k-1)
      m2 = (m2 << (k+2)) | 1;
  }
  m2=(m2<<(k+2))|onekp1;
  __int64 d=din;
  const char* s=text;
  int c=*s++;
  while(c)
  {
    int found=0;
    const char* sp=pat;
    for(j=0;j    {
      int cp=*sp++;
      if(c==cp)
      {
        found=1;
        break;
      }
    }
    if(found)
    {
      do
      {
        __int64 tc = 0;
        const char* sp = pat;
        for (j=0; j        {
          int cp = *sp++;
          if (c!=cp)
          c|=(1<        }
        __int64 tc = 0;
        for (j=0; j        tc = (tc<<(k+2))|((tc>>j)&onekp1);
        __int64 x = (d>>(k+2))|tc;
        d=((d<<1)|m1)&((d<<(k+3))|m2)&(((x+m1)^x)>>1)&din;
        if((d & g) == 0)
          return (char*)s;
        if(d != din)
          c = *s++;
      }
      while ( d != din && c);
   }
   if (c)
     c = *s++;
}
return null;
}

阅读(1565) | 评论(0) | 转发(0) |

上一篇：如何用有限个点拟合出光滑的曲线

下一篇：TBits(单元Classes)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6