Chinaunix首页 | 论坛 | 博客
  • 博客访问: 169704
  • 博文数量: 33
  • 博客积分: 2015
  • 博客等级: 大尉
  • 技术积分: 317
  • 用 户 组: 普通用户
  • 注册时间: 2009-12-15 17:01
文章分类

全部博文(33)

文章存档

2010年(23)

2009年(10)

我的朋友

分类: C/C++

2010-02-21 21:18:19


LCS (Longest Common Subsequence) 算法用于找出两个字符串最长公共子串。

算法原理:

(1) 将两个字符串分别以行和列组成矩阵。
(2) 计算每个节点行列字符是否相同,如相同则为 1。
(3) 通过找出值为 1 的最长对角线即可得到最长公共子串。

  人 民 共 和 时 代
中 0, 0, 0, 0, 0, 0
华 0, 0, 0, 0, 0, 0
1, 0, 0, 0, 0, 0
民 0, 1, 0, 0, 0, 0
共 0, 0, 1, 0, 0, 0
和 0, 0, 0, 1, 0, 0
国 0, 0, 0, 0, 0, 0

为进一步提升该算法,我们可以将字符相同节点(1)的值加上左上角(d[i-1, j-1])的值,这样即可获得最大公用子串的长度。如此一来只需以行号和最大值为条件即可截取最大子串。

  人 民 共 和 时 代
中 0, 0, 0, 0, 0, 0
华 0, 0, 0, 0, 0, 0
1, 0, 0, 0, 0, 0
民 0, 2, 0, 0, 0, 0
共 0, 0, 3, 0, 0, 0
和 0, 0, 0, 4, 0, 0
国 0, 0, 0, 0, 0, 0

算法实现:

 

public static string LCS(string s1, string s2)
{
   if (s1 == s2)
     return s1;
   else if (String.IsNullOrEmpty(s1) || String.IsNullOrEmpty(s2))
     return null;


   var d = new int[s1.Length, s2.Length];
   var index = 0;
   var length = 0;

   for (int i = 0; i < s1.Length; i++)
   {
     for (int j = 0; j < s2.Length; j++)
     {
       // 左上角值
       var n = i - 1 >= 0 && j - 1 >= 0 ? d[i - 1, j - 1] : 0;
       // 当前节点值 = "1 + 左上角值" : "0"
       d[i, j] = s1[i] == s2[j] ? 1 + n : 0;
       // 如果是最大值,则记录该值和行号
       if (d[i, j] > length)
       {
         length = d[i, j];
         index = i;
       }
     }
   }
   return s1.Substring(index - length + 1, length);
}


阅读(797) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~