Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2857301
  • 博文数量: 471
  • 博客积分: 7081
  • 博客等级: 少将
  • 技术积分: 5369
  • 用 户 组: 普通用户
  • 注册时间: 2012-01-04 21:55
文章分类

全部博文(471)

文章存档

2014年(90)

2013年(69)

2012年(312)

分类: C/C++

2012-08-28 17:43:04

许多程序会大量使用字符串。对于不同的字符串,我们希望能够有办法判断其相似程序。我们定义一套操作方法来把两个不相同的字符串变得相同,具体的操作方法为:

  1.修改一个字符(如把“a”替换为“b”);

  2.增加一个字符(如把“abdd”变为“aebdd”);

  3.删除一个字符(如把“travelling”变为“traveling”);

分析与解法  

  不难看出,两个字符串的距离肯定不超过它们的长度之和(我们可以通过删除操作把两个串都转化为空串)。虽然这个结论对结果没有帮助,但至少可以知道,任意两个字符串的距离都是有限的。

  我们还是就住集中考虑如何才能把这个问题转化成规模较小的同样的子问题。如果有两个串A=xabcdae和B=xfdfa,它们的第一个字符是相同的,只要计算A[2,...,7]=abcdae和B[2,...,5]=fdfa的距离就可以了。但是如果两个串的第一个字符不相同,那么可以进行如下的操作(lenA和lenB分别是A串和B串的长度)。

 1.删除A串的第一个字符,然后计算A[2,...,lenA]和B[1,...,lenB]的距离。

 2.删除B串的第一个字符,然后计算A[1,...,lenA]和B[2,...,lenB]的距离。

 3.修改A串的第一个字符为B串的第一个字符,然后计算A[2,...,lenA]和B[2,...,lenB]的距离。

 4.修改B串的第一个字符为A串的第一个字符,然后计算A[2,...,lenA]和B[2,...,lenB]的距离。

 5.增加B串的第一个字符到A串的第一个字符之前,然后计算A[1,...,lenA]和B[2,...,lenB]的距离。

 6.增加A串的第一个字符到B串的第一个字符之前,然后计算A[2,...,lenA]和B[1,...,lenB]的距离。

  在这个题目中,我们并不在乎两个字符串变得相等之后的字符串是怎样的。所以,可以将上面的6个操作合并为:

  1.一步操作之后,再将A[2,...,lenA]和B[1,...,lenB]变成相字符串。

  2.一步操作之后,再将A[2,...,lenA]和B[2,...,lenB]变成相字符串。

  3.一步操作之后,再将A[1,...,lenA]和B[2,...,lenB]变成相字符串。
分析如下:

点击(此处)折叠或打开

  1. 如果source[i] 等于target[j],则:
  2. d[i, j] = d[i, j] + 0
  3.  
  4. 如果source[i] 不等于target[j],则根据插入、删除和替换三个策略,
  5. 分别计算出使用三种策略得到的编辑距离,然后取最小的一个:
  6.  
  7. d[i, j] = min(d[i, j - 1] + 1,d[i - 1, j] + 1,d[i - 1, j - 1] + 1 )
  8.  

  9. d[i, j - 1] + 1 表示对source[i]执行插入操作后计算最小编辑距离
  10. d[i - 1, j] + 1 表示对source[i]执行删除操作后计算最小编辑距离
  11. d[i - 1, j - 1] + 1表示对source[i]替换成target[i]操作后计算最小编辑距离
  12.  

  13. d[i, j]的边界值就是当target为空字符串(m = 0)或source为空字符串(n = 0)时所计算出的编辑距离:
  14. m = 0,对于所有 i:d[i, 0] = i
  15. n = 0,对于所有 j:d[0, j] = j

3.实现过程
a.首先是有两个字符串,这里写一个简单的 abc和abeb.将字符串想象成下面的结构

A处 是一个标记,为了方便讲解,不是这个表的内容。


abcabc
abe0123
a1A处

b2


e3


c.来计算A处 出得值

它的值取决于:左边的1、上边的1、左上角的0.

按照Levenshtein distance的意思:

上面的值和左面的值都要求加1,这样得到1+1=2。

A处 由于是两个a相同,左上角的值加0.这样得到0+0=0。

这是后有三个值,左边的计算后为2,上边的计算后为2,左上角的计算为0,所以A处 取他们里面最小的0.

d.于是表成为下面的样子

abcabc
abe0123
a10

b2B处

e3


B处 会同样得到三个值,左边计算后为3,上边计算后为1,在B处 由于对应的字符为a、b,不相等,所以左上角应该在当前值的基础上加1,这样得到1+1=2,在(3,1,2)中选出最小的为B处的值。

e.于是表就更新了

 


abcabc
abe0123
a10

b21

e3C处

C处 计算后:上面的值为2,左边的值为4,左上角的:a和e不相同,所以加1,即2+1,左上角的为3。

在(2,4,3)中取最小的为C处 的值。

f.于是依次推得到


abc

0123
a1A处 0D处 1G处 2
b2B处 1E处 0H处 1
e3C处 2F处 1I处 1

 

I处: 表示abc 和abe 有1个需要编辑的操作。这个是需要计算出来的。

同时,也获得一些额外的信息。

A处: 表示a      和a      需要有0个操作。字符串一样

B处: 表示ab    和a      需要有1个操作。

C处: 表示abe  和a      需要有2个操作。

D处: 表示a      和ab    需要有1个操作。

E处: 表示ab    和ab    需要有0个操作。字符串一样

F处: 表示abe  和ab    需要有1个操作。

G处: 表示a      和abc   需要有2个操作。

H处: 表示ab    和abc    需要有1个操作。

I处: 表示abe   和abc    需要有1个操作。

d[i][j] :A[i-1] B[j-1]的距离,在后面的判断中要A[i-1]==B[j-1]???,为什么这个初始化我没有想到,搞到后面全都错了,填这个表有点难度!!
用动态规划更喜欢考虑前缀,但使用前缀时数组最好从位置1开始,因为dp数组的初始化一般要占用位置0,但字符串不方便从1开始读入 

点击(此处)折叠或打开

  1. #include
  2. #include
  3. #define Max 500


  4. int d[Max+10][Max+10];
  5. char str1[Max],str2[Max];

  6.     int minValue(int a,int b,int c)
  7.     {
  8.         if(a
  9.             return a;
  10.         else if(b
  11.             return b;
  12.         else
  13.             return c;
  14.     }

  15.     int simofstring(char la[],char lb[])
  16.     {
  17.         //memset(d,0,sizeof(d));
  18.         int lenA=strlen(la);
  19.         int lenB=strlen(lb);

  20.         printf("A: %d B: %d\n",lenA,lenB);
  21.         int i,j;
  22.         
  23.         for(i=0;i<=lenA;i++)
  24.         {
  25.             d[i][0]=i;//相当于某个字符串为空
  26.         }
  27.         for(j=1;j<=lenB;j++)
  28.         {
  29.             d[0][j]=j;//初始化边界    
  30.         }

  31.         //动态规划填表
  32.         for(i=1;i<=lenA;i++)
  33.         {
  34.             for(j=1;j<=lenB;j++)
  35.             {
  36.                 if(la[i-1]==lb[j-1])
  37.                 {
  38.                     d[i][j]=d[i-1][j-1]+0;
  39.                 }
  40.                 else
  41.                 {    
  42.                     d[i][j]=minValue(d[i][j-1]+1,d[i-1][j]+1,d[i-1][j-1]+1);
  43.                 }
  44.             }
  45.         }
  46.         //动态规划填表
  47.         for(i=0;i<=lenA;i++)
  48.         {
  49.             for(j=0;j<=lenB;j++)
  50.             {    
  51.                 printf("%d ",d[i][j]);
  52.             }
  53.             printf("\n");
  54.         }
  55.         
  56.     
  57.     return d[lenA][lenB];
  58. }


  59. int main()
  60. {
  61.     char * A="abeaa";
  62.     char * B="";
  63.     int dis=simofstring(A,B);
  64.     printf("%d\n",dis);
  65.     return 0;
  66. }
  67. /*
  68. A: 5 B: 0
  69. 0
  70. 1
  71. 2
  72. 3
  73. 4
  74. 5
  75. 5
  76. Press any key to continue
  77. */

阅读(2311) | 评论(1) | 转发(0) |
给主人留下些什么吧!~~

nba76ers2012-08-28 22:17:55

用动态规划更喜欢考虑前缀,但使用前缀时数组最好从位置1开始,因为dp数组的初始化一般要占用位置0,但字符串不方便从1开始读入,