编辑距离-华南理工大学-ChinaUnix博客

yaoxingliu's&nbsp;blog

首页　| 　博文目录　| 　关于我

华南理工大学

博客访问： 350682
博文数量： 122
博客积分： 5000
博客等级：大校
技术积分： 1191
用户组：普通用户
注册时间： 2009-10-24 11:12

文章分类

全部博文（122）

Perl编程语言（0）
数据库知识（0）
Java编程语言（0）
C/C++语言（0）
Linux（0）
算法（0）

逆序数（0）

RMQ（0）

技巧题（0）

栈（0）

队列（0）

二叉树（0）

高精度计算（0）

LCA（0）

哈希法（0）

堆（0）

贪心算法（0）

组合数学（0）

其他（0）

Trie树（0）

查找算法（0）

图论（0）

数论（0）

简单题（0）

树状数组（0）

线段树（0）

并查集（0）

递归回溯（0）

动态规划（0）

计算几何（0）

排序算法（0）

STL（0）
未分配的博文（122）

文章存档

2010年（122）

我的朋友

相关博文

编辑距离

分类： C/C++

2010-03-01 19:36:25

资源来源：http://blog.chinaunix.net/u3/105033/index.html

一、问题描述

设A和B是两个字符串。要用最少的字符操作将字符串A转换为字符串B。这里所说的字符操作包括：

（1）删除一个字符；

（2）插入一个字符；

（3）将一个字符改为另一个字符；

将字符串A变换为字符串B所用的最少字符操作数称为字符串A到B的编辑距离，记为d(A,B)。试设计一个有效算法，对任给的两个字符串A和B，计算出它们的编辑距离d(A,B)。

二、分析解答

设所给的两个字符串为A[1:m]和B[1:n]。定义D[i][j]=d(A[1:i],B[1,j])。单字符a,b间的距离定义为：

d(a,b)=0 (a=b)

d(a,b)=1(a!=b)

考察从字符串A[1:i]到字符串B[1:j]的变换。可分成以下几种情况：
（1）字符A[i]改为字符B[j]；需要d(A[i],B[j])次操作。

（2）删除字符A[i]；需要1次操作。

（3）插入字符B[j]；需要1次操作。
因此，D[i][j]可递归地计算如下。

D[i][j]=min{D[i-1][j-1]+d(A[i],B[j]),D[i-1][j]+1,D[i][j-1]+1}。

三、算法描述

int dist(A[0…m-1],B[0…n-1])

{

int D[0…m,0…n]

int i,j,cost

对于i等于0至m

D[i, 0]=i

对于j等于0至n

D[0,j]=j

对于i等于1至m

对于j等于1至n

若 A[i-1]=B[j-1]则cost=0 否则 cost=1

D[i][j]=min(D[i-1,j]+1,//删除

D[i,j-1]+1,//插入

D[i-1,j-1]+cost//替换

)

返回d[m,n]

}

四、代码实现

定义一个二维数组D[][]存储中间结果，如下图所示，为已经初始化后的情况。然后从D[1,1]开始从左到右，从上到下依次按填表，表的最后一个元素D[m,n]就是要求的最终结果。

	0	1	2	3	4	5	6
0	0	1	2	3	4	5	6
1	1
2	2
3	3
4	4
5	5
6	6

#include<iostream> #include<string> using namespace std; int D[100][100]; int dis[100]; int min(int a,int b,int c) { return c<(a>b?b:a)?c:(a>b?b:a); } int dist(char * A,char * B) { int m=strlen(A); int n=strlen(B); int i,j; for(i=0;i<=m;++i) { D[i][0]=i; } for(j=0;j<=n;++j) { D[0][j]=j; } int cost; for(i=1;i<=m;++i) { for(j=1;j<=n;++j) { if(A[i-1]==B[j-1]) cost=0; else cost=1; D[i][j]=min(D[i-1][j-1]+cost,D[i-1][j]+1,D[i][j-1]+1); } } return D[m][n]; } int dist2(char * A,char * B) { int m=strlen(A); int n=strlen(B); int i,j; for(i=0;i<=n;++i) dis[i]=i; int cost; for(i=1;i<=m;++i) { int y=i-1; for(j=1;j<=n;++j) { int x=y; y=dis[j]; int z=j>1?dis[j-1]:i; cost=A[i-1]==B[j-1]?0:1; dis[j]=min(x+cost,y+1,z+1); } } return dis[n]; } int main(int argc, char* argv[]) { char * ch1="bcdefghijklmnopq"; char * ch2="abcdefghijklmnopadfsafwe"; cout<<dist(ch1,ch2)<<endl; cout<<dist2(ch1,ch2)<<endl; return 0; }

五、优化方法

从上面算法可以看出，该算法时间复杂性为0(m*n),空间复杂性为O（m*n）。同时可以看出，当对第i行进行填表时，只需要用到第i-1行的数据，因此可以用一个一维数组dis[0…n]代替二维数组D[0…m,0…n]，因此空间复杂性降为O(n)。实现代码如上面函数dist2()所示。

阅读(1880) | 评论(0) | 转发(0) |

上一篇：没有了

下一篇：POJ 1844 Sum 解题报告

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6