计算两个字符串的相似度---动态规划实现：关键是填表-nba76ers-ChinaUnix博客

Arvil to dreamiforeverlove.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

nba76ers

博客访问： 2922006
博文数量： 471
博客积分： 7081
博客等级：少将
技术积分： 5369
用户组：普通用户
注册时间： 2012-01-04 21:55

文章分类

全部博文（471）

web开发（1）
app开发（4）
tomcat（8）

tomcat配置（8）
Tomcat优化（2）
架构类（4）
gpddddddi（2）
python（32）

经典面试题目（4）

应用开发（1）

python 的we（2）

透彻python编程（14）

python简明教程（10）
web前端开发（8）

css（2）

JS（1）

html（4）
运维自动化（3）

fabric（1）
系统设计题（0）
C的底层知识（0）
智力研究（0）
概率（3）
百度（0）
数组（8）
位存储（3）
递归（0）
算法题（8）
操作系统（2）
java百练（9）
sql百练（13）
linux笔试（4）

linux shell编程（2）

linux面试题（0）
acm总结（3）
图的算法（24）

最大二分匹配（3）

每对顶点间的最短（0）

单源最短路径（2）

最小生成树（4）

拓扑排序（2）

BFS广度优先搜索（6）

DFS深度优先搜索（6）

搜索专题（1）
数据结构（44）

外部排序（1）

stl Map（1）

二叉树（6）

递归专题（0）

堆（0）

优先队列（3）

八大排序与三大查（4）

最优二叉树(哈夫（0）

字符串（8）

B树（0）

红黑树（0）

栈和队列（4）

并查集（不相交集（0）

二叉查找树（4）

Hash散列表（6）

字典树（3）

链表（4）
收集面试（6）
acm（28）

二分搜索专题（3）

快速取幂算法（1）

递推专题（2）

背包问题（2）

贪心算法（3）

动态规划（2）

简单计算（7）

打表（1）

母函数（7）
mysql（85）

sql练习（12）

mysql配置文件优（5）

mysql维护管理（11）

mysql SQL语（9）

性能优化（17）

mysql入门很简单（31）
beautyofprogramm（0）

topK（0）
little java（4）
海量数据专题（2）
spring2.5（15）
struts2（3）
hadoop（4）
java（59）

spring（3）

JVM原理（4）

收集公司笔试（2）

java组件（1）

javaIO（3）

JDK底层实现（5）

jvm 优化系列（3）

线程系列（7）

java反射系列（12）

java 基础用法注（19）
网络编程（20）
linux基础（54）

awk（0）

sed（3）

Linux Shell（18）

linux编程环境（5）

进程管理与监控（8）

linux常用命令解（20）
未分配的博文（6）

文章存档

2014年（90）

2013年（69）

2012年（312）

我的朋友

相关博文

计算两个字符串的相似度---动态规划实现：关键是填表

分类： C/C++

2012-08-28 17:43:04

许多程序会大量使用字符串。对于不同的字符串，我们希望能够有办法判断其相似程序。我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为：

　　1.修改一个字符（如把“a”替换为“b”）;

　　2.增加一个字符（如把“abdd”变为“aebdd”）;

　　3.删除一个字符（如把“travelling”变为“traveling”）;

分析与解法　　

　　不难看出，两个字符串的距离肯定不超过它们的长度之和（我们可以通过删除操作把两个串都转化为空串）。虽然这个结论对结果没有帮助，但至少可以知道，任意两个字符串的距离都是有限的。

　　我们还是就住集中考虑如何才能把这个问题转化成规模较小的同样的子问题。如果有两个串A=xabcdae和B=xfdfa，它们的第一个字符是相同的，只要计算A[2,...,7]=abcdae和B[2,...,5]=fdfa的距离就可以了。但是如果两个串的第一个字符不相同，那么可以进行如下的操作（lenA和lenB分别是A串和B串的长度）。

　1.删除A串的第一个字符，然后计算A[2,...,lenA]和B[1,...,lenB]的距离。

　2.删除B串的第一个字符，然后计算A[1,...,lenA]和B[2,...,lenB]的距离。

　3.修改A串的第一个字符为B串的第一个字符，然后计算A[2,...,lenA]和B[2,...,lenB]的距离。

　4.修改B串的第一个字符为A串的第一个字符，然后计算A[2,...,lenA]和B[2,...,lenB]的距离。

　5.增加B串的第一个字符到A串的第一个字符之前，然后计算A[1,...,lenA]和B[2,...,lenB]的距离。

　6.增加A串的第一个字符到B串的第一个字符之前，然后计算A[2,...,lenA]和B[1,...,lenB]的距离。

　　在这个题目中，我们并不在乎两个字符串变得相等之后的字符串是怎样的。所以，可以将上面的6个操作合并为：

　　1.一步操作之后，再将A[2,...,lenA]和B[1,...,lenB]变成相字符串。

　　2.一步操作之后，再将A[2,...,lenA]和B[2,...,lenB]变成相字符串。

　　3.一步操作之后，再将A[1,...,lenA]和B[2,...,lenB]变成相字符串。
分析如下：

点击(此处)折叠或打开

如果source[i] 等于target[j]，则：
d[i, j] = d[i, j] + 0
如果source[i] 不等于target[j]，则根据插入、删除和替换三个策略，
分别计算出使用三种策略得到的编辑距离，然后取最小的一个：
d[i, j] = min(d[i, j - 1] + 1，d[i - 1, j] + 1，d[i - 1, j - 1] + 1 )
d[i, j - 1] + 1 表示对source[i]执行插入操作后计算最小编辑距离
d[i - 1, j] + 1 表示对source[i]执行删除操作后计算最小编辑距离
d[i - 1, j - 1] + 1表示对source[i]替换成target[i]操作后计算最小编辑距离
d[i, j]的边界值就是当target为空字符串（m = 0）或source为空字符串（n = 0）时所计算出的编辑距离：
m = 0，对于所有 i：d[i, 0] = i
n = 0，对于所有 j：d[0, j] = j

3.实现过程
a.首先是有两个字符串,这里写一个简单的 abc和abeb.将字符串想象成下面的结构

A处是一个标记，为了方便讲解，不是这个表的内容。

	abc	a	b	c
abe	0	1	2	3
a	1	A处
b	2
e	3

c.来计算A处出得值

它的值取决于：左边的1、上边的1、左上角的0.

按照Levenshtein distance的意思：

上面的值和左面的值都要求加1，这样得到1+1=2。

A处由于是两个a相同，左上角的值加0.这样得到0+0=0。

这是后有三个值，左边的计算后为2，上边的计算后为2，左上角的计算为0，所以A处取他们里面最小的0.

d.于是表成为下面的样子

	abc	a	b	c
abe	0	1	2	3
a	1	0
b	2	B处
e	3

在B处会同样得到三个值，左边计算后为3，上边计算后为1，在B处由于对应的字符为a、b，不相等，所以左上角应该在当前值的基础上加1，这样得到1+1=2，在（3,1,2）中选出最小的为B处的值。

e.于是表就更新了

	abc	a	b	c
abe	0	1	2	3
a	1	0
b	2	1
e	3	C处

C处计算后：上面的值为2，左边的值为4，左上角的：a和e不相同，所以加1，即2+1，左上角的为3。

在（2,4,3）中取最小的为C处的值。

f.于是依次推得到

		a	b	c
	0	1	2	3
a	1	A处 0	D处 1	G处 2
b	2	B处 1	E处 0	H处 1
e	3	C处 2	F处 1	I处 1

I处: 表示abc 和abe 有1个需要编辑的操作。这个是需要计算出来的。

同时，也获得一些额外的信息。

A处: 表示a 和a 需要有0个操作。字符串一样

B处: 表示ab 和a 需要有1个操作。

C处: 表示abe 和a 需要有2个操作。

D处: 表示a 和ab 需要有1个操作。

E处: 表示ab 和ab 需要有0个操作。字符串一样

F处: 表示abe 和ab 需要有1个操作。

G处: 表示a 和abc 需要有2个操作。

H处: 表示ab 和abc 需要有1个操作。

I处: 表示abe 和abc 需要有1个操作。

d[i][j] ：A[i-1] B[j-1]的距离，在后面的判断中要A[i-1]==B[j-1]???,为什么这个初始化我没有想到，搞到后面全都错了，填这个表有点难度！！
用动态规划更喜欢考虑前缀，但使用前缀时数组最好从位置1开始，因为dp数组的初始化一般要占用位置0，但字符串不方便从1开始读入

点击(此处)折叠或打开

#include
#include
#define Max 500
int d[Max+10][Max+10];
char str1[Max],str2[Max];
int minValue(int a,int b,int c)
{
if(a
return a;
else if(b
return b;
else
return c;
}
int simofstring(char la[],char lb[])
{
//memset(d,0,sizeof(d));
int lenA=strlen(la);
int lenB=strlen(lb);
printf("A: %d B: %d\n",lenA,lenB);
int i,j;
for(i=0;i<=lenA;i++)
{
d[i][0]=i;//相当于某个字符串为空
}
for(j=1;j<=lenB;j++)
{
d[0][j]=j;//初始化边界
}
//动态规划填表
for(i=1;i<=lenA;i++)
{
for(j=1;j<=lenB;j++)
{
if(la[i-1]==lb[j-1])
{
d[i][j]=d[i-1][j-1]+0;
}
else
{
d[i][j]=minValue(d[i][j-1]+1,d[i-1][j]+1,d[i-1][j-1]+1);
}
}
}
//动态规划填表
for(i=0;i<=lenA;i++)
{
for(j=0;j<=lenB;j++)
{
printf("%d ",d[i][j]);
}
printf("\n");
}
return d[lenA][lenB];
}
int main()
{
char * A="abeaa";
char * B="";
int dis=simofstring(A,B);
printf("%d\n",dis);
return 0;
}
/*
A: 5 B: 0
0
1
2
3
4
5
5
Press any key to continue
*/

char * A="abeaa";
char * B="aef";
A: 5 B: 3

0 1 2 3

1 0 1 2

2 1 1 2

3 2 1 2

4 3 2 2

5 4 3 3

Press any key to continue

阅读(2413) | 评论(1) | 转发(0) |

0

上一篇：Common Subsequence 最大公共字符串

下一篇：多路平衡归并的实现--败者树

给主人留下些什么吧！~~

nba76ers2012-08-28 22:17:55

用动态规划更喜欢考虑前缀，但使用前缀时数组最好从位置1开始，因为dp数组的初始化一般要占用位置0，但字符串不方便从1开始读入，

回复 | 举报

评论热议

请登录后评论。
登录注册