计算相似度-laoliulaoliu_cu-ChinaUnix博客

miracle

首页　| 　博文目录　| 　关于我

LaoLiulaoliu_cu

博客访问： 847104
博文数量： 330
博客积分： 9641
博客等级：中将
技术积分： 3181
用户组：普通用户
注册时间： 2007-01-19 14:41

文章分类

全部博文（330）

language（1）
machine learning（3）
science（1）
opencourse（0）
windows（3）
search（11）
algorithm（34）
database（3）
compiler（8）
ACE（5）
poem（1）
programming（21）
python（16）
assembly（1）
linux（29）
C++（12）
book（1）
cate（1）
phliosophy（2）
mental（21）
Science fiction（1）
Software（3）
c（19）
network（23）
CS（5）
thinking（4）
BSD（11）
solaris10（0）
life（32）
Debian（7）
economy（2）
Mathematics（27）
OS（3）
ibm（1）
gentoo（15）
未分配的博文（3）

文章存档

2012年（17）

2011年（135）

2010年（85）

2009年（57）

2008年（36）

我的朋友

最近访客

推荐博文

计算相似度

分类：

2012-01-27 16:05:42

文章来源：

顾名思义，就是计算两个item的相似度，这些在数据挖掘中是个很基础的部分，很多数据挖掘的算法都要以此为基础，例如聚类。因为以前总结过，这里就不再详细说了，下面简单列举了4个方法，根据不同的数据样本选择不同的方式。

举个例子，这里有五本书，a，b，c三个童鞋看过，它们对这五本书的评价如下（分数为1～5）：

A = [1, 2, 4, 3, 5]
B = [2, 4, 3, 3, 4]
C = [3, 3, 2, 2, 3]

问题，谁和用户A的口味比较相似？

1，欧几里德距离。这个大家都熟悉，两点之间的欧几里德距离就是两点间距离公式，各维数据相减，平方后相加，再开方。

2，余弦值。将A，B看成两个向量，计算两个向量的余弦值，也就是这两个向量夹角的余弦值，越大表明越相似（即两向量的夹角越小）。考虑下面两个数据，[1,2,1,2,2] 和 [2, 4, 2, 4, 4]，可以看到第二组评分数据每项都是第一组的2倍，这说明两个人的品位也可能相同（只是第一个人要求更严格一些），但是这两个数据若采用上面的欧拉距离，那么得出的差异值就比较大了，而当用余弦计算时，因为两个有倍数关系，这两个向量的夹角是0，所以cos(0) = 1，也说明了两个向量的相似度很高。

3，皮尔森系数。这个公式更复杂，考虑下面两个向量，加入引入了负值评分系统，打分可以从-5 ~ 5了，那么可能有这两个向量[-2, 1, 2, -2, 1] 和 [4, -2, -4, 4, -2]，这两个向量如果使用余弦计算，由于它们是－2倍数的关系，所以cos值仍然是1，但是这两个用户的品位是完全相反的。这时候使用皮尔森系数，结果在-1 ~ 1 之间，对于正倍数关系，它可以象余弦一样得到正值；对于负倍数关系，它会计算产生负值，如上面这两个，它产生的结果是－1，符合我们的“品位相反”。

4。Tanimoto。广义Jaccard系数，在二元属性下归约为Jaccard系数。（Jaccard系数是很简单的公式，请google之），Jaccard系数适合处理非对称二元属性，Tanimoto系数在哪种情况下用的多还不清楚。

看代码就知道公式了，python版的(文件是utf-8编码的），。只要将文件中的sample改成开始我们设置的那三个ABC就可以得到相似度了，进而也就知道谁和用户a的口味比较接近。

- EOF -

代码来源：数据挖掘.html

Python语言:

from math import sqrt

def sim_distance(p1, p2):
    c=set(p1.keys()) & set(p2.keys())
    if not c: return 0
    sum_of_squares = sum([pow(p1.get(sk) - p2.get(sk), 2) for sk in c])
    p = 1/(1 + sqrt(sum_of_squares))
    return p

def sim_distance_pir(p1,p2):
    c = set(p1.keys()) & set(p2.keys())
    if not c: return 0
    s1 = sum([p1.get(sk) for sk in c])
    s2 = sum([p2.get(sk) for sk in c])
    sq1 = sum([pow(p1.get(sk), 2) for sk in c])
    sq2 = sum([pow(p2.get(sk), 2) for sk in c])
    ss = sum([p1.get(sk) * p2.get(sk) for sk in c])
    n = len(c)
    num = ss - (s1*s2/n)
    den = sqrt((sq1-pow(s1,2)/n) * (sq2-pow(s2,2)/n))
    #print s1,s2,sq1,sq2,ss,n,num,den
    if den==0: return 0
    p = num / den
    return p

def sim_distance_jacc(p1,p2):
    c = set(p1.keys()) & set(p2.keys())
    if not c: return 0
    ss = sum([p1.get(sk) * p2.get(sk) for sk in c])
    sq1 = sum([pow(sk,2) for sk in p1.values()])
    sq2 = sum([pow(sk,2) for sk in p2.values()])
    p = float(ss)/(sq1 + sq2 - ss)
    return p

def sim_distance_cos(p1, p2):
    c = set(p1.keys()) & set(p2.keys())
    if not c: return 0
    ss = sum([p1.get(sk) * p2.get(sk) for sk in c])
    sq1 = sqrt(sum([pow(sk,2) for sk in p1.values()]))
    sq2 = sqrt(sum([pow(sk,2) for sk in p2.values()]))
    p = float(ss)/(sq1*sq2)
    return p

#a={'a':4.5,'b':1.0,'c':7}

#from distance import *

def topsimilar(item, data, n=5, sim_func=sim_distance):
    score=[(sim_func(data.get(item), data.get(ik)), ik) for ik in data.keys() if ik!=item]
    score.sort()
    score.reverse()
    return score

prefs= {
        "A" : { "1" : 3, "2" : 4, "3" : 0, "4" : 3, "5" : 3},
        "B" : { "1" : 2, "2" : 3, "3" : 2},
        "C" : { "1" : 2, "2" : 4, "3" : 4, "4" : 3, "5" : 0},
        "D" : { "1" : 0, "2" : 4, "3" : 0, "4" : 2, "5" : 4}
}

print (topsimilar('A', prefs,))
print (topsimilar('A', prefs, sim_func=sim_distance_pir))
print (topsimilar('A', prefs, sim_func=sim_distance_cos))
print (topsimilar('A', prefs, sim_func=sim_distance_jacc))

阅读(671) | 评论(0) | 转发(0) |

上一篇：redis学习笔记

下一篇：文本相似度计算--余弦定理和广义Jaccard系数

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6