计算相似度-laoliulaoliu-ChinaUnix博客

miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4662178
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

最近访客

推荐博文

计算相似度

分类：

2012-01-27 16:05:42

文章来源：

顾名思义，就是计算两个item的相似度，这些在数据挖掘中是个很基础的部分，很多数据挖掘的算法都要以此为基础，例如聚类。因为以前总结过，这里就不再详细说了，下面简单列举了4个方法，根据不同的数据样本选择不同的方式。

举个例子，这里有五本书，a，b，c三个童鞋看过，它们对这五本书的评价如下（分数为1～5）：

A = [1, 2, 4, 3, 5]
B = [2, 4, 3, 3, 4]
C = [3, 3, 2, 2, 3]

问题，谁和用户A的口味比较相似？

1，欧几里德距离。这个大家都熟悉，两点之间的欧几里德距离就是两点间距离公式，各维数据相减，平方后相加，再开方。

2，余弦值。将A，B看成两个向量，计算两个向量的余弦值，也就是这两个向量夹角的余弦值，越大表明越相似（即两向量的夹角越小）。考虑下面两个数据，[1,2,1,2,2] 和 [2, 4, 2, 4, 4]，可以看到第二组评分数据每项都是第一组的2倍，这说明两个人的品位也可能相同（只是第一个人要求更严格一些），但是这两个数据若采用上面的欧拉距离，那么得出的差异值就比较大了，而当用余弦计算时，因为两个有倍数关系，这两个向量的夹角是0，所以cos(0) = 1，也说明了两个向量的相似度很高。

3，皮尔森系数。这个公式更复杂，考虑下面两个向量，加入引入了负值评分系统，打分可以从-5 ~ 5了，那么可能有这两个向量[-2, 1, 2, -2, 1] 和 [4, -2, -4, 4, -2]，这两个向量如果使用余弦计算，由于它们是－2倍数的关系，所以cos值仍然是1，但是这两个用户的品位是完全相反的。这时候使用皮尔森系数，结果在-1 ~ 1 之间，对于正倍数关系，它可以象余弦一样得到正值；对于负倍数关系，它会计算产生负值，如上面这两个，它产生的结果是－1，符合我们的“品位相反”。

4。Tanimoto。广义Jaccard系数，在二元属性下归约为Jaccard系数。（Jaccard系数是很简单的公式，请google之），Jaccard系数适合处理非对称二元属性，Tanimoto系数在哪种情况下用的多还不清楚。

看代码就知道公式了，python版的(文件是utf-8编码的），。只要将文件中的sample改成开始我们设置的那三个ABC就可以得到相似度了，进而也就知道谁和用户a的口味比较接近。

- EOF -

代码来源：数据挖掘.html

Python语言:

from math import sqrt

def sim_distance(p1, p2):
    c=set(p1.keys()) & set(p2.keys())
    if not c: return 0
    sum_of_squares = sum([pow(p1.get(sk) - p2.get(sk), 2) for sk in c])
    p = 1/(1 + sqrt(sum_of_squares))
    return p

def sim_distance_pir(p1,p2):
    c = set(p1.keys()) & set(p2.keys())
    if not c: return 0
    s1 = sum([p1.get(sk) for sk in c])
    s2 = sum([p2.get(sk) for sk in c])
    sq1 = sum([pow(p1.get(sk), 2) for sk in c])
    sq2 = sum([pow(p2.get(sk), 2) for sk in c])
    ss = sum([p1.get(sk) * p2.get(sk) for sk in c])
    n = len(c)
    num = ss - (s1*s2/n)
    den = sqrt((sq1-pow(s1,2)/n) * (sq2-pow(s2,2)/n))
    #print s1,s2,sq1,sq2,ss,n,num,den
    if den==0: return 0
    p = num / den
    return p

def sim_distance_jacc(p1,p2):
    c = set(p1.keys()) & set(p2.keys())
    if not c: return 0
    ss = sum([p1.get(sk) * p2.get(sk) for sk in c])
    sq1 = sum([pow(sk,2) for sk in p1.values()])
    sq2 = sum([pow(sk,2) for sk in p2.values()])
    p = float(ss)/(sq1 + sq2 - ss)
    return p

def sim_distance_cos(p1, p2):
    c = set(p1.keys()) & set(p2.keys())
    if not c: return 0
    ss = sum([p1.get(sk) * p2.get(sk) for sk in c])
    sq1 = sqrt(sum([pow(sk,2) for sk in p1.values()]))
    sq2 = sqrt(sum([pow(sk,2) for sk in p2.values()]))
    p = float(ss)/(sq1*sq2)
    return p

#a={'a':4.5,'b':1.0,'c':7}

#from distance import *

def topsimilar(item, data, n=5, sim_func=sim_distance):
    score=[(sim_func(data.get(item), data.get(ik)), ik) for ik in data.keys() if ik!=item]
    score.sort()
    score.reverse()
    return score

prefs= {
        "A" : { "1" : 3, "2" : 4, "3" : 0, "4" : 3, "5" : 3},
        "B" : { "1" : 2, "2" : 3, "3" : 2},
        "C" : { "1" : 2, "2" : 4, "3" : 4, "4" : 3, "5" : 0},
        "D" : { "1" : 0, "2" : 4, "3" : 0, "4" : 2, "5" : 4}
}

print (topsimilar('A', prefs,))
print (topsimilar('A', prefs, sim_func=sim_distance_pir))
print (topsimilar('A', prefs, sim_func=sim_distance_cos))
print (topsimilar('A', prefs, sim_func=sim_distance_jacc))

阅读(1808) | 评论(0) | 转发(0) |

上一篇：NumPy-快速处理数据

下一篇：文本相似度计算--余弦定理和广义Jaccard系数

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6