集体智慧之协同过滤-bluecase-ChinaUnix博客

生活在别处xiangyu.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

bluecase

博客访问： 188315
博文数量： 13
博客积分： 1660
博客等级：上尉
技术积分： 688
用户组：普通用户
注册时间： 2008-08-04 16:38

文章分类

全部博文（13）

思考，快与慢（0）
互联网（1）
数据分析（8）
C++（0）
Linux内核相关（0）
python相关（0）
Linux系统（2）
数据库相关（2）
未分配的博文（0）

文章存档

2014年（2）

2013年（11）

我的朋友

相关博文

集体智慧之协同过滤

分类：云计算

2013-01-13 15:20:15

1.协同过滤的主要部分是相似度的计算，直接抽象成物品间距离的计算比较方便理解和计算。

方法有很多，比如我们都学过的欧几里得，相关性系数，具体公式就不细讲了。真实的推荐系统的计算方式就复杂了，做系统的时候再深入了解好了。

ps：相关性系数可以修正用户标准不一致问题。比如有人打分苛刻，有人打分偏高导致推荐不一致的问题。

2.存储方式：

这里是一个全矩阵。用双层dict保存。

稀疏矩阵：基于物品的存储空间要远基于用户

密集矩阵：存储空间差不多

如下图是个用户和物品的分数表，中间是分值。比如user3对item3的打分是3.

	item1	item2	item3	item4	item5
user1	1	3	2	5	1
user2	2	3	3	4	2
user3	3	4	3	5	3
user4	1	2	2	5	1

3.基于用户：这里不考虑对用户分类

A基于用户的协同过滤:通过物品的得分计算----->找到相似的用户---->找该用户的其他物品(这里考虑了你的所有物品加权)

例如user1的v向量=[1,3,2,5,2]

我们将user1的向量和其他三个向量求余弦，或者相关性系数。等到user4的距离最近。

然后我们找user4喜欢的物品，推荐给A

ps：人的兴趣爱好会跟随他的操作而变化，计算量就会比较大，只能尽量做到实时。

4.基于物品

B基于物品的协同过滤:找相似的物品(规则要确定，如同一个作家，同一个分类等)，(这里就没有个性化推荐在里面，一物对一物)

例如：计算出item1的相似物品为item5. 对用户推荐item5.

ps：物品的加权计算基本上不会变化。所以可以离线计算,但是需要维护一个物品相似度表

代码实现思路:

---------------calculateSimlarItems()-------------------------------------\

getUsrIDByName(steven)-------->getTopGoryListByUsrID(usrID,limit)------->getSimlarItemsByGoryList(goryList)

基于物品的推荐，需要维持一张物品关系表。基于用户的推荐需要维护一张用户关系表：

1.基于物品推荐的顺序：人名--------->得到历史物品---------->查表，得到相关物品列表--------->去除无效物品---------->取topN

2.基于用户推荐的顺序：人名--------->查表，得到相关用户----->获得相关用户的物品------------>去除无效物品---------->取topN

阅读(2174) | 评论(0) | 转发(0) |

上一篇：集体智慧之概念介绍

下一篇：集体智慧之聚类

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6