可能是史上代码最少的协同过滤推荐引擎-laoliulaoliu-ChinaUnix博客

miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4635909
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

相关博文

可能是史上代码最少的协同过滤推荐引擎

分类： Python/Ruby

2012-05-11 20:15:36

文章来源：http://www.wentrue.net/blog/?p=970

自世界杯开幕以来，这是首次看不到球赛的两天，看不了球，就写篇博客吧，标题比较有噱头，实际上是用R实现的item-based CF推荐算法。

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

# 读入数据，原数据是user-subject的收藏二元组
data = read.table('data.dat', sep=',', header=TRUE)
# 标识user与subject的索引
user = unique(data$user_id)
subject = unique(data$subject_id)
uidx = match(data$user_id, user)
iidx = match(data$subject_id, subject)
# 从二元组构造收藏矩阵
M = matrix(0, length(user), length(subject))
i = cbind(uidx, iidx)
M[i] = 1
# 对列向量（subject向量）进行标准化，%*%为矩阵乘法
mod = colSums(M^2)^0.5 # 各列的模
MM = M %*% diag(1/mod) # M乘以由1/mod组成的对角阵，实质是各列除以该列的模
#crossprod实现MM的转置乘以MM，这里用于计算列向量的内积，S为subject的相似度矩阵
S = crossprod(MM)
# user-subject推荐的分值
R = M %*% S
R = apply(R, 1, FUN=sort, decreasing=TRUE, index.return=TRUE)
k = 5 # 取出前5个分值最大的subject
res = lapply(R, FUN=function(r)return(subject[r$ix[1:k]]))
# 输出数据
write.table(paste(user, res, sep=':'), file='result.dat', quote=FALSE, row.name=FALSE, col.name=FALSE)

除去注释，有效代码只有16行。其中大量运用了向量化的函数与处理方式，所以没有任何的显式循环结构，关于向量化更详细的叙述可看这里。

注：该代码实现的只是最基本算法，仅作参考，不承诺在大规模与复杂数据环境下的实用性。

源数据文件data.dat的内容如下所列：

user_id,subject_id

1,1

1,3

1,7

1,13

2,2

2,5

2,6

2,7

2,9

2,10

2,11

3,1

3,2

3,3

3,4

3,7

3,9

3,10

5,13

6,1

6,3

6,4

6,5

6,8

6,10

8,1

8,2

8,3

8,5

8,6

8,7

8,8

9,13

10,12

11,2

11,3

11,4

11,6

11,8

11,9

11,13

12,12

13,3

13,6

13,7

15,4

15,12

15,13

16,2

16,3

16,4

16,7

16,8

17,2

17,3

17,4

17,5

17,6

17,7

17,8

17,9

17,10

17,11

18,2

18,3

19,2

19,3

19,5

19,6

19,9

19,10

19,11

19,12

20,1

20,3

20,4

20,7

20,13

21,1

21,6

21,8

21,9

21,11

21,12

21,13

22,6

23,2

23,4

23,9

23,12

24,1

24,5

24,9

25,2

25,6

25,10

25,11

26,2

26,3

26,8

27,3

27,6

27,12

27,13

28,1

28,2

28,3

28,5

28,7

28,9

28,10

28,11

28,12

28,13

29,1

29,2

29,3

29,4

29,5

29,6

29,7

29,8

29,9

29,10

30,6

30,7

30,9

30,13

31,6

31,11

32,1

32,5

33,2

33,13

34,3

34,7

34,8

34,9

34,10

34,13

35,3

35,4

35,5

35,6

35,7

36,2

36,3

36,4

36,6

36,7

36,8

36,9

36,11

36,12

36,13

38,5

41,1

41,3

41,4

41,5

41,6

41,7

41,11

42,2

42,3

42,7

42,8

42,9

42,10

42,11

43,2

43,6

43,10

43,11

43,12

阅读(2242) | 评论(0) | 转发(0) |

上一篇：R语言矩阵运算

下一篇：图说协同过滤

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6