集体智慧之概念介绍_bluecase-ChinaUnix博客

生活在别处xiangyu.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

bluecase

博客访问： 188304
博文数量： 13
博客积分： 1660
博客等级：上尉
技术积分： 688
用户组：普通用户
注册时间： 2008-08-04 16:38

文章分类

全部博文（13）

思考，快与慢（0）
互联网（1）
数据分析（8）
C++（0）
Linux内核相关（0）
python相关（0）
Linux系统（2）
数据库相关（2）
未分配的博文（0）

文章存档

2014年（2）

2013年（11）

我的朋友

最近访客

推荐博文

集体智慧之概念介绍

发布时间：2013-01-13 13:41:20

好久前的笔记，翻出来整理了下，顺便mark之。一，史前时代之基于人口统计的推荐顾名思义，就是针对用户的年龄，性别，地域等基本属性来推荐物品，会对这些基本属性属于一个分类的用户推荐一类物品。它的优点是可以解决冷启动的问题，缺点是比较粗造。例子：第一次进入亚马逊，当当，推荐你本年度中国最受欢迎的热门书籍。一点自己的看法： 1，推荐本质上是从数据中获取信息，信息就是用来消除不确定性的，这里可以避免冷启动不是由于他不需要数据，而是选择了直接利用了现实生活中信息，这......【阅读全文】

阅读(2236) | 评论(0) | 转发(0)

Hadoop的二次排序

发布时间：2013-01-08 14:46:53

hadoop的使用中，一般只关注运行结果。对于mapper和reducer之间的处理逻辑往往不care。比如key-value对到达reducer的先后顺序等目前接触到的运用场景有：1.根据用户操作时间来整理事件链，在网站分析里比较常用。需要按时间先后顺序来处理，如果过亿的访问操作全在reducer里来排序，对计算能力和内存都是一个挑战。2.海量数据处理中，求去重distinct这种操作，往往需要先缓存很大的数据集，对单个reducer的内存要求很高，特别是上亿的数据时，很容易就撑爆内存。这里如果在reducer进入前就排好序，后续处理就简单的多。二次排序相当于把一个reducer的负载推给了......【阅读全文】

阅读(6536) | 评论(1) | 转发(2)

R语言的PostgreSQL库连接

发布时间：2013-01-03 00:18:23

require(RPostgreSQL) # 读入driver drv = dbDriver("PostgreSQL") # 填写连接信息
pgdb = dbConnect(drv, user="ta", password="ta6699#",host="10.136.130.148")
# 查询语句 rs = dbSendQuery(pgdb, statement = "SQL语句") # 收割结果 df = fetch(rs, n = -1) # 其实可以直接执行查询返回结果&......【阅读全文】

阅读(5869) | 评论(0) | 转发(0)

给主人留下些什么吧！~~

noiplee2012-01-16 16:11

bluecase: 我blog啥都没有，还有留言的？.....

有缘啊

回复　　| 　举报

noiplee2010-12-10 22:04

回复　　| 　举报

留言热议

请登录后留言。

登录注册

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6