Chinaunix首页 | 论坛 | 博客
  • 博客访问: 186499
  • 博文数量: 13
  • 博客积分: 1660
  • 博客等级: 上尉
  • 技术积分: 688
  • 用 户 组: 普通用户
  • 注册时间: 2008-08-04 16:38
文章分类
文章存档

2014年(2)

2013年(11)

发布时间:2013-01-08 14:46:53

hadoop的使用中,一般只关注运行结果。对于mapper和reducer之间的处理逻辑往往不care。比如key-value对到达reducer的先后顺序等目前接触到的运用场景有:1.根据用户操作时间来整理事件链,在网站分析里比较常用。需要按时间先后顺序来处理,如果过亿的访问操作全在reducer里来排序,对计算能力和内存都是一个挑战。2.海量数据处理中,求去重distinct这种操作,往往需要先缓存很大的数据集,对单个reducer的内存要求很高,特别是上亿的数据时,很容易就撑爆内存。这里如果在reducer进入前就排好序,后续处理就简单的多。二次排序相当于把一个reducer的负载推给了......【阅读全文】

阅读(6384) | 评论(1) | 转发(2)

发布时间:2013-01-07 20:06:11

鉴于今天浪费了半小时找原因。 在此记下:1.修改/etc/rsyncd.conf 增加一个模块,配置path,hosts allow,read only等相关选项2.修改/etc/rsyncd/rsyncd.secrets 增加一个用户名和密码3.从客户端发起连接rsync -avH  user@ip::mod_name/远程目录  本地目录备注: 这里ip后面如果是双冒号,是要跟模块名的。而单冒号是不需要的。       而且还是多次输入密码失败。 导致以为是密码的问题,纠结半天。另外一种连接方式是:/usr/bin/rsync -......【阅读全文】

阅读(1745) | 评论(0) | 转发(0)

发布时间:2013-01-03 00:18:23

require(RPostgreSQL) # 读入driver drv = dbDriver("PostgreSQL") # 填写连接信息
pgdb = dbConnect(drv, user="ta", password="ta6699#",host="10.136.130.148")
# 查询语句 rs = dbSendQuery(pgdb, statement = "SQL语句") # 收割结果 df = fetch(rs, n = -1) # 其实可以直接执行查询返回结果&......【阅读全文】

阅读(5833) | 评论(0) | 转发(0)
给主人留下些什么吧!~~

noiplee2012-01-16 16:11

bluecase: 我blog啥都没有,还有留言的?.....
有缘啊

回复  |  举报

noiplee2010-12-10 22:04

回复  |  举报
留言热议
请登录后留言。

登录 注册