Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1398241
  • 博文数量: 277
  • 博客积分: 2551
  • 博客等级: 少校
  • 技术积分: 3918
  • 用 户 组: 普通用户
  • 注册时间: 2011-02-21 22:46
文章分类

全部博文(277)

文章存档

2017年(3)

2016年(9)

2015年(65)

2014年(27)

2013年(85)

2012年(61)

2011年(27)

分类: 大数据

2015-03-23 22:10:41

     mapreduce每map一次,就相当于降低了维度。可以是降低了单维度,也可以是降低了多个维度,相当于进行了维度分裂。
     每一次map可以是做聚合(多个字段合成一个新字段)
                    也可以做转换(字段转换)
     mapreduce有一个最大的问题,就是不能多级同时处理,而且不能保存一些状态数据
     流式处理不仅仅体现在数据的输入上是流动的,而且可以一级一级地往下传递
     流式处理的优点主要适应实时处理,多级处理,可以保存状态。
     mapreduce适合的离线数据分析,对于摸清历史情况,还是能发挥不可估量的作用
     实时计算与离线分析的区别和联系,当实时计算的时间单位变长时,就成为了离线分析;
     离线分析的时间长度缩小到很小单位,就成了实时计算。
     
      大数据中心的资源还是很丰富的,但是大数据分析还是尽量要减少资源占用,将资源用在刀刃上,减少输入数据量;
      大数据分析还是以样本作为最小的分析单位,以小规律来推动大量数据的分析
阅读(1169) | 评论(0) | 转发(0) |
0

上一篇:人的格局

下一篇:回顾c++拷贝构造函数

给主人留下些什么吧!~~