mapreduce每map一次,就相当于降低了维度。可以是降低了单维度,也可以是降低了多个维度,相当于进行了维度分裂。
每一次map可以是做聚合(多个字段合成一个新字段)
也可以做转换(字段转换)
mapreduce有一个最大的问题,就是不能多级同时处理,而且不能保存一些状态数据
流式处理不仅仅体现在数据的输入上是流动的,而且可以一级一级地往下传递
流式处理的优点主要适应实时处理,多级处理,可以保存状态。
mapreduce适合的离线数据分析,对于摸清历史情况,还是能发挥不可估量的作用
实时计算与离线分析的区别和联系,当实时计算的时间单位变长时,就成为了离线分析;
离线分析的时间长度缩小到很小单位,就成了实时计算。
大数据中心的资源还是很丰富的,但是大数据分析还是尽量要减少资源占用,将资源用在刀刃上,减少输入数据量;
大数据分析还是以样本作为最小的分析单位,以小规律来推动大量数据的分析
阅读(1174) | 评论(0) | 转发(0) |