MapReduce工作原理简介-qhw-ChinaUnix博客

TITANICtitanic.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

qhw

博客访问： 2324573
博文数量： 266
博客积分： 5485
博客等级：大校
技术积分： 3695
用户组：普通用户
注册时间： 2007-06-20 11:05

个人简介

多读书，多做事，广交朋友，趣味丛生

文章分类

全部博文（266）

模式识别（4）
机器学习（1）
移动安全（1）
产品设计（1）
思维改进（1）
网络编程（1）
云计算（16）
分布式/集群/负载（4）
Web开发（8）
团队管理（1）
软件工程（3）
营销管理（2）
设计模式（0）
操作系统（2）
Linux（24）

Ubuntu（6）
个人专区（3）
本科培训（9）
C && C++（8）
Database（26）
未分配的博文（151）

推荐博文

map数据输入

Hadoop针对文本文件缺省使用LineRecordReader类来实现读取，一行一个key/value对，key取偏移量，value为行内容。

如下是map1的输入数据：
Key1 Value1
0 Hello World Bye World

如下是map2的输入数据：
Key1 Value1
0 Hello Hadoop GoodBye Hadoop

map输出/combine输入

如下是map1的输出结果
Key2       Value2
Hello            1
World          1
Bye               1
World          1

如下是map2的输出结果
Key2        Value2
Hello              1
Hadoop         1
GoodBye      1
Hadoop         1

combine输出

Combiner类实现将相同key的值合并起来，它也是一个Reducer的实现。

如下是combine1的输出
Key2         Value2
Hello              1
World            2
Bye                 1

如下是combine2的输出
Key2          Value2
Hello                1
Hadoop           2
GoodBye         1

combiner视业务情况来用，减少MAP->REDUCE的数据传输，提高shuffle速度，就是在map中再做一次reduce操作。combiner使用的合适，可以在满足业务的情况下提升job的速度，如果不合适，则将导致输出的结果不正确。

对于wordcount来说，value就是一个叠加的数字，所以map一结束就可以进行reduce的value叠加，而不必要等到所有的map结束再去进行reduce的value叠加。

reduce输出

Reducer类实现将相同key的值合并起来。

如下是reduce的输出
Key2               Value2
Hello                     2
World                   2
Bye                        1
Hadoop               2
GoodBye             1
即实现了WordCount的处理。

下图是官方的流程图：

阅读(8774) | 评论(0) | 转发(0) |

上一篇：Static与线程安全

下一篇：Krug可用性三大定律

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6