理解map reduce-cspyb_cu-ChinaUnix博客

cspybcspyb.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

cspyb_cu

博客访问： 1127727
博文数量： 165
博客积分： 3900
博客等级：中校
技术积分： 1887
用户组：普通用户
注册时间： 2007-04-06 15:15

文章分类

全部博文（165）

android APP（0）
ijkplayer（1）
搜索（3）
tensorflow（1）
算法和深度学习（1）
今日美剧（0）
usb协议驱动学习（1）
tomcat学习研究（2）
hadoop学习（3）
工具（0）
android fra（2）
audio（0）
韩语学习（1）
C语言基础（2）
Linux系统编程（9）
数据库（4）
Kernel基础（16）
各种协议（2）
人生感悟（7）
乒乓球（2）
opengl（2）
Shell编程（5）
j2ee学习（3）
程序设计（2）

django（1）
心情日记（18）
英语学习（1）
嵌入式linux（34）

android移植（3）
网络技术（27）

linphone（1）

sip/opensips（3）
算法（6）

人工智能（2）
未分配的博文（10）

文章存档

2020年（3）

2019年（8）

2017年（2）

2016年（8）

2015年（14）

2013年（15）

2012年（32）

2011年（11）

2010年（14）

2009年（7）

2008年（20）

2007年（31）

我的朋友

相关博文

理解map reduce

分类：云计算

2016-08-22 21:39:49

上图是论文里给出的流程图。一切都是从最上方的user program开始的，user program链接了MapReduce库，实现了最基本的Map函数和Reduce函数。图中执行的顺序都用数字标记了。

　　1.MapReduce库先把user program的输入文件划分为M份（M为用户定义），每一份通常有16MB到64MB，如图左方所示分成了split0~4；然后使用fork将用户进程拷贝到集群内其它机器上。

　　2.user program的副本中有一个称为master，其余称为worker，master是负责调度的，为空闲worker分配作业（Map作业或者Reduce作业），worker的数量也是可以由用户指定的。

　　3.被分配了Map作业的worker，开始读取对应分片的输入数据，Map作业数量是由M决定的，和split一一对应；Map作业从输入数据中抽取出键值对，每一个键值对都作为参数传递给map函数，map函数产生的中间键值对被缓存在内存中。

　　4.缓存的中间键值对会被定期写入本地磁盘，而且被分为R个区，R的大小是由用户定义的，将来每个区会对应一个Reduce作业；这些中间键值对的位置会被通报给master，master负责将信息转发给Reduce worker。

　　5.master通知分配了Reduce作业的worker它负责的分区在什么位置（肯定不止一个地方，每个Map作业产生的中间键值对都可能映射到所有R个不同分区），当Reduce worker把所有它负责的中间键值对都读过来后，先对它们进行排序，使得相同键的键值对聚集在一起。因为不同的键可能会映射到同一个分区也就是同一个Reduce作业（谁让分区少呢），所以排序是必须的。

　　6.reduce worker遍历排序后的中间键值对，对于每个唯一的键，都将键与关联的值传递给reduce函数，reduce函数产生的输出会添加到这个分区的输出文件中。

　　6.当所有的Map和Reduce作业都完成了，master唤醒正版的user program，MapReduce函数调用返回user program的代码。

　　所有执行完毕后，MapReduce输出放在了R个分区的输出文件中（分别对应一个Reduce作业）。用户通常并不需要合并这R个文件，而是将其作为输入交给另一个MapReduce程序处理。整个过程中，输入数据是来自底层分布式文件系统（GFS）的，中间数据是放在本地文件系统的，最终输出数据是写入底层分布式文件系统（GFS）的。而且我们要注意Map/Reduce作业和map/reduce函数的区别：Map作业处理一个输入数据的分片，可能需要调用多次map函数来处理每个输入键值对；Reduce作业处理一个分区的中间键值对，期间要对每个不同的键调用一次reduce函数，Reduce作业最终也对应一个输出文件。

总结：

通过以上你是否了解什么是MapReduce了那，什么是key,怎么过滤有效数据，怎么得到自己想要的数据。
MapReduce是一种编程思想，可以使用java来实现，C++来实现。Map的作用是过滤一些原始数据，Reduce则是处理这些数据，得到我们想要的结果，比如你想造出番茄辣椒酱。也就是我们使用hadoop，比方来进行日志处理之后，得到我们想要的关心的数据

阅读(906) | 评论(0) | 转发(0) |

上一篇：sed 变量表示，绝对原创

下一篇：简单案例分析 map reduce

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6