MapReduce数据流（三）-CUKdd-ChinaUnix博客

cukddcukdd.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

CUKdd

博客访问： 913616
博文数量： 73
博客积分： 2689
博客等级：少校
技术积分： 897
用户组：普通用户
注册时间： 2010-10-07 19:39

个人简介

一个有目标，为自己的未来努力奋斗的人

文章分类

全部博文（73）

学习?生活?创业（2）
Web前端（2）
数据库（2）
PHP（3）
WebServer（1）
分布式存储（5）
高并发网络编程（4）
云计算（4）
软件分析（9）
算法设计（9）
招聘笔试题（1）
编程语言（6）
Linux内核篇（4）
Linux系统应用篇（7）
Tools（5）
软件破解（0）
性能优化（9）
未分配的博文（0）

文章存档

2015年（9）

2014年（2）

2013年（6）

2012年（11）

2011年（33）

2010年（12）

我的朋友

相关博文

MapReduce数据流（三）

分类： HADOOP

2015-02-03 15:46:37

额外的MapReduce功能

图4.6 插入了Combiner的MapReduce数据流
　　Combiner：前面展示的流水线忽略了一个可以优化MapReduce作业所使用带宽的步骤，这个过程叫Combiner，它在Mapper之后Reducer之前运行。 Combiner是可选的，如果这个过程适合于你的作业，Combiner实例会在每一个运行map任务的节点上运行。Combiner会接收特定节点上的Mapper实例的输出作为输入，接着Combiner的输出会被发送到Reducer那里，而不是发送Mapper的输出。Combiner是一个 “迷你reduce”过程，它只处理单台机器生成的数据。
　　词频统计是一个可以展示Combiner的用处的基础例子，上面的词频统计程序为每一个它看到的词生成了一个（word，1）键值对。所以如果在同一个文档内“cat”出现了3次，（”cat”，1）键值对会被生成3次，这些键值对会被送到Reducer那里。通过使用Combiner，这些键值对可以被压缩为一个送往Reducer的键值对（”cat”，3）。现在每一个节点针对每一个词只会发送一个值到reducer，大大减少了shuffle过程所需要的带宽并加速了作业的执行。这里面最爽的就是我们不用写任何额外的代码就可以享用此功能！如果你的reduce是可交换及可组合的，那么它也就可以作为一个Combiner。你只要在driver中添加下面这行代码就可以在词频统计程序中启用Combiner。

		
			conf.setCombinerClass(Reduce.class);

Combiner应是Reducer接口的实例，如果你的Reducer由于不可交换或不可组合不能作为Combiner，你仍可以写一个第三方类来作为你的作业的Combiner。

容错性
　　使用Hadoop来运行你的作业的其中一个主要原因就是它的高容错性，就算在由高失败率的节点或网络组成的大集群内运行的作业，Hadoop都可以让作业成功完成。
　Hadoop实现容错的主要方法就是重新执行任务，单个任务节点(TaskTracker)会不断的与系统的核心节点（JobTracker）进行通信，如果一个TaskTracker在一定时间内（默认是1分钟）无法与JobTracker进行通信，那JobTracker会假设这个 TaskTracker出问题挂了，JobTracker了解给每个TaskTracker赋予了那些map和reduce任务。
　　如果作业仍然在mapping阶段，其它的TaskTracker会被要求重新执行所有的由前一个失败的TaskTracker所执行的map任务。如果作业在 reduce阶段，则其它的TaskTracker会被要求重新执行所有的由前一个失败的TaskTracker所执行的reduce任务。
Reduce任务一旦完成会把数据写到HDFS。因此，如果一个TaskTracker已经完成赋予它的3个reduce任务中的2个，那只有第三个任务会被重新执行。Map任务则更复杂一点：即使一个节点已经完成了10个map任务，reducer仍可能无法获取这些map任务的所有的输出。如果此时节点挂了，那它的mapper输出就不可访问了。所以已经完成的map任务也必须被重新执行以使它们的输出结果对剩下的reducing机器可用，所有的这些都是由Hadoop平台自动操作完成的。
　　这个容错性强调需要程序的执行没有副作用影响，如果Mapper和Reducer有自身的标识并和外部有通信，那重新执行一个任务可能需要其它节点去和新的map或reduce任务实例进行通信，并且重启的任务可能需要重建它们的中间状态。这个过程是很复杂的并且容易出错。MapReduce通过去除任务标识或任务间的通信而大大简化了这个问题。单个任务只能看到它自己的输入和输出，这样就使得错误与重启过程变成清晰可靠。
　　推测性的执行（Speculative execution）：Hadoop系统有一个问题，它把任务分派到很多个节点，其中很有可能有一些慢的节点会限制剩下程序的执行速度。举个例子，如果有个节点内有一个比较慢的磁盘控制器，那它读取输入数据的速度可能只有所有其它节点的速度的10%。所以当99个map任务都已经完成了，系统仍在等待最后那个比较耗时的map任务完成。
　　通过强迫任务独立运行于其它的任务，使得单个任务之间不会知道它们的输入数据来自哪里。任务相信Hadoop平台会派送合适的输入到它们那里。因此，对于相同的输入数据，我们可以并行多次处理以利用不同机器的负载能力。因为作业中大多数的任务都已经完成了，Hadoop平台会在几个空闲的节点上调度执行剩余任务的拷贝，这个过程叫做推测性的执行。当任务完成时，它会向JobTracker通告。任何一个首先完成的拷贝任务将成为权威拷贝，如果其他拷贝任务还在推测性的执行中，Hadoop会告诉TaskTracker去终止这些任务并丢弃它们的输出，接着Reducer会从首先完成的Mapper那里获取输入数据。
　推测性的执行默认是启用的，你可以通过设置JobConf中的mapred.map.tasks.speculative.execution和 mapred.reduce.tasks.speculative.execution为false来禁用mapper和reducer的推测性的执行。

阅读(1158) | 评论(0) | 转发(0) |

上一篇：MapReduce数据流（二）

下一篇：python读conf配置文件--ConfigParser

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6