岚天逸见aquester.blog.chinaunix.net

博客访问： 8229524
博文数量： 595
博客积分： 13065
博客等级：上将
技术积分： 10334
用户组：普通用户
注册时间： 2008-03-26 16:44

个人简介

推荐: blog.csdn.net/aquester https://github.com/eyjian https://www.cnblogs.com/aquester http://blog.chinaunix.net/uid/20682147.html

文章分类

全部博文（595）

maven（0）
flink（1）
gRPC（2）
go（3）
Kubernetes（1）
微服务（4）

skywalking（3）
Docker（1）
raft（1）
微码分享（2）
一致性协议（1）
iptables（0）
crontab（9）
python（1）
svn（1）
redis（42）
java（4）
json（2）
nginx（1）
海量服务（1）
微信编程（0）
js&html（2）
github（1）
andriod（1）
互联网金融（0）
thrift（10）
推荐转载（5）
原创推荐（16）
平淡生活（22）
生活与设计（3）
hadoop（51）

kafka（3）

hue（1）

hive（1）

hbase（8）

spark（2）

zookeeper（4）

hdfs（13）

storm（1）
有感而发（19）
mooon（28）
下载（1）
TCP/IP（3）
MYSQL（26）
question（4）
linux（89）

LVS（1）

性能（11）

WEB服务器（8）
转载（15）
C/C++（162）

汇编（3）
OO（4）
UML（1）
常用脚本（45）
未分配的博文（10）

推荐博文

2. 调度实体

在MapReduce和改进型MapReduce都存在Job和Task，它们之间的关系如下UML图所示：

Job是由一到多个Tasks组成的Tasks池，同一个Job内的各Task间是平等独立，不存在依赖也不存在优先级高低。Job Tree是在MapReduce之上的一层调度体，如存在于Hadoop Hive。

计算框架的作用就是通过将Job分解成Tasks，然后调配Tasks到集群中各节点去执行。因此Tasks是整个系统均衡和调度的核心对象。可以说，控制好了Tasks，就能够调度好均衡好，否则就可能发生数据倾斜，一些节点累死而另一些节点饿死。

3. MapReduce问题

MapReduce最重要的基础是DFS（分布式文件系统），它的工作原理可简单的使用下图表示，包含了map和reduce两个最核心的过程，以及A、B和C三个数据输入输出：

通过分析A、B和C不难得出如下表所示的特征：

	A	B	C
存储位置	DFS	本地存储	DFS
块大小是否均衡？	是	否	是
块大小是否可确定？	是	否	是
map和reduce的块大小是否接近？	不确定，非受控
map个数是否已知，非动态确定？	是
reduce个数是否已知，非动态确定？	是

除了上表所述的特征外，B部分的数据块个数通常为预先指定的reduce个数，因此其值通常不大，而且将reduce个数增倍意义也不大。

3.1. map

由于map的输入源自于DFS，是相对静态的数据，所以各MapTask是均衡的，而且其大小是已知和确定的。

3.2. reduce

reduce不同于map，它处理的是map后的数据，是动态产生的数据，只有在map完成之后才能确定的数据（包括数据的分布和大小等）。数据在经过map之后，就映射到了某个ReducdeTask，不能再更改，而且ReduceTask的个数也是不能修改的。

这会带来如下严重的问题：

1) reduce端数据倾斜：比如有些ReduceTask需要处理100GB数据，而另有一些只需要处理10GB数据，甚至还有些ReduceTask可能空转，没有任何数据需要处理。最严重时，可能发生某个ReduceTask被分配了超出本地可用存储空间的数据量，或是超大数据量，需要特长处理时间；

2) reduce端数据倾斜直接导致了ReduceTask不均衡；

3) 并行Job困难。类似于操作系统进程调度，如果要并行，必然存在Job间的调度切换，但由于ReduceTask需要处理的数据量可能很大，需要运行很长的时间，如果强制停止ReduceTask，对于大的ReduceTask会浪费大量的已运行时间，甚至可能导致一个大的Job运行失败。因此，无法实现类似于进程的并行调度器。

3.3. 数据不均衡的两种情况

数据不均衡可分为两类：

1) KEY过于聚集，即不同KEY的个数虽多，但经过映射（如HASH）后，过于聚集在一起

采用两种办法相结合：一是将KEY分散得足够大（如HASH桶数够多），二是在balance的时候，进行重HASH，将大的打成小的。

2) KEY值单一，即不同KEY的个数少

对于这种情况，采用HASH再分散的方法无效，事先也无法分散得足够大，但处理的方法也非常简单。对这种情况，按照大小进行横切即可，但这个时候一次reduce无法得到最终结果，至少需要连接两次reduce，另外还需要增加balance接口，以方便区别是最后一次reduce，还是中间的reduce。

3.4. 总结：两大主要问题

总的来说，MapReduce存在如下两大问题：

1) reduce并非不均衡，可能导致严重的倾斜；

2) 并行调度能力弱，这是因为每个Task（主要是ReduceTask）的时间粒度不可控制。

4. 改进型MapReduce

4.1. 方案介绍

改进型MapReduce在map和reduce中间，增加一个balance过程，这个balance是可选的，只在必要时发生，如下图所示：

如果map输出的数据已经符合reduce均衡的要求，那么balance过程就什么也不做，否则它会在数据由map输出传递给reduce之前，做一次重新分配，重分配的目的是保证每个reduce的输入基本相同（允许有一定的差额），而且大小在指定的值上下浮动。

这个过程中，并不存在数据先由map传递给balance，再由balance传递给reduce，因此不会带来较大的额外开销。对于改进型MapReduce，其表现为：

	X	Y	Z	W
存储位置	DFS	本地存储	本地存储	DFS
块大小是否均衡？	是	否	是	是
块大小是否可确定？	是	否	是	是
map和reduce的块大小是否接近？	是，有保证的
map个数是否已知，非动态确定？	是
reduce个数是否已知，非动态确定？	否，动态确定

map输出时，将数据按指定的规则（如Hash），分成足够多的块（在MapReduce方案中为reduce个数），目的是方便在balance时，可以保证新的新块是均衡和大小在指定的范围内，所以map输出的块个数相对于MapReduce方案要多很多，通常为10倍以上，因为相对较小的块组合成指定大小的块简单高效些。

balance发生在数据由map本地传输到reduce的过程中，它相当于一个路由器，在map的基础上，对数据进行再映射，这个过程的开销很小，因为不需要对数据进行计算，而只是确定块对应到哪个reduce。

map输出的块，仍可能过大，这个时候需要balance对这部分数据进行拆分，可以将这些需要较长处理时间的工作，定义成一个新的Task，比如BalanceTask。

4.2. 并行调度

在所有Task均衡，且其大小是可控的前提下，并行调度就可以仿照进程调度去做。我们可以将Task当作一个运行时间片，由于其大小可以控制，所以只要大小适当，基本上就可以控制其运行时长。

当一个Task运行完后，根据调度规则来决定下一个运行的Task，下一个Task并不一定是同一个Job，和操作系统进程调度对比如下：

4.3. 新的不足

改进型的MapReducke，由于在reduce之前需要一个balance过程，所以reduce和map两个过程在时间上没有重叠，因此对于单个Job，它的执行效率可能比MapReduce低。但一个Job的map可以和另一个Job的reduce在时间上重叠，因此并行多Job调度时，就不存在这样的不足了，而实际情况通常都是多Job并行调度，所以这个不足可以忽略。

4.4. 总结

改进型MapReduce，实际上在MapReduce上做两件事：保证ReduceTask均衡和控制ReduceTask大小。

讨论：

阅读(2035) | 评论(0) | 转发(0) |

上一篇：需要使用一致性哈希吗？

下一篇：inotify_add_watch使用注意

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6