MapReduce初探之scaling out-scq2099yt-ChinaUnix博客

施昌权--淘宝卫霍shicq.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

scq2099yt

博客访问： 5868113
博文数量： 291
博客积分： 0
博客等级：民兵
技术积分： 7924
用户组：普通用户
注册时间： 2016-07-06 14:28

个人简介

阿里巴巴是个快乐的青年

文章分类

全部博文（291）

人工智能（16）

基础数学（1）

GPU优化（2）

TensorFlow（3）

机器写作（1）

深度学习（2）

机器学习（2）

机器翻译（1）

NLP算法（1）

NLP工具（1）

NLP科普（1）

AI科普（1）
IT咨询（1）

mac（1）
计算广告学（0）

计算广告学科普（0）

广告过滤（0）

反点击作弊（0）

广告推荐算法（0）

行为习惯广告（0）

广告排序算法（0）

广告匹配算法（0）

广告索引架构（0）
Web技术（10）
大数据（1）

自然语言处理（1）

深度学习（0）

机器学习（0）

社交网络（0）

数据挖掘（0）

个性化推荐（0）
团队建设（5）

产品相关（0）

运维相关（1）

测试相关（3）

敏捷开发（1）
广告技术（12）

移动广告（1）

人群定向技术（1）

广告技术科普（10）

RTB技术（0）
高性能服务器（15）

调试（2）

CPU（2）

调优（2）

监控（2）

内存（3）

并发（1）

锁（0）

IO（3）
网络通讯（4）

HTTP（1）

TCP（3）
集群（3）
移动互联网（6）

Cocos2D-HTML5（0）

Cocos2D-x（0）

Cocos2D（1）

iOS（1）

Android（4）
闲聊杂侃（11）
浏览器（3）

奇淫技巧（1）

Webkit（2）
IM即时通信（5）

OpenFire（0）

Jabber/XMPP（1）

Ejabberd（4）
云计算（0）

KVM/Xen（0）

OpenShift（0）

Cloud Found（0）

OpenStack（0）
分布式（0）

Two-Phase C（0）

MVCC（0）

Lease（0）

Quorum（0）

CAP（0）

Consistent （0）

Gossip（0）

Paxos（0）
Hadoop系列（16）

MapReduce（2）

Hive（0）

Zookeeper（0）

HDFS（3）

Hadoop（9）

HBase（2）
Amazon系列（1）

EC2（0）

AWS（0）

S3（0）

Dynamo（1）
Google系列（1）

GAE（0）

ProtoBuffer（1）

BigTable（0）

Chubby（0）

MapReduce（0）

GFS（0）
架构框架（0）

Node.js（0）

Avro（0）

Shrift（0）
算法与数据结构（27）

字符串（8）

排序（7）

其它（1）

查找（1）

链表（5）

树（5）
编程语言（77）

C++11（1）

JavaScript（1）

JSP（0）

HTML（1）

Java（9）

Shell（15）

Python（11）

Golang（7）

Erlang（6）

PHP（0）

Lua（7）

C++（17）

C（2）
搜索引擎（7）

seo（1）

Nutch（0）

垂直搜索引擎（1）

解密搜索引擎技术（5）

Solr（0）

Sphinx（0）

Lucene（0）
我的开源项目（0）
开源代码解析（69）

Log4cpp（0）

Tomcat（3）

Storm（1）

LevelDB（0）

Apache（1）

fastDFS（0）

HyperTable（0）

Keepalived（1）

LVS（1）

Linux（18）

Varnish（0）

Squid（0）

Heartbeat（0）

Libevent（1）

Nginx（17）

Haproxy（2）

HandleSocket（0）

neo4j（0）

MongoDB（2）

Memcached（3）

Redis（6）

MySQL（4）

RabbitMQ（9）

ZeroMQ（0）
未分配的博文（1）

文章存档

2018年（21）

2017年（4）

2016年（5）

2015年（17）

2014年（68）

2013年（174）

2012年（2）

我的朋友

相关博文

MapReduce初探之scaling out

分类： HADOOP

2014-02-10 21:29:28

        为了实现横向扩展（scaling out），需要把数据存储在分布式文件系统中，一般为HDFS，由此允许Hadoop将MapReduce计算移到存储有部分数据的各台机器上。
一、数据流
        MapReduce作业（job）是客户端需要执行的一个工作单元，它包括输入数据、MapReduce程序和配置信息。Hadoop将作业分成若干个小任务（task）来执行，其中包括两类任务，即map任务和reduce任务。
      有两类节点控制着作业执行过程，即一个jobtracker和一系列tasktracker。 jobtracker通过调度tasktracker上运行的任务，来协调所有运行在系统上的作业。tasktracker在运行任务的同时将运行进度报告发送给jobtracker，jobtracker由此记录每项作业任务的整体进度情况。如果其中一个任务失败，jobtracker可以在另外一个tasktracker节点上重新调度该任务。
      Hadoop将MapReduce的输入数据划分成等长的小数据块，称为输入分片（input split）或简称分片。Hadoop为每个分片构建一个map任务，并由该任务来运行用户自定义的map函数从而处理分片中的每条记录。
      拥有许多分片，意味着处理每个分片所需的时间少于处理整个输入数据所花的时间。因此，如果我们并行处理每个分片，且每个分片数据比较小，那么整个处理过程将获得更好的负载均衡，因为一台较快的计算机能够处理的数据分片比一台较慢的计算机更多，且成一定的比例。即使使用相同的机器，处理失败的作业或其它同时运行的作业也能够实现负载均衡，并且如果分片被切分得更细，负载均衡的质量会更好。
      另一方面，如果分片切分得太小，那么管理分片的总时间和构建map任务的总时间将决定着作业的整体执行时间。对于大多数作业来说，一个合理的分片大小趋向于HDFS的一个块的大小，默认是64MB，不过可以针对集群调整这个默认值，在新建所有文件或新建每个文件时具体指定即可。
      Hadoop在存储有输入数据（HDFS中的数据）的节点上运行map任务，可以获得最佳性能。这就是所谓的数据本地化（data locality optimization）。现在我们应该清楚为啥最佳分片的大小应该与块大小相同了：因为它是确保可以存储在单个节点上的最大输入块的大小。如果分片跨越两个数据块，那么对于任何一个HDFS节点，基本上都不可能同时存储这这两个数据块，因此分片中的部分数据需要通过网络传输到map任务节点。与使用本地数据运行整个map任务相比，这种方法显然效率更低。
      map任务将其输出写入本地硬盘，而非HDFS。因为map的输出是中间结果，该中间结果由reduce任务处理后才产生最终输出结果，而且一旦作业完成，map的输出结果可以被删除。
        reduce任务并不具备数据本地化的优势——单个reduce任务的输入通常来自于所有mapper的输出。因此，排过序的map输出需通过网络传输发送到运行reduce任务的节点。数据在reduce端合并，然后由用户定义的reduce函数处理。reduce的输出通常存储在HDFS中以实现可靠存储。对于每个reduce输出的HDFS块，第一个复本存储在本地节点上，其它复本存储在其它机架节点上。因此，reduce的输出写入HDFS确实需要占用网络带宽，但这与正常的HDFS流水线写入的消耗一样。
      一个reduce任务的完整数据流如下图所示，其中，虚线框表示节点，虚线箭头表示节点内部的数据传输，而实线箭头表示节点之间的数据传输：

图1 一个reduce任务的MapReduce数据流

      reduce任务的数量并非由输入数据的大小决定，而是特别指定的。
        如有多个reduce任务，则每个map任务都会对其输出进行分区（partition），即为每个reduce任务建一个分区。每个分区有许多键（及其对应值），但每个键对应的键/值对记录都在同一分区中。分区由用户定义的分区函数控制，但通常用默认的分区器（partitioner，即分区函数）通过哈希函数来分区，这种方法很高效。
        一般情况下，多个reduce任务的数据流如下图所示，该图清楚地表明了为什么map任务和reduce任务之间的数据流称为shuffle（混洗），因为每个reduce任务的输入都来自许多map任务：

图2 多个reduce任务的数据流

最后，也可能没有任何reduce任务。当数据处理可以完全并行时，即无需混洗，可能会出现无reduce任务的情况。在这种情况下，唯一的非本地节点数据传输是map任务将结果写入HDFS，具体如下图所示：

图3 无reduce任务的MapReduce数据流

二、combiner
      集群上的可用带宽限制了MapReduce作业的数量，因此，最重要的一点是尽量避免map任务和reduce任务之间的数据传输。Hadoop允许用户针对map任务的输出指定一个合并函数（combiner），合并函数的输出作为reduce函数的输入。由于合并函数是一个优化方案，所以reducer的最终输出结果要一致。
      合并函数的规则限定了可以使用的函数类型，这里还是以计算最高气温为例说明之，1950年的读数由两个map任务处理（因为它们在不同的分片中），假设第一个map的输出如下：
      (1950, 0)
      (1950, 20)
      (1950, 10)
      第二个map的输出如下：
      (1950, 25)
      (1950, 15)
      reduce函数被调用时，输入如下：
      (1950, [0, 20, 10, 25, 15])
      因为25为该列数据中最大的，所有其输出如下：
      (1950, 25)
      合并函数其实可以模仿reduce函数，找出每个map任务输出结果中的最高气温，如此一来，reduce函数调用时将被传入如下数据：
      (1950, [20, 25])
      reduce输出的结果和以前一样。
      也许你已经明白合并函数的规则了，简而言之，我们可以通过下面的表达式来说明气温数值上的函数调用：
      max(0, 20, 10, 25, 15) = max(max(0, 20, 10), max(25, 15)) = max(20, 25) = 25
      在Java MapReduce程序中，合并函数是通过reducer接口来定义的，且其实现与reduce函数相同，唯一的区别是在JobConf中设置combiner类，具体如下（使用合并函数快速找出最高气温）：
      public class MaxTemperatureWithCombiner {
          public static void main(String[] args) throws IOException {
              if (args.length != 2 ) {
                  System.err.println("Usage: MaxTemperatureWithCombiner " + "");
                  System.exit(-1);
                }

              JobConf conf = new JobConf(MaxTemperatureWithCombiner.class);
              conf.setJobName("Max temperature");

              FileInputFormat.addInputPath(conf, new Path(args[0]));
              FileOutputFormat.setOutputPath(conf, new Path(args[1]));

              conf.setMapperClass(MaxTemperatureMapper.class);
              conf.setCombinerClass(MaxTemperatureReducer.class);
                conf.setReducerClass(MaxTemperatureReducer.class);

              conf.setOutputKeyClass(Text.class);
              conf.setOutputValueClass(IntWritable.class);

              JobClient.runJob(conf);
            }
        }

三、运行分布式的MapReduce作业
      无需修改，便可以在一个完整的数据集上直接运行这个程序。这是MapReduce的优势之一：它可以根据数据量的大小和硬件规模进行扩展。

阅读(5762) | 评论(1) | 转发(1) |

上一篇：MapReduce初探之使用Hadoop分析数据

下一篇：单元测试之生成C/C++代码覆盖率

给主人留下些什么吧！~~

scq2099yt2014-02-10 21:30:10

文明上网，理性发言...

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6