《Hadoop权威指南（第二版）》书评-kenvifire-ChinaUnix博客

kenvifirekenvifire.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

kenvifire

博客访问： 628104
博文数量： 69
博客积分： 1891
博客等级：上尉
技术积分： 1359
用户组：普通用户
注册时间： 2010-11-20 23:38

文章分类

全部博文（69）

翻译文章（1）
vim脚本编程（7）
shell（1）
Android开发（0）
Git使用（0）
HackThisSite（0）
MikTex（1）
Linux Device Dri（2）
JVM（8）
操作系统（1）
shell编程（0）
算法设计与分析（0）
编译技术（0）
Web 智能编程（1）
Hadoop（5）
linux内核（18）
Erlang（5）
tips（2）
maven（1）
每日python（2）
转载（0）
javascript（2）
Http原理（2）
设计模式（0）
winsock（1）
SDL Tutorial Bas（1）
Java核心（1）
C++（1）
OpenGL（1）
个人日记（1）
未分配的博文（4）

文章存档

2012年（46）

2011年（23）

我的朋友

相关博文

《Hadoop权威指南（第二版）》书评

分类：云计算

2012-05-23 21:00:17

正如书中所说，MapReduce是一种用于数据处理的编程模型，通俗的说，它是用于大树据处理的程序框架。在MapReduce框架下，开发者可以用自己熟悉的开发语言Java,C++,甚至是Unix命令行来进行数据处理。

那么，为什么要使用MapReduce框架呢？为什么不用多线程来处理呢？作者举了一个很好的例子来说明这个问题，从NCDC气象记录中找出每年最高气温。这个问题通过多线程来，完全可以处理，但是相对于用MapReduce来处理而言，开发者需要自己处理3个棘手的问题：一是任务的划分，因为不同年份的数据数据文件大小差别很大，不能根据文件数目来划分任务，因为这样会导致任务划分不均；二是对于每个独立进程的结果，我们需要进行合并，如果将文件按照块大小来划分的话，那么合并结果又需要特别的方法了，因为同一个年份的数据可能分布在不同的块中；三是如果用多线程来处理的话，我们的资源就只限于一台机器了，如果要放到多台机器上去处理，那么多机环境的协调性和可靠性又会带来很大的影响。但是如果使用MapReduce框架的话，开发者就只用关注数据处理的细节，不必关注任务的划分，结果的合并，处理器资源的协调等因素的影响。

那么，MapReduce是怎样的一个框架呢？MapReduce将数据的处理分为两个阶段：map阶段和reduce阶段。map阶段的输入是原始数据，这个阶段是在原始数据上提取出我们需要的数据，同时在这里也可以剔除缺失的或者错误的数据，然后将符合条件的数据，以MapReduce的格式交给reduce处理。在交给reduce处理的过程中，数据会进行排序和分组。最后交由reduce处理，得出最终的结果。这便是MapReduce框架处理数据的过程，map抽取数据,排序合并，reduce进行处理产生最终结果。知道原理了，那么具体的实现就很简单了。开发者只用关注数据提取，以及数据提取的细节，而对于数据合并，存储，任务分配，集群扩展等问题都交由MapReduce框架来处理，这样大大提高了开发效率，是用传统多线程处理所无法可比的。

阅读(1793) | 评论(0) | 转发(0) |

上一篇：shell job 管理

下一篇：集体智慧编程（一）推荐系统之欧里几德距离

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6