Hadoop入门：初探Map-Reduce-windhawkgyang-ChinaUnix博客

Windhawk'CUwindhawk.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

windhawkgyang

博客访问： 3061903
博文数量： 167
博客积分： 613
博客等级：中士
技术积分： 5473
用户组：普通用户
注册时间： 2011-09-13 21:35

个人简介

人, 既无虎狼之爪牙,亦无狮象之力量,却能擒狼缚虎,驯狮猎象,无他,唯智慧耳。

文章分类

全部博文（167）

滴水穿石（2）
菜鸟上路（117）

大数据分析（8）

Python（17）

C/C++（26）

系统与网络安全（43）

hadoop（18）
MetaSploit（10）
Windows核心编程(（11）
Network Programm（1）
深入理解计算机系（11）
未分配的博文（15）

文章存档

2015年（19）

2014年（70）

2013年（54）

2012年（14）

2011年（10）

我的朋友

相关博文

Hadoop入门：初探Map-Reduce

分类： HADOOP

2013-07-18 13:53:26

Hadoop用于架设分布式系统。一般来说，实现多个系统并行计算需要考虑许多细节，比如说各个系统节点间的任务分配、跟踪与意外发生后的恢复等。Hadoop可以使我们这些“！分布式系统Expert”轻松地架设自己的分布式系统，写出分布式应用程序。Hadoop的一个关键实现利用了Map-Reduce的编程模型。Map阶段是Reduce阶段的一个准备，将Hadoop提供的分片进行处理，然后提交给Reduce程序处理提供结果。基本的数据流向如图：

数据流首先进行了分片（每片64M，与HDFS的分块大小一致），然后每个分片会分配给一个map进行处理，之后针对reduce的数量产生对应的输出分片，这里原先的分片顺序会打乱，类似于洗牌，之后分别交给reduce处理后输出结果。在Hadoop框架下编写程序时可以使用多种语言，通常可以使用python或C++。直接调用Hadoop提供的输入输出结构/Pipes就可以实现程序。下面是一个Tom White提供的关于天气数据处理的一个C++实现例子，由此可见一窥：

点击(此处)折叠或打开

//Hadoop MapReduce Example by C++
#include <algorithm>
#include <limits>
#include <stdlib>
#include <string>
#include "~\hadoop\Pipes.hh"
#include "~\hadoop\TemplateFactory.hh"
#include "~\hadoop\StringUtils.hh"
class MaxTemperatureMapper:public HadoopPipes::Mapper
{
public :
MaxTemperatureMapper(HadoopPipes::TaskContext& context)
{
}
void map(HadoopPipes::MapContext& context) //重写map函数用以实现自身操作
{
std::string line = context.getInputValue();
std::string year = line.substr(15,4);
std::string airTemperature = line.substr(87,5);
std::string q = line.substr(92,1);
if (airTemperature != "+9999" && (q == '0' || q == '1' || q == '4'||q == '5'|| q == '9'))
{
context.emit(year, airTemperature);
}
}
};
class MapTemperatureReducer:public HadoopPipes::Reducer
{
public : MapTemperatureReducer(HadoopPipes::TaskContext& context)
{
}
void reduce(hadoopPipes::ReduceContext& context) //重写了reduce函数
{
int maxValue = 0; //初始化一个最小值
while (context.nextValue())
{
maxValue = std::(maxValue, HadoopUtils::toInt(context.getInputValue));
}
context.emit(context.getInputKey(), HadoopUtils::toString(maxValue));
}
}
int main(int argc, char *argv[])
{
return HadoopPipes::runTask(HadoopPipes::TemplateFactory<MaxTemperatureMapper, MapTemperatureReducer()>);
}

第一次看原版书，第一次接触Hadoop，还是有些迷糊，有些概念还是没有搞懂，先搁置在一边，继续向下看，慢慢就会懂了吧！
PS:学习资料：>, Tom White, O'REILLY

阅读(5980) | 评论(0) | 转发(3) |

上一篇：C/C++拾遗（七）：利用对象管理资源

下一篇：C/C++拾遗（八）：未知数目输入与常引用

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6