Hadoop入门：初探Map-Reduce-Larpenteur-ChinaUnix博客

尘世中一个迷途小书童riverhwp.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

Larpenteur

博客访问： 6422853
博文数量： 2759
博客积分： 1021
博客等级：中士
技术积分： 4091
用户组：普通用户
注册时间： 2012-03-11 14:14

文章分类

全部博文（2759）

Todo（1）
Advice（151）
Linux-未分类（223）
Ubuntu（47）
Database（145）
算法&DS（77）
Android（47）
Web（214）
Geek（237）
CPPC（296）
Java（113）
Python（99）
Matlab（19）
Git（19）
SVN（11）
Gnuplot（5）
面试（0）
机器-挖掘-AI（6）
开源项目（1）
Happy Drawe（9）
Programming（144）

Tools（23）

Shell（66）

Makefile（11）

GDB（26）

vim（18）
System（628）

Author（110）

Common（4）

Memory（66）

File system（82）

Driver（19）

IO（66）

Storage（45）

General（38）

Architecture（19）

Command（64）

Kernel（115）
Virtualization（39）
Cloud（33）
Hadoop（71）
Big Data（24）
未分配的博文（100）

文章存档

2019年（1）

2017年（84）

2016年（196）

2015年（204）

2014年（636）

2013年（1176）

2012年（463）

我的朋友

相关博文

Hadoop入门：初探Map-Reduce

分类： HADOOP

2013-07-18 20:47:47

原文地址：Hadoop入门：初探Map-Reduce 作者：windhawkgyang

Hadoop用于架设分布式系统。一般来说，实现多个系统并行计算需要考虑许多细节，比如说各个系统节点间的任务分配、跟踪与意外发生后的恢复等。Hadoop可以使我们这些“！分布式系统Expert”轻松地架设自己的分布式系统，写出分布式应用程序。Hadoop的一个关键实现利用了Map-Reduce的编程模型。Map阶段是Reduce阶段的一个准备，将Hadoop提供的分片进行处理，然后提交给Reduce程序处理提供结果。基本的数据流向如图：

数据流首先进行了分片（每片64M，与HDFS的分块大小一致），然后每个分片会分配给一个map进行处理，之后针对reduce的数量产生对应的输出分片，这里原先的分片顺序会打乱，类似于洗牌，之后分别交给reduce处理后输出结果。在Hadoop框架下编写程序时可以使用多种语言，通常可以使用python或C++。直接调用Hadoop提供的输入输出结构/Pipes就可以实现程序。下面是一个Tom White提供的关于天气数据处理的一个C++实现例子，由此可见一窥：

点击(此处)折叠或打开

//Hadoop MapReduce Example by C++
#include <algorithm>
#include <limits>
#include <stdlib>
#include <string>
#include "~\hadoop\Pipes.hh"
#include "~\hadoop\TemplateFactory.hh"
#include "~\hadoop\StringUtils.hh"
class MaxTemperatureMapper:public HadoopPipes::Mapper
{
public :
MaxTemperatureMapper(HadoopPipes::TaskContext& context)
{
}
void map(HadoopPipes::MapContext& context) //重写map函数用以实现自身操作
{
std::string line = context.getInputValue();
std::string year = line.substr(15,4);
std::string airTemperature = line.substr(87,5);
std::string q = line.substr(92,1);
if (airTemperature != "+9999" && (q == '0' || q == '1' || q == '4'||q == '5'|| q == '9'))
{
context.emit(year, airTemperature);
}
}
};
class MapTemperatureReducer:public HadoopPipes::Reducer
{
public : MapTemperatureReducer(HadoopPipes::TaskContext& context)
{
}
void reduce(hadoopPipes::ReduceContext& context) //重写了reduce函数
{
int maxValue = 0; //初始化一个最小值
while (context.nextValue())
{
maxValue = std::(maxValue, HadoopUtils::toInt(context.getInputValue));
}
context.emit(context.getInputKey(), HadoopUtils::toString(maxValue));
}
}
int main(int argc, char *argv[])
{
return HadoopPipes::runTask(HadoopPipes::TemplateFactory<MaxTemperatureMapper, MapTemperatureReducer()>);
}

第一次看原版书，第一次接触Hadoop，还是有些迷糊，有些概念还是没有搞懂，先搁置在一边，继续向下看，慢慢就会懂了吧！
PS:学习资料：>, Tom White, O'REILLY

阅读(688) | 评论(0) | 转发(0) |

上一篇：程序员真的是吃青春饭的吗？(献给即将进入职场的程序员们)

下一篇：几种所谓的“高级IO接口”，其中你知道几个

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6