Hadoop Streaming编程-梦醒潇湘love-ChinaUnix博客

梦醒潇湘loveloveyou1314.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

梦醒潇湘love

博客访问： 2133956
博文数量： 249
博客积分： 1305
博客等级：军士长
技术积分： 4733
用户组：普通用户
注册时间： 2011-12-17 10:37

个人简介

不懂的东西还有很多，随着不断的学习，不懂的东西更多，无法消灭更多不懂的东西，那就不断的充实自己吧。欢迎关注微信公众号：菜鸟的机器学习

文章分类

全部博文（249）

机器学习（1）
Hadoop（2）
互联网广告（0）

特征工程（0）
算法（2）

SearchForPattern（2）
TCP/IP（1）
笔试题（4）

腾讯（2）
STL学习（3）
Big Data&nb（1）
程序员自我修养（4）
编程珠玑（5）
面试编程题（132）

Google（0）

智力题（2）

C/C++（11）

数学相关（7）

二分查找（7）

数组（30）

栈、队列、堆（4）

单链表（20）

经典二叉树（26）

字符串（20）
数据挖掘（6）
杂谈（1）
信息检索（1）
Linux编程（14）
Load Balance学习（4）
C/C++学习（19）

字节对齐（0）
linux下多线程（3）
数据结构与算法（29）

递归与分治（2）

并查集（1）

数据结构（1）

算法（3）
Makefile（8）
Mongoose(web服务（4）
BitTorrent（2）
未分配的博文（3）

文章存档

2015年（1）

2014年（4）

2013年（208）

2012年（35）

2011年（1）

我的朋友

相关博文

Hadoop Streaming编程

分类： HADOOP

2014-08-17 13:11:35

Hadoop Streaming编程

一、概述
Hadoop Streaming是Hadoop提供的一个编程工具，它允许用户使用任何可执行文件或者脚本作为Mapper和Reducer，例如：
采用shell脚本语言中的一些命令作为mapper和reducer（cat作为mapper，wc作为reduce）

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-*-streaming.jar\
-input myInputDir\
-output myOutputDir\
-mapper cat\
-reducer wc

本文安排如下，第二节介绍Hadoop Streaming的原理，第三节介绍Hadoop Streaming的使用方法，第四节介绍Hadoop Streaming的程序编写方法，在这一节中，使用C++、C、Shell脚本和python实现了WordCount作业，第五节总结了常见的问题。

二、Hadoop Streaming原理
mapper和reducer会从标准输入中读取用户数据，一行一行处理后发送给标准输出。Streaming工具会创建MapReduce作业，发送给各个tasktracker，同时监控整个作业的执行过程。
如果一个文件（可执行或者脚本）作为mapper，mapper初始化时，每一个mapper任务会把该文件作为一个单独进程启动，mapper任务运行时，它把输入切分成行，并把每一行提供给可执行文件进程的标准输入。同时，mapper收集可执行文件进程标准输出的内容，并把收到的每一行内容转化为key/value对，作为mapper的输出。默认情况下，一行中第一个tab之前的部分作为key，之后的（不包括tab）作为value。如果没有tab，整行作为key值，value值为null。
对于reducer，类似。
以上是Map/Reduce框架和Streaming Mapper/Reduce之间的基本通信协议。

三、Hadoop Streaming用法

四、Mapper和Reducer实现
本节试图用尽可能多的语言编写Mapper和Reducer，包括java、C、C++、shell脚本、python等。
由于hadoop会自动解析数据文件到Mapper或者Reducer的标准输入中，以供它们读取使用，所以应先了解各个语言获取标准输入的方法。
（1）java语言
见Hadoop自带的例子。

（2）C++语言

（3）C语言

（4）shell脚本
管道

（5）Python

为了说明各种语言编写Hadoop Streaming程序的方法，下面以WordCount为例，WordCount作业的主要的功能是对用户输入的数据中的所有字符串进行计数。
（1）C语言实现

（2）C++语言实现

（3）shell脚本语言实现
简约版，每行一个单词：

详细版，每行可能有多个单词（由史江明编写）：mapper.sh

reducer.sh


    (4) Python脚本语言实现

五、常见问题及解决方案
（1）作业总是允许失败
提示找不到可执行程序，比如”Caused by: java.io.IOException: Cannot run program “/user/hadoop/Mapper”: error=2, No such file or directory”：
可在提交作业时，采用-file选型指定这些文件，比如上面的例子中，可以使用”-file Mapper -file Reducer“或者"-file Mapper.py -file Reducer.py"，这样，Hadoop会将这两个文件自动分发到各个节点上，比如：

（2）用脚本编写时，第一行需要注明脚本解释器，默认是shell
（3）如何对Hadoop Streaming程序进行测试？
Hadoop Streaming程序的一个优点是易于测试，比如在WordCount例子中，可以运行以下命令在本地进行测试：

六、参考资料

【1】C++&Python实现Hadoop Streaming的paritioner和模块化

【2】

【3】

【4】Hadoop Streaming和pipes理解

致谢：
感谢原作者解决了我这个小白的问题，让我一个对Hadoop Streaming一无所知的小白，写出了第一个程序，完成了任务。
引自：

阅读(2737) | 评论(0) | 转发(0) |

上一篇：面试笔试题之二叉树经典25题

下一篇：哈希技术杂烩

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6