Hadoop初探之Stream-scq2099yt-ChinaUnix博客

施昌权--淘宝卫霍shicq.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

scq2099yt

博客访问： 5851595
博文数量： 291
博客积分： 0
博客等级：民兵
技术积分： 7924
用户组：普通用户
注册时间： 2016-07-06 14:28

个人简介

阿里巴巴是个快乐的青年

文章分类

全部博文（291）

人工智能（16）

基础数学（1）

GPU优化（2）

TensorFlow（3）

机器写作（1）

深度学习（2）

机器学习（2）

机器翻译（1）

NLP算法（1）

NLP工具（1）

NLP科普（1）

AI科普（1）
IT咨询（1）

mac（1）
计算广告学（0）

计算广告学科普（0）

广告过滤（0）

反点击作弊（0）

广告推荐算法（0）

行为习惯广告（0）

广告排序算法（0）

广告匹配算法（0）

广告索引架构（0）
Web技术（10）
大数据（1）

自然语言处理（1）

深度学习（0）

机器学习（0）

社交网络（0）

数据挖掘（0）

个性化推荐（0）
团队建设（5）

产品相关（0）

运维相关（1）

测试相关（3）

敏捷开发（1）
广告技术（12）

移动广告（1）

人群定向技术（1）

广告技术科普（10）

RTB技术（0）
高性能服务器（15）

调试（2）

CPU（2）

调优（2）

监控（2）

内存（3）

并发（1）

锁（0）

IO（3）
网络通讯（4）

HTTP（1）

TCP（3）
集群（3）
移动互联网（6）

Cocos2D-HTML5（0）

Cocos2D-x（0）

Cocos2D（1）

iOS（1）

Android（4）
闲聊杂侃（11）
浏览器（3）

奇淫技巧（1）

Webkit（2）
IM即时通信（5）

OpenFire（0）

Jabber/XMPP（1）

Ejabberd（4）
云计算（0）

KVM/Xen（0）

OpenShift（0）

Cloud Found（0）

OpenStack（0）
分布式（0）

Two-Phase C（0）

MVCC（0）

Lease（0）

Quorum（0）

CAP（0）

Consistent （0）

Gossip（0）

Paxos（0）
Hadoop系列（16）

MapReduce（2）

Hive（0）

Zookeeper（0）

HDFS（3）

Hadoop（9）

HBase（2）
Amazon系列（1）

EC2（0）

AWS（0）

S3（0）

Dynamo（1）
Google系列（1）

GAE（0）

ProtoBuffer（1）

BigTable（0）

Chubby（0）

MapReduce（0）

GFS（0）
架构框架（0）

Node.js（0）

Avro（0）

Shrift（0）
算法与数据结构（27）

字符串（8）

排序（7）

其它（1）

查找（1）

链表（5）

树（5）
编程语言（77）

C++11（1）

JavaScript（1）

JSP（0）

HTML（1）

Java（9）

Shell（15）

Python（11）

Golang（7）

Erlang（6）

PHP（0）

Lua（7）

C++（17）

C（2）
搜索引擎（7）

seo（1）

Nutch（0）

垂直搜索引擎（1）

解密搜索引擎技术（5）

Solr（0）

Sphinx（0）

Lucene（0）
我的开源项目（0）
开源代码解析（69）

Log4cpp（0）

Tomcat（3）

Storm（1）

LevelDB（0）

Apache（1）

fastDFS（0）

HyperTable（0）

Keepalived（1）

LVS（1）

Linux（18）

Varnish（0）

Squid（0）

Heartbeat（0）

Libevent（1）

Nginx（17）

Haproxy（2）

HandleSocket（0）

neo4j（0）

MongoDB（2）

Memcached（3）

Redis（6）

MySQL（4）

RabbitMQ（9）

ZeroMQ（0）
未分配的博文（1）

文章存档

2018年（21）

2017年（4）

2016年（5）

2015年（17）

2014年（68）

2013年（174）

2012年（2）

我的朋友

相关博文

Hadoop初探之Stream

分类： HADOOP

2014-09-10 19:14:32

一、原理
        Hadoop Streaming是Hadoop提供的一个编程工具，它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer，例如：采用shell脚本语言中的一些命令作为mapper和reducer（cat作为mapper，wc作为reducer）
      $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-*-streaming.jar \
            -input myInputDirs \
            -output myOutputDir \
            -mapper cat \
            -reducer wc
        mapper和reducer会从标准输入中读取用户数据，一行一行处理后发送给标准输出。Streaming工具会创建MapReduce作业，发送给各个tasktracker，同时监控整个作业的执行过程。
        如果一个文件（可执行或者脚本）作为mapper，则在mapper初始化时，每一个mapper任务会把该文件作为一个单独进程启动，mapper任务运行时，它把输入切分成行并把每一行提供给可执行文件进程的标准输入。同时，mapper收集可执行文件进程标准输出的内容，并把收到的每一行内容转化成key/value对，作为mapper的输出。默认情况下，一行中第一个tab之前的部分作为key，之后的（不包括tab）作为value。如果没有tab，整行作为key值，value值为null。不过，这可以定制，在下文中会介绍如何自定义key和value的切分方式。
        对于reducer，类似。
        以上是Map/Reduce框架和streaming mapper/reducer之间的基本通信协议。

二、语法
1、基本语法
        Usage: $HADOOP_HOME/bin/hadoop jar \
                       $HADOOP_HOME/contrib/streaming/hadoop-*-streaming.jar [options]
        options：
        （1）-input：输入文件路径
        （2）-output：输出文件路径
        （3）-mapper：用户自己写的mapper程序，可以是可执行文件或者脚本
        （4）-reducer：用户自己写的reducer程序，可以是可执行文件或者脚本
        （5）-file：打包文件到提交的作业中，可以是mapper或者reducer要用的输入文件，如配置文件，字典等。
        （6）-partitioner：用户自定义的partitioner程序
        （7）-combiner：用户自定义的combiner程序（必须用java实现）
        （8）-D：作业的一些属性（以前用的是-jonconf），具体有：
                1）mapred.map.tasks：map task数目
                2）mapred.reduce.tasks：reduce task数目
                3）stream.map.input.field.separator/stream.map.output.field.separator：map task输入/输出数据的分隔符，默认均为\t。
                4）stream.num.map.output.key.fields：指定map task输出记录中key所占的域数目
                5）stream.reduce.input.field.separator/stream.reduce.output.field.separator：reduce task输入/输出数据的分隔符，默认均为\t。
                6）stream.num.reduce.output.key.fields：指定reduce task输出记录中key所占的域数目。
        有时只需要map函数处理输入数据，这时只需把mapred.reduce.tasks设置为零，Map/Reduce框架就不会创建reducer任务，mapper任务的输出就是整个作业的最终输出。为了做到向下兼容，Hadoop Streaming也支持“-reduce None”选项，它与“-jobconf mapred.reduce.tasks=0”等价。
2、扩展语法
        之前已经提到，当Map/Reduce框架从mapper的标准输入读取一行时，它把这一行切分为key/value对。在默认情况下，每行第一个tab符之前的部分作为key，之后的部分作为value（不包括tab符）。
        但是，用户也可以自定义，可以指定分隔符是其它字符而不是默认的tab符，或者指定在第n（n>=1）个分割符处分割而不是默认的第一个。例如：
        $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
        -input myInputDirs \
        -output myOutputDir \
        -mapper org.apache.hadoop.mapred.lib.IdentityMapper \
        -reducer org.apache.hadoop.mapred.lib.IdentityReducer \
        -jobconf stream.map.output.field.separator=. \
        -jobconf stream.num.map.output.key.fields=4
        在上面的例子中，“-jobconf stream.map.output.field.separator=.”指定“.”作为map输出内容的分隔符，并且从在第4个“.”之前的部分作为key，之后的部分作为value（不包括这第4个“.”）。如果一行中的“.”少于4个，则整行的内容作为key，value设为空的Text对象（就像这样创建了一个Text：new Text("")）。
        同样地，用户也可以使用“-jobconf stream.reduce.output.field.separator=SEP”和“-jobconf stream.num.reduce.output.fields=NUM”来指定reduce输出的行中，第几个分隔符处分割key和value。

三、实例
    为了说明各种语言编写Hadoop Streaming程序的方法，下面以WordCount为例，WordCount作业的主要功能是对用户输入的数据中所有字符串进行计数。
1、shell
        #vi mapper.sh
        #! /bin/bash
        while read LINE; do
        for word in $LINE
        do
        echo "$word 1"
        done
        done
      -------------------------------------------------------------------------
        #vi reducer.sh
        #! /bin/bash
        count=0
        started=0
        word=""
        while read LINE;do
        newword=`echo $LINE | cut -d ' ' -f 1`
        if [ "$word" != "$newword" ];then
        [ $started -ne 0 ] && echo -e "$word\t$count"
        word=$newword
        count=1
        started=1
        else
        count=$(( $count + 1 ))
        fi
        done
        echo -e "$word\t$count"
        -------------------------------------------------------------------------
        本地测试：cat input.txt | sh mapper.sh | sort | sh reducer.sh
        集群测试：
                $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-*-streaming.jar \
                    -input myInputDirs \
                    -output myOutputDir \
                    -mapper mapper.sh\
                    -reducer reducer.sh
        如果执行上面脚本提示：“Caused by: java.io.IOException: Cannot run program “/user/hadoop/Mapper”: error=2, No such file or directory”，则说明找不到可执行程序，可以在提交作业时，采用-file选项指定这些文件，比如上面例子中，可以使用“-file mapper.py -file reducer.py”，这样，Hadoop会将这两个文件自动分发到各个节点上，比如：
        $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-*-streaming.jar \
            -input myInputDirs \
            -output myOutputDir \
            -mapper mapper.sh\
            -reducer reducer.sh\
            -file mapper.sh \
            -file reducer.sh
2、python
        #vi mapper.py
        #!/usr/bin/env python
        import sys
        #maps words to their counts
        word2count = {}
        #input comes from STDIN (standard input)
        for line in sys.stdin:
        #remove leading and trailing whitespace
        line = line.strip()
        #split the line into words while removing any empty strings
        words = filter(lambda word: word, line.split())
        #increase counters
        for word in words:
        #write the results to STDOUT (standard output);
        #what we output here will be the input for the
        #Reduce step, i.e. the input for reducer.py
        #
        #tab-delimited; the trivial word count is 1
        print '%s\t%s' % (word, 1)
        -------------------------------------------------------------------------
        #vi reducer.py
        #!/usr/bin/env python
        from operator import itemgetter
        import sys
        #maps words to their counts
        word2count = {}
        #input comes from STDIN
        for line in sys.stdin:
        #remove leading and trailing whitespace
        line = line.strip()
        #parse the input we got from mapper.py
        word, count = line.split()
        #convert count (currently a string) to int
        try:
        count = int(count)
        word2count[word] = word2count.get(word, 0) + count
        except ValueError:
        #count was not a number, so silently
        #ignore/discard this line
        pass
        #sort the words lexigraphically;
        #
        #this step is NOT required, we just do it so that our
        #final output will look more like the official Hadoop
        #word count examples
        sorted_word2count = sorted(word2count.items(), key=itemgetter(0))
        #write the results to STDOUT (standard output)
        for word, count in sorted_word2count:
        print '%s\t%s'% (word, count)
        -------------------------------------------------------------------------
        本地测试：
                cat input.txt | python mapper.py | sort | python reducer.py
        集群测试：
                $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-*-streaming.jar \
                    -input myInputDirs \
                    -output myOutputDir \
                    -mapper mapper.py\
                    -reducer reducer.py

        更多详细信息请参看，还有。

阅读(5796) | 评论(1) | 转发(3) |

上一篇：博客访问量突破百万大关了--感谢CCTV，感谢所有人

下一篇：网页内容编码转换之iconv

给主人留下些什么吧！~~

scq2099yt2014-09-10 19:14:51

文明上网，理性发言...

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6