Hadoop初探之怀旧版Hadoop-0.20.2把玩-Larpenteur-ChinaUnix博客

尘世中一个迷途小书童riverhwp.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

Larpenteur

博客访问： 6458359
博文数量： 2759
博客积分： 1021
博客等级：中士
技术积分： 4091
用户组：普通用户
注册时间： 2012-03-11 14:14

文章分类

全部博文（2759）

Todo（1）
Advice（151）
Linux-未分类（223）
Ubuntu（47）
Database（145）
算法&DS（77）
Android（47）
Web（214）
Geek（237）
CPPC（296）
Java（113）
Python（99）
Matlab（19）
Git（19）
SVN（11）
Gnuplot（5）
面试（0）
机器-挖掘-AI（6）
开源项目（1）
Happy Drawe（9）
Programming（144）

Tools（23）

Shell（66）

Makefile（11）

GDB（26）

vim（18）
System（628）

Author（110）

Common（4）

Memory（66）

File system（82）

Driver（19）

IO（66）

Storage（45）

General（38）

Architecture（19）

Command（64）

Kernel（115）
Virtualization（39）
Cloud（33）
Hadoop（71）
Big Data（24）
未分配的博文（100）

文章存档

2019年（1）

2017年（84）

2016年（196）

2015年（204）

2014年（636）

2013年（1176）

2012年（463）

我的朋友

相关博文

Hadoop初探之怀旧版Hadoop-0.20.2把玩

分类： HADOOP

2014-03-03 09:00:03

原文地址：Hadoop初探之怀旧版Hadoop-0.20.2把玩作者：scq2099yt

一、前言
      由于后知后觉，以至于此时才开始Hadoop之旅，但《Hadoop权威指南》之类的教程以不能与时俱进，在Hadoop 2.2.0横行的今日难觅可运行只配置，遂想仍以《Hadoop权威指南》为蓝本把玩怀旧版Hadoop-0.20.2。Hadoop-0.20.2已不能从官网的DownLoad中找到，需要从归档地址下载，点击即可如愿。

二、环境
      关于各种零碎的安装、配置、格式化、启动和停止等仍然可以参看这里，不再重。
      当然，在此也不放把新版本的这些琐事也贴一个链接在这里，以备参考。

三、测试
      这里自然是以WordCount为例，此例堪称Hadoop界的HelloWorld。
      WordCount.java在hadoop-0.20.2/src/examples/org/apache/hadoop/examples目录下。
1、本地准备数据
      登录Hadoop机器，在本地目录下创建存放输入数据的文件夹以及文件，比如：
      #pwd
      /root
      #mkdir input
      #vi input/file01.txt
        Hello World Bye World
      #vi input/file02.txt
        Hello Hadoop Goodbye Hadoop
2、上传至HDFS
      在HDFS上创建存放输入数据的文件夹及文件，比如：
      #hadoop fs -mkdir /tmp/input
      #hadoop fs -ls
        Found 1 items
        drwxr-xr-x - root supergroup 0 2014-02-19 07:36 /tmp/input
      上传本地文件数据到HDFS的input目录下，比如：
      #hadoop fs -put ~/input/file*.txt /tmp/input
      #hadoop fs -ls /tmp/input
      Found 2 items
      -rwxr-xr-x - root supergroup 1 2014-02-19 07:36 /tmp/input/file01.txt
        -rwxr-xr-x - root supergroup 2 2014-02-19 07:36 /tmp/input/file02.txt
3、运行程序
      （1）拿来主义
      如果你不想重新编译并产生jar包，可以直接用/root/hadoop-0.20.2/hadoop-0.20.2-examples.jar，默认wordcount（注意是小写）已经打在里面了，如下来执行程序：
      #hadoop jar /root/hadoop-0.20.2/hadoop-0.20.2-examples.jar wordcount /tmp/input /tmp/output01
      执行上面语句后，Hadoop命令会启动一个JVM来运行这个MapReduce程序，并自动获得Hadoop的配置，同时把类的路径（及其依赖关系）加入到Hadoop的库中。并在屏幕上输出Hadoop Job的运行记录，从中可以看到，这个Job被赋予了一个ID号：job_201402190740_0001，而且得知输入文件有两个（Total input paths to process : 2），同时还可以了解map的输入输出记录（record数及字节数），以及reduce输入输出记录。比如说，在本例中，map的task数量是2个，reduce的task数量是一个。map的输入record数是2个，输出record数是4个等信息。
      （2）自己动手
      如果你不满足于“舶来品”，可以“自己动手，丰衣足食”，开始吧：
      （A）编译源码
        在本地路径下，新建目录wordcount用于存放编译结果：
      #pwd
      /root
      #mkdir wordcount
      拷贝WordCount.java至/root/wordcount文件夹下：
      #cp /root/hadoop-0.20.2/src/examples/org/apache/hadoop/examples/WordCount.java wordcount
      #javac -classpath /root/hadoop-0.20.2/hadoop-0.20.2-core.jar:/root/hadoop-0.20.2/lib/commons-cli-1.2.jar -d ./ WordCount.java
      关于如何在Linux下编译java程序，请参看这里。
      #ll org/apache/hadoop/examples/
        total 12
        -rw-r--r--. 1 root root 1911 Feb 23 07:19 WordCount.class
        -rw-r--r--. 1 root root 1793 Feb 23 07:19 WordCount$IntSumReducer.class
        -rw-r--r--. 1 root root 1790 Feb 23 07:19 WordCount$TokenizerMapper.class
      （B）打包文件
      将生成的.class文件打成jar包：
      #jar -cvf WordCount.jar org/apache/hadoop/examples/*.class
        #rm -rf org
      上面的删除操作是必须的，否则会找错路径（找到org/apache/hadoop/examples下去了）。
      （C）执行程序
      #hadoop jar WordCount.jar org.apache.hadoop.examples.WordCount /tmp/input /tmp/output02
      需要注意的是：不要在VMWare虚拟机上部署伪分布式集群跑这个MapReduce任务，否则会慢到让你感觉它一直卡着没动静

。

阅读(884) | 评论(0) | 转发(0) |

上一篇：Python+Perl实现ChinaUnix论坛新帖自动邮件提醒

下一篇：虚拟内存与地址转换

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6