Hadoop初探之配置IDE开发环境-Larpenteur-ChinaUnix博客

尘世中一个迷途小书童riverhwp.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

Larpenteur

博客访问： 6459128
博文数量： 2759
博客积分： 1021
博客等级：中士
技术积分： 4091
用户组：普通用户
注册时间： 2012-03-11 14:14

文章分类

全部博文（2759）

Todo（1）
Advice（151）
Linux-未分类（223）
Ubuntu（47）
Database（145）
算法&DS（77）
Android（47）
Web（214）
Geek（237）
CPPC（296）
Java（113）
Python（99）
Matlab（19）
Git（19）
SVN（11）
Gnuplot（5）
面试（0）
机器-挖掘-AI（6）
开源项目（1）
Happy Drawe（9）
Programming（144）

Tools（23）

Shell（66）

Makefile（11）

GDB（26）

vim（18）
System（628）

Author（110）

Common（4）

Memory（66）

File system（82）

Driver（19）

IO（66）

Storage（45）

General（38）

Architecture（19）

Command（64）

Kernel（115）
Virtualization（39）
Cloud（33）
Hadoop（71）
Big Data（24）
未分配的博文（100）

文章存档

2019年（1）

2017年（84）

2016年（196）

2015年（204）

2014年（636）

2013年（1176）

2012年（463）

我的朋友

相关博文

Hadoop初探之配置IDE开发环境

分类： HADOOP

2014-03-03 08:50:14

原文地址：Hadoop初探之配置IDE开发环境作者：scq2099yt

      这里的开发环境是指：Hadoop集群安装在Linux下，本地开发环境在Windows下用Hadoop-eclipse-plugin，远程连接Linux运行job。
一、安装
        Hadoop集群安装配置请参看这里，Java与Eclipse的安装配置请参看这里，下面介绍Hadoop-eclipse-plugin的安装与配置：
      点击这里下载插件，并将插件重命名为hadoop-0.20.3-eclipse-pligin.jar，并将其放到Eclipse插件目录（xxx\plugins）即可。
      注意：不要用hadoop-0.20.2自带的插件，那个插件很悲剧，会导致run on Hadoop无反应。

二、配置
1、配置Hadoop安装目录
      因为Eclipse编写程序需要用到Hadoop的Jar包，所以需要将Linux下Hadoop的绿色安装包解压一份在Windows机器上（比如：D:\hadoop-2.2.0），然后如下来指定Hadoop Windows目录：
      选择Window->Preferences弹出对话框，选择Hadoop Map/Reduce，在Hadoop installation directory中如下来填写路径：

图1 设置Hadoop安装路径

2、配置Map/Reduce Location
这个配置的作用是设置建立Window上Eclipse与Linux上Hadoop集群进行连接的参数，具体步骤如下：
打开Window->Show View->Other弹出ShowView对话框，选择MapReduce Tools->Map/Reduce Locations，点击OK按钮，在Map/Reduce Locations对话框中，点击New Hadoop location按钮，在弹出对话框的General中填写如下参数：

图2 设置Hadoop Location

      Location name：任意
      Map/Reduce Master：与mapred-site.xml设置一致
      DFS Master：与core-site.xm设置一致l
      User name：服务器上运行Hadoop服务的用户名
      关于Hadoop常用端口请参见这里。
3、测试配置
      选择Window->Show View->Project Explorer，点击DFS Location，逐步展开图2中设置的example，如果能看到下图，说明配置无误：

图3 HDFS目录树

三、实例
1、新建项目
新建测试项目WordCount，选择File->New->Other->Map/Reduce->Map/Reduce Project，点击Next按钮，在弹出的对话框中填写如下信息：

图4 创建WordCount工程

2、新建类
选中“WordCount”工程，右击弹出菜单，选择New->Class，在弹出的对话框中填写如下信息：

图5 创建WordCount类

      由于是运行Hadoop自带的WordCount程序，所以包名和例子中的一致为org.apache.hadoop.examples，类名也必须一致为WordCount。
      打开例子源文件D:\hadoop-0.20.2\src\examples\org\apache\hadoop\examples\WordCount.java，拷贝->粘贴代码到本项目类中即可。
3、数据准备
      为了运行程序，需要一个输入文件夹和输出文件夹，前者用于存放输入数据，后者用于存放输出数据。
      （1）输出文件夹，在程序运行完成后会自动生成，我们需要做的是在某个目录下为程序新建一个输入文件夹input，并在该文件夹下新建两个文件file01和file02，用于存放测试输入数据，具体步骤如下：
      #pwd
      /root
      #mkdir input
      #vi input/file01
        Hello World Bye World
      #vi input/file02
        Hello Hadoop Goodbye Hadoop
      （2）将本地文件夹input上传到HDFS中：
      #hadoop fs -put input input01
      这样在HDFS上就多了一个input01文件夹，可以如下来查看：
      #hadoop fs -ls
      其实，你会发现只上传了一个文件file01，不过没关系，可以单独传另一个。更多Hadoop Shell命令接口可以参见。
4、编译执行
      右击WordCount.java，选择Run As->Run Configuration，在弹出的对话框中，选中Java Application，点击New，新建一个application名为WordCount，如下来配置Arguments：

图6 参数配置

      上图中，在Program arguments中输入的是“你要传给程序的输入文件夹和你要求程序将计算结果保存的文件夹”。
      点击Run，运行程序，过段时间后运行完成后，就可以在Linux终端下用如下命令查看结果了：
      #hadoop fs -ls
      #hadoop fs -cat output01/*
      如果能看到结果，说明你已经成功在eclipse下运行第一个MapReduce程序了。

阅读(1089) | 评论(0) | 转发(0) |

上一篇：高速缓存与局部性

下一篇：两个QoS综合配置案例

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6