Hadoop初探之配置IDE开发环境-scq2099yt-ChinaUnix博客

施昌权--淘宝卫霍shicq.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

scq2099yt

博客访问： 5863090
博文数量： 291
博客积分： 0
博客等级：民兵
技术积分： 7924
用户组：普通用户
注册时间： 2016-07-06 14:28

个人简介

阿里巴巴是个快乐的青年

文章分类

全部博文（291）

人工智能（16）

基础数学（1）

GPU优化（2）

TensorFlow（3）

机器写作（1）

深度学习（2）

机器学习（2）

机器翻译（1）

NLP算法（1）

NLP工具（1）

NLP科普（1）

AI科普（1）
IT咨询（1）

mac（1）
计算广告学（0）

计算广告学科普（0）

广告过滤（0）

反点击作弊（0）

广告推荐算法（0）

行为习惯广告（0）

广告排序算法（0）

广告匹配算法（0）

广告索引架构（0）
Web技术（10）
大数据（1）

自然语言处理（1）

深度学习（0）

机器学习（0）

社交网络（0）

数据挖掘（0）

个性化推荐（0）
团队建设（5）

产品相关（0）

运维相关（1）

测试相关（3）

敏捷开发（1）
广告技术（12）

移动广告（1）

人群定向技术（1）

广告技术科普（10）

RTB技术（0）
高性能服务器（15）

调试（2）

CPU（2）

调优（2）

监控（2）

内存（3）

并发（1）

锁（0）

IO（3）
网络通讯（4）

HTTP（1）

TCP（3）
集群（3）
移动互联网（6）

Cocos2D-HTML5（0）

Cocos2D-x（0）

Cocos2D（1）

iOS（1）

Android（4）
闲聊杂侃（11）
浏览器（3）

奇淫技巧（1）

Webkit（2）
IM即时通信（5）

OpenFire（0）

Jabber/XMPP（1）

Ejabberd（4）
云计算（0）

KVM/Xen（0）

OpenShift（0）

Cloud Found（0）

OpenStack（0）
分布式（0）

Two-Phase C（0）

MVCC（0）

Lease（0）

Quorum（0）

CAP（0）

Consistent （0）

Gossip（0）

Paxos（0）
Hadoop系列（16）

MapReduce（2）

Hive（0）

Zookeeper（0）

HDFS（3）

Hadoop（9）

HBase（2）
Amazon系列（1）

EC2（0）

AWS（0）

S3（0）

Dynamo（1）
Google系列（1）

GAE（0）

ProtoBuffer（1）

BigTable（0）

Chubby（0）

MapReduce（0）

GFS（0）
架构框架（0）

Node.js（0）

Avro（0）

Shrift（0）
算法与数据结构（27）

字符串（8）

排序（7）

其它（1）

查找（1）

链表（5）

树（5）
编程语言（77）

C++11（1）

JavaScript（1）

JSP（0）

HTML（1）

Java（9）

Shell（15）

Python（11）

Golang（7）

Erlang（6）

PHP（0）

Lua（7）

C++（17）

C（2）
搜索引擎（7）

seo（1）

Nutch（0）

垂直搜索引擎（1）

解密搜索引擎技术（5）

Solr（0）

Sphinx（0）

Lucene（0）
我的开源项目（0）
开源代码解析（69）

Log4cpp（0）

Tomcat（3）

Storm（1）

LevelDB（0）

Apache（1）

fastDFS（0）

HyperTable（0）

Keepalived（1）

LVS（1）

Linux（18）

Varnish（0）

Squid（0）

Heartbeat（0）

Libevent（1）

Nginx（17）

Haproxy（2）

HandleSocket（0）

neo4j（0）

MongoDB（2）

Memcached（3）

Redis（6）

MySQL（4）

RabbitMQ（9）

ZeroMQ（0）
未分配的博文（1）

文章存档

2018年（21）

2017年（4）

2016年（5）

2015年（17）

2014年（68）

2013年（174）

2012年（2）

我的朋友

相关博文

Hadoop初探之配置IDE开发环境

分类： HADOOP

2014-02-23 17:42:12

      这里的开发环境是指：Hadoop集群安装在Linux下，本地开发环境在Windows下用Hadoop-eclipse-plugin，远程连接Linux运行job。
一、安装
        Hadoop集群安装配置请参看这里，Java与Eclipse的安装配置请参看这里，下面介绍Hadoop-eclipse-plugin的安装与配置：
      点击这里下载插件，并将插件重命名为hadoop-0.20.3-eclipse-pligin.jar，并将其放到Eclipse插件目录（xxx\plugins）即可。
      注意：不要用hadoop-0.20.2自带的插件，那个插件很悲剧，会导致run on Hadoop无反应。

二、配置
1、配置Hadoop安装目录
      因为Eclipse编写程序需要用到Hadoop的Jar包，所以需要将Linux下Hadoop的绿色安装包解压一份在Windows机器上（比如：D:\hadoop-2.2.0），然后如下来指定Hadoop Windows目录：
      选择Window->Preferences弹出对话框，选择Hadoop Map/Reduce，在Hadoop installation directory中如下来填写路径：

图1 设置Hadoop安装路径

2、配置Map/Reduce Location
这个配置的作用是设置建立Window上Eclipse与Linux上Hadoop集群进行连接的参数，具体步骤如下：
打开Window->Show View->Other弹出ShowView对话框，选择MapReduce Tools->Map/Reduce Locations，点击OK按钮，在Map/Reduce Locations对话框中，点击New Hadoop location按钮，在弹出对话框的General中填写如下参数：

图2 设置Hadoop Location

      Location name：任意
      Map/Reduce Master：与mapred-site.xml设置一致
      DFS Master：与core-site.xm设置一致l
      User name：服务器上运行Hadoop服务的用户名
      关于Hadoop常用端口请参见这里。
3、测试配置
      选择Window->Show View->Project Explorer，点击DFS Location，逐步展开图2中设置的example，如果能看到下图，说明配置无误：

图3 HDFS目录树

三、实例
1、新建项目
新建测试项目WordCount，选择File->New->Other->Map/Reduce->Map/Reduce Project，点击Next按钮，在弹出的对话框中填写如下信息：

图4 创建WordCount工程

2、新建类
选中“WordCount”工程，右击弹出菜单，选择New->Class，在弹出的对话框中填写如下信息：

图5 创建WordCount类

      由于是运行Hadoop自带的WordCount程序，所以包名和例子中的一致为org.apache.hadoop.examples，类名也必须一致为WordCount。
      打开例子源文件D:\hadoop-0.20.2\src\examples\org\apache\hadoop\examples\WordCount.java，拷贝->粘贴代码到本项目类中即可。
3、数据准备
      为了运行程序，需要一个输入文件夹和输出文件夹，前者用于存放输入数据，后者用于存放输出数据。
      （1）输出文件夹，在程序运行完成后会自动生成，我们需要做的是在某个目录下为程序新建一个输入文件夹input，并在该文件夹下新建两个文件file01和file02，用于存放测试输入数据，具体步骤如下：
      #pwd
      /root
      #mkdir input
      #vi input/file01
        Hello World Bye World
      #vi input/file02
        Hello Hadoop Goodbye Hadoop
      （2）将本地文件夹input上传到HDFS中：
      #hadoop fs -put input input01
      这样在HDFS上就多了一个input01文件夹，可以如下来查看：
      #hadoop fs -ls
      其实，你会发现只上传了一个文件file01，不过没关系，可以单独传另一个。更多Hadoop Shell命令接口可以参见。
4、编译执行
      右击WordCount.java，选择Run As->Run Configuration，在弹出的对话框中，选中Java Application，点击New，新建一个application名为WordCount，如下来配置Arguments：

图6 参数配置

      上图中，在Program arguments中输入的是“你要传给程序的输入文件夹和你要求程序将计算结果保存的文件夹”。
      点击Run，运行程序，过段时间后运行完成后，就可以在Linux终端下用如下命令查看结果了：
      #hadoop fs -ls
      #hadoop fs -cat output01/*
      如果能看到结果，说明你已经成功在eclipse下运行第一个MapReduce程序了。

阅读(9690) | 评论(1) | 转发(1) |

上一篇：Hadoop初探之常用端口列表

下一篇：Linux之rzsz

给主人留下些什么吧！~~

scq2099yt2014-02-23 17:42:39

文明上网，理性发言...

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6