Ubuntu14.04下hadoop eclipse开发环境-mingfei10-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

mingfei10的ChinaUnix博客

首页　| 　博文目录　| 　关于我

mingfei10

博客访问： 1543422
博文数量： 230
博客积分： 474
博客等级：下士
技术积分： 1955
用户组：普通用户
注册时间： 2010-03-19 18:40

文章分类

全部博文（230）

python（21）

人工智能（10）
java（1）
SDN&NFV（2）
linux Manag（8）
linux Dev（8）
cloud（10）
Storage（10）
未分配的博文（170）

文章存档

2020年（3）

2019年（3）

2018年（12）

2017年（13）

2016年（11）

2015年（55）

2014年（74）

2013年（39）

2012年（2）

2011年（18）

我的朋友

cj83226

相关博文

Ubuntu14.04下hadoop eclipse开发环境

分类：大数据

2015-08-26 10:35:51

我是在linux环境下，Ubuntu14.04下配置的
资源:java+eclipse+hadoop2.6.2
里面包括了，Java（1.7和1.8都有，我用的1.8），eclipse，hadoop2.6.2 还有eclipse的hadoop2.6.0的插件

配置java
以jdk-8u40-linux-x64.gz为例，在你的java下载目录下

1.<code class=" hljs lasso">sudo tar -zxvf jdk-8u40-linux-x64.gz

2.sudo mv hadoop-2.6.0 /usr/local/jdk1.8.0_40 </code>

 

	然后


	
		
			view sourceprint? 
		
	
	
		
			1.<code class=" hljs bash">sudo gedit /etc/profile </code> 
		
	

 

	在最后面添加


	
		
			view sourceprint? 
		
	
	
		
			1.<code class=" hljs bash">export JAVA_HOME=/usr/local/jdk1.8.0_40 
		
		
			2.export PATH=$PATH:$JAVA_HOME/bin 
		
		
			3.export    CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar</code> 
		
	

 

	第一行代码目的是加环境变量，可以用JAVA_HOME代替/usr/local/jdk1.8.0_40这个地址，后面就可以少写一点。 

第二行代码目的是，为了方便运行java程序，这样涉及到程序软件要调用java时，只需要用java -arg 就可以，而不用找java的路径。 

第三行代码的目的是，当需要用到jar的包时，系统会自动从classpath的路径里寻找加载 

然后 

source /etc/profile 

重新编译一遍profile就安装好了java。可输入


	
		
			view sourceprint? 
		
	
	
		
			1.<code class=" hljs livecodeserver">java -version</code> 
		
	

 

	来测试


	2.安装ssh


	
		
			view sourceprint? 
		
	
	
		
			1.<code class=" hljs lasso">sudo apt-get install ssh 
		
		
			2.ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 
		
		
			3.cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys</code> 
		
	

 

	安装ssh的主要目的是因为登陆远程主机会用ssh协议，第二行代码是自己创建了一对密钥，分别为id_dsa和id_dsa.pub。第三行代码是把公钥传递给自己的公钥目录。具体ssh这样的原理可自行百度。


	3.配置Hadoop2.6.0 

在你hadoop的下载目录下


	
		
			view sourceprint? 
		
	
	
		
			1.<code class=" hljs lasso">sudo tar -zxvf hadoop-2.6.0.tar.gz 
		
		
			2.sudo mv hadoop-2.6.0 /usr/local/hadoop 
		
		
			3.sudo chmod -R 777 /usr/local/hadoop</code> 
		
	

 

	然后


	
		
			view sourceprint? 
		
	
	
		
			1.<code class=" hljs bash">sudo gedit /etc/profile</code> 
		
	

 

	在后面加入


	
		
			view sourceprint? 
		
	
	
		
			1.<code class=" hljs bash">export HADOOP_HOME=/usr/local/hadoop 
		
		
			2.  
		
		
			3.export PATH=$PATH:$HADOOP_HOME/bin 
		
		
			4.  
		
		
			5.export PATH=$PATH:$HADOOP_HOME/sbin</code> 
		
	

 

	而后


	
		
			view sourceprint? 
		
	
	
		
			1.<code class=" hljs lasso">sudo gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh</code> 
		
	

 

	将JAVA_HOME的值改为/usr/local/jdk1.8.0_40


	然后修改 

etc/hadoop/core-site.xml


	
		
			view sourceprint? 
		
	
	
		
			01.<code class=" hljs xml"><configuration> 
		
		
			02.<property> 
		
		
			03.<name>hadoop.tmp.dir</name> 
		
		
			04.<value>/usr/local/hadoop/tmp</value> 
		
		
			05.<description>Abase for other temporary directories.</description> 
		
		
			06.</property> 
		
		
			07.<property> 
		
		
			08.<name>fs.defaultFS</name> 
		
		
			09.<value>hdfs://localhost:9000</value> 
		
		
			10.</property> 
		
		
			11.</configuration></code> 
		
	

 

	修改mapred-site.xml


	
		
			view sourceprint? 
		
	
	
		
			1.<code class=" hljs xml"><configuration> 
		
		
			2.<property>   
		
		
			3.<name>mapred.job.tracker</name>  
		
		
			4.<value>localhost:9001</value>   
		
		
			5.</property>   
		
		
			6.</configuration></code> 
		
	

 

	修改yarn-site.xml


	
		
			view sourceprint? 
		
	
	
		
			01.<code class=" hljs xml"><configuration> 
		
		
			02.<property> 
		
		
			03.<name>mapreduce.framework.name</name> 
		
		
			04.<value>yarn</value> 
		
		
			05.</property> 
		
		
			06.  
		
		
			07.<property> 
		
		
			08.<name>yarn.nodemanager.aux-services</name> 
		
		
			09.<value>mapreduce_shuffle</value> 
		
		
			10.</property> 
		
		
			11.</configuration></code> 
		
	

 

	修改hdfs-site.xml


	
		
			view sourceprint? 
		
	
	
		
			01.<code class=" hljs xml"><configuration> 
		
		
			02.<property> 
		
		
			03.<name>dfs.replication</name> 
		
		
			04.<value>1</value> 
		
		
			05.</property> 
		
		
			06.<property> 
		
		
			07.<name>dfs.namenode.name.dir</name> 
		
		
			08.<value>file:/usr/local/hadoop/dfs/name</value> 
		
		
			09.</property> 
		
		
			10.<property> 
		
		
			11.<name>dfs.datanode.data.dir</name> 
		
		
			12.<value>file:/usr/local/hadoop/dfs/data</value> 
		
		
			13.</property> 
		
		
			14.<property>                 //这个属性节点是为了防止后面eclopse存在拒绝读写设置的 
		
		
			15.<name>dfs.permissions</name> 
		
		
			16.<value>false</value> 
		
		
			17.</property> 
		
		
			18.</configuration></code> 
		
	

 

	sudo gedit /usr/local/hadoop/etc/hadoop/masters 添加：localhost


	sudo gedit /usr/local/hadoop/etc/hadoop/slaves 添加：localhost


	然后 

创建好临时目录和datanode与namenode的目录


	
		
			view sourceprint? 
		
	
	
		
			1.<code class=" hljs haskell">cd /usr/local/hadoop 
		
		
			2.mkdir tmp dfs dfs/name dfs/data</code> 
		
	

 

	
		
			view sourceprint? 
		
	
	
		
			1.<code class=" hljs lasso">bin/hdfs namenode -format 
		
		
			2.sbin/start-dfs.sh 
		
		
			3.sbin/start-yarn.sh</code> 
		
	

 

	bin/hdfs namenode -format成功的话，最后的提示如下，Exitting with status 0 表示成功，Exitting with status 1: 则是出错。 

尽量不要用start-all.sh，以为hadoop作者发现这个脚本可能有点问题。 

来查看Hadoop中hdfs的信息 

 查看all application的信息


	然后输入以下代码可以来测试


	
		
			view sourceprint? 
		
	
	
		
			1.<code class=" hljs lasso">bin/hdfs dfs -mkdir /user 
		
		
			2.bin/hdfs dfs -mkdir /user/<username> 
		
		
			3.bin/hdfs dfs -put etc/hadoop input 
		
		
			4.bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+' 
		
		
			5.bin/hdfs dfs -cat output/*</code> 
		
	

 

	正常情况下会有wordcount的输出结果


	4.配置eclipse 

下载完eclipse和其插件后，先解压缩eclipse然后 

把hadoop-eclipse-plugin-2.6.0.jar这个文件放在eclipse/plugins这个目录下。 

具体配置可以参照这个文档，我也是照着配的，原博是2.4.0的，我试过，2.6.0也是一样的配置。 

Eclipse下搭建Hadoop2.6.0开发环境

	

		
			下载源码：
		
git clone 
编译源码：
		
			

		
		
			

		
		
			
				
					[html] view plaincopy
					
					
				
			
			
				
					cd src/contrib/eclipse-plugin  
				
				
					ant jar -Dversion=2.6.0 -Declipse.home=/usr/local/eclipse -Dhadoop.home=/usr/local/hadoop-2.6.0  //需要手动安装的eclipse，通过命令行一键安装的不行  
				
			
		
eclipse.home 和 hadoop.home 设置成你自己的环境路径
		
			

		
		
			生成位置：
		
		
			
				
					[html] view plaincopy
					
					
				
			
			
				
					[jar] Building jar: /home/hunter/hadoop2x-eclipse-plugin/build/contrib/eclipse-plugin/hadoop-eclipse-plugin-2.6.0.jar  
				
			
		


		
			

		
	
	
		
			
				安装插件
			
		
	
	
		
			登录桌面后面要打开eclipse的用户最好是hadoop的管理员，也就是hadoop安装时设置的那个用户，否则会出现拒绝读写权限问题。
		
	
	
		
			
				复制编译好的jar到eclipse插件目录，重启eclipse
			
		
		
			
				配置 hadoop 安装目录
			
		
		
			
				window ->preference -> hadoop Map/Reduce -> Hadoop installation directory
			
		
		
			
				配置Map/Reduce 视图
			
		
		
			
				window ->Open Perspective -> other->Map/Reduce -> 点击“OK”
			
			
				windows → show view → other->Map/Reduce Locations-> 点击“OK”
			
		
		
			
				控制台会多出一个“Map/Reduce Locations”的Tab页
			
		
		
			
				在“Map/Reduce Locations” Tab页 点击图标<大象+>或者在空白的地方右键，选择“New Hadoop location…”，弹出对话框“New hadoop location…”，配置如下内容：将ha1改为自己的hadoop用户
			
			
				
			
			
				注意：MR Master和DFS Master配置必须和mapred-site.xml和core-site.xml等配置文件一致
			
			
				打开Project Explorer,查看HDFS文件系统。
			
		
		
			
				新建Map/Reduce任务

			
		
		
			
				File->New->project->Map/Reduce Project->Next
			
		
		
			
				编写WordCount类：记得先把服务都起来
			
			
				
					
						[java] view plaincopy
						
						
					
				
				
					
						import java.io.IOException;  
					
					
						import java.util.*;  
					
					
						import org.apache.hadoop.fs.Path;  
					
					
						import org.apache.hadoop.conf.*;  
					
					
						import org.apache.hadoop.io.*;  
					
					
						import org.apache.hadoop.mapred.*;  
					
					
						import org.apache.hadoop.util.*;  
					
					
						public class WordCount {  
					
					
						public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {  
					
					
						private final static IntWritable one = new IntWritable(1);  
					
					
						private Text word = new Text();  
					
					
						  
					
					
						public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {  
					
					
						 String line = value.toString();  
					
					
						 StringTokenizer tokenizer = new StringTokenizer(line);  
					
					
						 while (tokenizer.hasMoreTokens()) {  
					
					
						   word.set(tokenizer.nextToken());  
					
					
						   output.collect(word, one);  
					
					
						 }  
					
					
						}  
					
					
						}  
					
					
						public static class Reduce extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> {  
					
					
						public void reduce(Text key, Iterator<IntWritable> values, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {  
					
					
						 int sum = 0;  
					
					
						 while (values.hasNext()) {  
					
					
						   sum += values.next().get();  
					
					
						 }  
					
					
						 output.collect(key, new IntWritable(sum));  
					
					
						}  
					
					
						}  
					
					
						public static void main(String[] args) throws Exception {  
					
					
						JobConf conf = new JobConf(WordCount.class);  
					
					
						conf.setJobName("wordcount");  
					
					
						  
					
					
						conf.setOutputKeyClass(Text.class);  
					
					
						conf.setOutputValueClass(IntWritable.class);  
					
					
						  
					
					
						conf.setMapperClass(Map.class);  
					
					
						conf.setReducerClass(Reduce.class);  
					
					
						  
					
					
						conf.setInputFormat(TextInputFormat.class);  
					
					
						conf.setOutputFormat(TextOutputFormat.class);  
					
					
						  
					
					
						FileInputFormat.setInputPaths(conf, new Path(args[0]));  
					
					
						FileOutputFormat.setOutputPath(conf, new Path(args[1]));  
					
					
						  
					
					
						JobClient.runJob(conf);  
					
					
						}  
					
					
						}  
					
				
			
配置运行时参数:右键-->Run as-->Run Confiugrations



			
				user/ha1/input/hadoop是你上传在hdfs的文件夹（自己创建），里面放要处理的文件。ouput4放输出结果
			
			
				将程序放在hadoop集群上运行：右键-->Runas -->Run on Hadoop,最终的输出结果会在HDFS相应的文件夹下显示。至此，ubuntu下hadoop-2.6.0 eclipse插件配置完成。
			
			
				

			
			
				

			
			
				

			
			
				配置过程中出先的问题：
			
			
				在eclipse中无法向文件HDFS文件系统写入的问题，这将直接导致eclipse下编写的程序不能在hadoop上运行。
			
		
		
			
				
					打开conf/hdfs-site.xml，找到dfs.permissions属性修改为false（默认为true）OK了。

        <property>

            <name>dfs.permissions</name>

            <value>false</value>

        </property>

    改完需要重启HDFS；

				
			
		
		
			
				
					最简单的就是刚才说的登录桌面启动eclipse的用户本身就是hadoop的管理员

阅读(1445) | 评论(0) | 转发(0) |

上一篇：在Ubuntu14.04上快速部署OpenStack

下一篇：Tripleo之nova-compute 和Ironic的代码深入分析(一)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6