Java私塾：Hadoop实战-初级部分之 Hadoop安装部署 -sufeizi-ChinaUnix博客

sufeizi的ChinaUnix博客

首页　| 　博文目录　| 　关于我

sufeizi

博客访问： 18093
博文数量： 12
博客积分： 0
博客等级：民兵
技术积分： 152
用户组：普通用户
注册时间： 2013-12-05 14:10

文章分类

全部博文（12）

未分配的博文（12）

文章存档

2013年（12）

我的朋友

相关博文

Java私塾：Hadoop实战-初级部分之 Hadoop安装部署

分类： Java

2013-12-09 14:04:56

第一部分：开始云计算之旅

第二部分：初识Hadoop

第三部分：Hadoop 环境安装部署

第四部分：Hadoop Shell 基本操作介绍

第五部分：Hadoop 分布式文件系统1

第五部分：Hadoop 分布式文件系统2

第五部分：Hadoop 分布式文件系统3

第六部分：MapReduce 开发1

第六部分：MapReduce 开发2

第七部分：Hadoop集群的安装

本节课程概览

Hadoop 在windows 上伪分布式的安装过程

Hadoop 在linux 上单节点伪分布式的安装过程

集成Eclipse 开发环境

Hadoop UI 介绍

运行WordCounter 事例

第一部分：Hadoop 在windows 上伪分布式的安装过程

安装JDK

1.下载JDK

2.解压

或者直接运行.exe安装

后面根据项目的实际需要来进行调整。

安装 Cygwin

1.下载Cygwin

网址：

2.安装Cygwin

1. Net Category 下的OpenSSL

2. Base Category 下的sed

3.Editors Category 下的vim

4.Devel Category 下subversion

后面根据项目的实际需要来进行调整。

配置环境变量

1.配置JAVA 环境变量

PATH 和JAVA_HOME：

JAVA_HOME 指向JDK安装目录；

PATH 指向JDK的bin

启动 SSHD 服务

1.安装SSHD

ssh-host-config

2. 启动SSHD

net start sshd

ssh 的安装和配置

实现ssh无密码登陆

$ssh-keygen -t rsa

直接回车，完成后会在~/.ssh/生成两个文件：id_dsa 和id_dsa.pub。这两个是成对

出现，类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys
$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机

安装 Hadoop

1.下载Hadoop

2.解压Hadoop

tar xzvf hadoop-0.21.0.tar.gz

配置 Hadoop

1. 配置hadoop-env.sh

2 .配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件

概念

HDFS:

NameNode ：管理节点

DataNode ：数据节点

SecondaryNamenode : 数据源信息备份整理节点

MapReduce

JobTracker ：任务管理节点

Tasktracker ：任务运行节点

配置文件

core-site.xml common属性配置

hdfs-site.xml HDFS属性配置

mapred-site.xml MapReduce属性配置

hadoop-env.sh hadooop 环境变量配置

修改 hadoop-env.sh

配置JDK即可

export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25

core-site.xml

java代码：

																																									查看复制到剪贴板打印
																																								
																																									       fs.default.name    
																																								
																																									       hdfs://localhost:9000    
																																								
																																									       hadoop.tmp.dir  
																																								
																																									        /hadoop

hdfs-site.xml

java代码：

																																									查看复制到剪贴板打印
																																								
																																									         dfs.replication    
																																								
																																									         1

mapred-site.xml

java代码：

																																										查看复制到剪贴板打印
																																									
																																										         mapred.job.tracker    
																																									
																																										         localhost:9001

启动 Hadoop

1.格式化文件系统

hadoop namenode –format

2. 启动hadoop

启动所有任务start-all.sh/stop-all.sh

启动关闭HDFS: start-dfs.sh/stop-dfs.sh

启动关闭MapReduce: start-mapred.sh/stop-mapred.sh

3. 用jps命令查看进程,确保有 namenode,dataNode,JobTracker,TaskTracker

第二部分：Hadoop 在linux 上单节点伪分布式的安装过程

安装 JDK

$chmod +x jdk-6u27-linux-i586.bin

$./jdk-6u27-linux-i586.bin

安装完后设置java 环境变量如下

命令：/home路径下

$vi .bashrc

然后添加如下语句

export JAVA_HOME=/home/test/ jdk1.6.0_27

export PATH =/bin:$JAVA_HOME/bin:/usr/bin:$PATH:.

然后. .bashrc使其生效

ssh 的安装和配置

$实现ssh无密码登陆

$sudo apt-get install ssh

$ssh-keygen

直接回车，完成后会在~/.ssh/生成两个文件：id_dsa 和id_dsa.pub。这两个是成对

出现，类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys
$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机

Hadoop 安装

1.下载Hadoop

2.解压Hadoop

tar xzvf hadoop-0.21.0.tar.gz

3. 添加Hadoop Bin到环境变量中

修改 hadoop-env.sh

配置JDK即可

export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25

conf/core-site.xml

java代码：

																																																									查看复制到剪贴板打印
																																																								
																																																									          fs.default.name    
																																																								
																																																									          hdfs://localhost:9000    
																																																								
																																																									           hadoop.tmp.dir  
																																																								
																																																									           /hadoop

conf/hdfs-site.xml

java代码：

																																																										查看复制到剪贴板打印
																																																									
																																																										         dfs.replication    
																																																									
																																																										         1

conf/mapred-site.xml

java代码：

																																																											查看复制到剪贴板打印
																																																										
																																																											         mapred.job.tracker    
																																																										
																																																											         localhost:9001

启动 Hadoop

1.格式化文件系统

hadoop namenode –format

2. 启动hadoop

启动关闭所有服务 start-all.sh/stop-all.sh

启动关闭HDFS: start-dfs.sh/stop-dfs.sh

启动关闭MapReduce: start-mapred.sh/stop-mapred.sh

3. 用jps命令查看进程,确保有 namenode,dataNode,JobTracker,TaskTracker

第三部分：Hadoop UI 介绍

Hadoop 重要的端口

1.Job Tracker 管理界面：50030

2.HDFS 管理界面：50070

3.HDFS通信端口：9000

4.MapReduce通信端口：9001

常用访问页面

1. HDFS 界面

2. MapReduce 管理界面

第四部分：运行Word Count 示例