Hadoop伪分布式和完全分布式配置-zzjlzx-ChinaUnix博客

zzjlzxzzjlzx.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

zzjlzx

博客访问： 10649314
博文数量： 1669
博客积分： 16831
博客等级：上将
技术积分： 12594
用户组：普通用户
注册时间： 2011-02-25 07:23

个人简介

柔中带刚，刚中带柔，淫荡中富含柔和，刚猛中荡漾风骚，无坚不摧，无孔不入！

文章分类

全部博文（1669）

NGINX（1）
MongoDB（2）
docker（8）
shadowsocks（1）
CloudFoundry（11）
CloudStack（102）
openstack（61）
PHP（0）
mail（0）
hadoop（25）
GemFire（1）
文件系统（4）
CDN（7）
下载及资源（15）
数据缓存（8）
web 加速（9）
分布式文件系统架（23）
虚拟化（133）
同步（6）
网站架构（50）
windows 监控（15）
mysql 监控（5）
oracle 监控（2）
linux 监控（24）
web 监控（35）
其他数据库（27）
备份恢复（28）
VPN及认证（24）
云系统（29）
windows（29）
WEB 故障（13）
mysql 备份（10）
oracle 集群（15）
HA及负载均衡（52）
存储（66）
shell（39）
web 应用（19）
mysql 优化（16）
mysql 故障（14）
mysql 安全（8）
mysql 配置（29）
mysql 应用（10）
web 安全（21）
SAN交换路由（26）
web 优化（46）
基础解释（24）
linux 安全（37）
linux 故障（22）
linux 应用（85）
linux 配置（64）
web 配置（23）
oracle 备份（33）
UNIX（12）
Solaris（5）
Aix（1）
oracle 配置（69）
oracle 优化（62）
oracle 安全（10）
oracle 应用（30）
交流（29）
oracle 故障（59）
linux 优化（31）
未分配的博文（4）

文章存档

2023年（4）

2022年（1）

2021年（10）

2020年（24）

2019年（4）

2018年（19）

2017年（66）

2016年（60）

2015年（49）

2014年（201）

2013年（221）

2012年（638）

2011年（372）

我的朋友

相关博文

Hadoop伪分布式和完全分布式配置

分类：架构设计与优化

2013-11-26 16:48:58

Hadoop伪分布式和完全分布式配置

[日期：2013-05-20] 来源：Linux社区作者：linuxgfc [字体：大中小]

Hadoop的三种模式:

本地模式：本地模拟实现，不使用分布式文件系统

伪分布式模式：5个进程在一台主机上启动，一般开发人员调试hadoop程序使用

完全分布式模式：至少3个结点，JobTracker和NameNode在同一台主机上，secondaryNameNode一台主机，DataNode和Tasktracker一台主机

本次试验环境：

CentOS2.6.32-358.el6.x86_64

jdk-7u21-linux-x64.rpm

hadoop-0.20.2-cdh3u6.tar.gz

一、hadoop伪分布式模式的配置
[root@localhost ~]# rpm -ivh jdk-7u21-linux-x64.rpm
[root@localhost ~]# vim /etc/profile.d/java.sh
JAVA_HOME=/usr/java/latest
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME PATH
[root@localhost ~]# tar xf hadoop-0.20.2-cdh3u6.tar.gz -C /usr/local/
[root@localhost ~]# cd /usr/local/
[root@localhost local]# ln -sv hadoop-0.20.2-cdh3u6/ hadoop
[root@localhost ~]# vim /etc/profile.d/hadoop.sh
HADOOP_HOME=/usr/local/hadoop
PATH=$HADOOP_HOME/bin:$PATH
export HADOOP_HOME PATH

测试jdk和hadoop是否正确安装
[root@localhost ~]# java -version
[root@localhost ~]# hadoop version
创建用户并修改hadoop文件权限
[root@localhost ~]# useradd hduser
[root@localhost ~]# passwd hduser
[root@localhost ~]# chown -R hduser.hduser /usr/local/hadoop/
创建hadoop临时数据保存目录
[root@localhost ~]# mkdir /hadoop/temp -pv
[root@localhost ~]# chown -R hduser.hduser /hadoop/

主要脚本功能：
/usr/local/hadoop/bin/start-dfs.sh 启动namenode datanode secondarynamenode进程
/usr/local/hadoop/bin/start-mapred.sh 启动jobtracker tasktracker
/usr/local/hadoop/bin/hadoop-daemon.sh 单独启动某个进程
/usr/local/hadoop/bin/start-all.sh 启动全部进程
/usr/local/hadoop/bin/stop-all.sh 停止全部进程
主要配置文件：
/usr/local/hadoop/conf/masters 保存第二名称节点的位置（secondaryNameNode）
/usr/local/hadoop/conf/slaves 保存从节点的位置（所有运行tasktracker和datanode的结点）
/usr/local/hadoop/conf/core-site.xml 用于定义系统级别的参数
/usr/local/hadoop/conf/hdfs-site.xml HDFS的相关设定
/usr/local/hadoop/conf/mapred-site.xml HDFS的相关设定，如reduce任务的默认个数、任务所能够使用内存的默认上下限等
/usr/local/hadoop/conf/hadoop-env.sh 定义hadoop运行环境相关的配置信息

让hadoop启动起来，只需修改一下配置文件即可
[root@localhost conf]# vim core-site.xml

hadoop.tmp.dir

/hadoop/temp

fs.default.name

hdfs://localhost:8020

[root@localhost conf]# vim mapred-site.xml

mapred.job.tracker

localhost:8021

[root@localhost conf]# vim hdfs-site.xml

dfs.replication

1

配置hduser通过ssh不需要密码访问本机
[hduser@localhost ~]$ ssh-keygen -t rsa -P ''
[hduser@localhost .ssh]$ ssh-copy-id -i id_rsa.pub hduser@localhost

[hduser@localhost ~]$ hadoop namenode -format 格式化名称结点[hduser@localhost ~]$ start-all.sh 启动服务
[hduser@localhost ~]$ jps 查看进程
NameNode
DataNode
JobTracker
TaskTracker
secondaryNameNode
如果以上5个进程启动起来，说明hadoop配置成功

hadoop常用命令：
[hduser@localhost ~]$ hadoop 查看帮助
[hduser@localhost ~]$ hadoop fs
[hduser@localhost ~]$ hadoop fs -mkdir test 在HDFS上创建目录
[hduser@localhost ~]$ hadoop fs -ls 查看文件或目录
[hduser@localhost ~]$ hadoop fs -put test.txt test 上传本地文件到HDFS

用hadoop自带的任务模型测试hadoop可用性：
[hduser@localhost ~]$ hadoop jar /usr/local/hadoop/hadoop-examples-0.20.2-cdh3u6.jar 读取jar文件
[hduser@localhost ~]$ hadoop jar /usr/local/hadoop/hadoop-examples-0.20.2-cdh3u6.jar wordcount 查看wordcount的语法格式
Usage: wordcount
in读取文件位置 out保存结果位置（HDFS上，目录不能事先存在）

[hduser@localhost ~]$ hadoop jar /usr/local/hadoop/hadoop-examples-0.20.2-cdh3u6.jar wordcount test wordcount-out
[hduser@localhost ~]$ hadoop job -list all 查看执行过的作业
[hduser@localhost ~]$ hadoop fs -ls wordcount-out 查看任务输出结果
[hduser@localhost ~]$ hadoop fs -cat wordcount-out/part-r-00000

hadoop提供的web任务进程查看界面：（访问需关闭防火墙）
JobTracker的HTTP服务器地址和端口，默认为0.0.0.0:50030；
TaskTracker的HTTP服务器地址和端口，默认为0.0.0.0:50060；
NameNode的HTTP服务器地址和端口，默认为0.0.0.0:50070；
DataNode的HTTP服务器地址和端口，默认为0.0.0.0:50075；
SecondaryNameNode的HTTP服务器地址和端口，默认为0.0.0.0:50090；

二、Hadoop完全分布式配置：
NameNode和JobTracker在一个节点上（lab201）
SecondaryNameNode（SNN）在一个节点上(lab202)
DataNode和TaskTracker在一个节点上(lab203)

三个节点上均进行如下操作（注：三个节点保持时间同步）
[root@localhost ~]# rpm -ivh jdk-7u21-linux-x64.rpm
[root@localhost ~]# vim /etc/profile.d/java.sh
JAVA_HOME=/usr/java/latest
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME PATH
[root@localhost ~]# tar xf hadoop-0.20.2-cdh3u6.tar.gz -C /usr/local/
[root@localhost ~]# cd /usr/local/
[root@localhost local]# ln -sv hadoop-0.20.2-cdh3u6/ hadoop
[root@localhost ~]# vim /etc/profile.d/hadoop.sh
HADOOP_HOME=/usr/local/hadoop
PATH=$HADOOP_HOME/bin:$PATH
export HADOOP_HOME PATH
[root@localhost ~]# java -version
[root@localhost ~]# hadoop version
[root@localhost ~]# useradd hduser
[root@localhost ~]# passwd hduser
[root@localhost ~]# chown -R hduser.hduser /usr/local/hadoop/
[root@lab201 ~]# mkdir -pv /hadoop/temp
[root@lab201 ~]# chown -R hduser.hduser /hadoop

主结点配置（lab201）：
配置主节点hduser不需要密码访问从节点
[root@lab201 ~]# su - hduser
[hduser@lab201 ~]$ ssh-keygen -t rsa -P ''
[hduser@hjlab1 ~]$ ssh-copy-id -i .ssh/id_rsa.pub hduser@localhost
[hduser@lab201 ~]$ ssh-copy-id -i .ssh/id_rsa.pub hduser@lab201
[hduser@lab201 ~]$ ssh-copy-id -i .ssh/id_rsa.pub hduser@lab203

[hduser@lab201 conf]$ vim masters 修改SecondaryNameNode节点
lab202

[hduser@lab201 conf]$ vim slaves 修改从节点
lab203

[hduser@lab201 conf]$ vim core-site.xml

hadoop.tmp.dir

/hadoop/temp

fs.default.name

hdfs://lab201:8020

[hduser@lab201 conf]$ vim mapred-site.xml

mapred.job.tracker

lab201:8021

[hduser@lab201 conf]$ vim hdfs-site.xml hduser对hadoop要写写权限，才能自动创建/hadoop/data /hadoop/name等文件

dfs.replication

1

The actual number of replications can be specified when the file is created.

dfs.data.dir

/hadoop/data

ture

The directories where the datanode stores blocks.

dfs.name.dir

/hadoop/name

ture

The directories where the namenode stores its persistent matadata.

fs.checkpoint.dir

/hadoop/namesecondary

ture

The directories where the secondarynamenode stores checkpoints.

将配置文件copy到从节点：
[hduser@lab201 conf]$ scp hdfs-site.xml core-site.xml mapred-site.xml lab2:/usr/local/hadoop/conf/
[hduser@lab201 conf]$ scp hdfs-site.xml core-site.xml mapred-site.xml lab3:/usr/local/hadoop/conf/

[hduser@lab201 conf]$ hadoop namenode -format
[hduser@lab201 conf]$ start-all.sh
[hduser@lab201 conf]$ jps
在从节点上jps查看进程是否启动，在浏览器中打开相关页面，查看是否能够正常访问

功能测试同伪分布式模式，此处不再介绍。

阅读(1346) | 评论(0) | 转发(0) |

上一篇：ubuntu下source、sh、bash、./执行脚本的区别

下一篇： hadoop学习笔记（8）-hosts文件配置的问题

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6