(转载)部署hadoop时的一些基本事项-yandaren

yandarenyandaren.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

yandaren_1220

博客访问： 1789220
博文数量： 198
博客积分： 4088
博客等级：上校
技术积分： 2391
用户组：普通用户
注册时间： 2011-05-15 16:29

个人简介

游戏开发，系统架构; 博客迁移到：http://www.jianshu.com/u/3ac0504b3b8c

文章分类

全部博文（198）

服务器监控（1）
auto test（1）
linux上第三方库（5）
Linux相关的一些（4）
Redis（2）
Lua（0）
高并发（0）
boost（0）
Utility（1）
系统架构（0）
DBCP（1）
窘呀（0）
杂谈（0）
一些简单技巧（2）
Java（6）
svn（0）
Hadoop（3）
数据结构（1）

排序（1）
http（0）
设计模式（6）
effective c++（4）
SQL（5）
Linux的一些有用（1）
线程同步（3）
XML（9）
VC++（5）
Python（13）
心情日记（0）
Qt编程（11）
反思（0）
感悟（2）
GDB调试（6）
常见C/C++面试题（6）
算法（5）
shell编程（0）
网络编程（6）
GTK+编程（1）
C#（4）
C/C++（57）
Linux（15）
未分配的博文（12）

文章存档

2017年（1）

2016年（12）

2015年（1）

2014年（3）

2013年（13）

2012年（18）

2011年（150）

我的朋友

相关博文

(转载)部署hadoop时的一些基本事项

分类：系统运维

2013-06-13 14:13:17

原文地址：(转载)部署hadoop时的一些基本事项作者：梦飞雨

最近云计算在中国极为火爆，但看了云计算的那些云山雾罩的概念后，实在让人望而却步。还好不是所有的东西都摸不着头脑，Hadoop就是实实在在的技术之一。不才最近仔细品读了Hadoop的基础资料，特别是如何部署Hadoop的相关技术文档，发现其中有许多不为人注意的东西，在此整理一下。

关于如何部署Hadoop，网上可以搜到很多文章，在这里不打算凑这个热闹。
是目前比较权威的文档；
有什么与Hadoop相关的技术问题也可以到专业的上去讨论。Hadoop集群的组成成份
Hadoop的核心功能有两个：HDFS与MapReduce。与HDFS相关的服务有NameNode、SecondaryNameNode及DataNode；与MapReduce相关的服务有JobTracker和TaskTracker两种。

Hadoop集群中有两种角色：master与slave，master又分为主master与次master。其中：

主master同时提供NameNode、SecondaryNameNode及JobTracker三种服务；
次master只提供SecondaryNameNode服务；
所有slave可以提供DateNode或TaskTracker两种服务。

Hadoop有三种集群方式可以选择：

Local (Standalone) Mode（无集群模式）
Pseudo-Distributed Mode（单机集群模式）
Fully-Distributed Mode（多机集群模式）

一个Hadoop集群由多台电脑组成，每台电脑可作为一种或多种角色存在。
当使用Pseudo-Distributed Mode创建Hadoop集群时，一台电脑同时完成主master和slave两种角色的任务。在Fully-Distributed Mode下，如果只有一台电脑作为master，则此电脑完成主master的任务；如果有多台电脑作为master存在，则第一台电脑完成主master的任务，其它电脑完成次master的任务。无密码SSH登录
启动Hadoop的方式是在主master上调用下面的命令：

$HADOOP_HOME/bin/start-all.sh

此调用过程中，Hadoop依次启动以下服务：

在主master上启动NameNode服务；
在主master上启动SecondaryNameNode服务；
在次master上启动SecondaryNameNode服务；
在所有slave上启动DataNode服务；
在主master上启动JobTracker服务；
在所有slave上的TaskTracker服务。

在此需要注意以下几点：

启动NameNode与JobTracker服务不需要SSH授权；
需要通过SSH登录之后才能启动SecondaryNameNode、DataNode以及TaskTracker服务，因此：
- 因为需要启动SencondaryNameNode服务，所以要为主master提供SSH授权；
- 因为需要启动SencoddaryNameNode服务，所以要为所有的次master提供SSH授权；
- 因为需要启动DataNode和TaskTracker服务，所以要为所有的slave提供SSH授权。

总而言之，要为Hadoop集群中的所有计算机提供SSH授权。

为什么要提供无密码SSH登录方式呢？为的是图省事儿。试想在启动Hadoop集群过程中，要手动输入每一台电脑的SSH密码将是一件多么烦人的事！SSH授权的方法在这里不做详细的描述。无密码SSH登录技术也是相对成熟的技术。但有一个环节需要注意，那就是文件的访问权限问题。表现为：

Linux系统中$HOME目录下的.ssh目录为用户所有，权限必须为700（只有用户自己可以全权访问）；
.ssh目录下的授权文件“authorized_keys”为用户所有，权限必须为644。

关闭防火墙
部署Hadoop集群时，master与slave的防火墙均要关闭。关闭防火墙的根本目的也是为了图省事儿，因为在使用HDFS与MapReduce时，Hadoop会打开许多监听端口。它们分别是：与HDFS有关的地址及端口属性
fs.default.name

位置：conf/core-site.xml
必须项：是
常用值：hdfs://[域名或IP地址]:9000
说明：NameNode主服务器的地址

必须在所有master及slave上的conf/core-site.xml中设置此项。并且因为Hadoop架构是主master模式，所以在一个集群中的所有master及slave上设置的fs.default.name值应该是唯一一个NameNode主服务器的地址。

dfs.datanode.address

位置：conf/hdfs-site.xml
必须项：否
默认值：0.0.0.0:50010
说明：DataNode服务的地址

dfs.datanode.ipc.address

位置：conf/hdfs-site.xml
必须项：否
默认值：0.0.0.0:50020
说明：DataNode IPC服务的地址

dfs.http.address

位置：conf/hdfs-site.xml
必须项：否
默认值：0.0.0.0:50070
说明：NameNode HTTP状态监视地址

dfs.secondary.http.address

位置：conf/hdfs-site.xml
必须项：否
默认值：0.0.0.0:50090
说明：SecondaryNameNode HTTP状态监视地址

dfs.datanode.http.address

位置：conf/hdfs-site.xml
必须项：否
默认值：0.0.0.0:50075
说明：DataNode HTTP状态监视地址

与MapReduce有关的地址及端口属性
mapred.job.tracker

位置：conf/mapred-site.xml
必须项：是
常用值：[域名或IP地址]:9001
说明：JobTracker主服务器地址及端口

必须在所有master及slave上的conf/mapred-site.xml中设置此项。并且因为Hadoop架构是主master模式，所以在一个集群中的所有master及slave上设置的mapred.job.tracker的值应该是唯一一个JobTracker主服务器的地址。

mapred.task.tracker.report.address

位置：conf/mapred-site.xml
必须项：否
默认值：127.0.0.1:0
说明：提交报告用TaskTracker服务地址

mapred.job.tracker.http.address

位置：conf/mapred-site.xml
必须项：否
默认值：0.0.0.0:50030
说明：JobTracker HTTP状态监视地址

mapred.task.tracker.http.address

位置：conf/mapred-site.xml
必须项：否
默认值：0.0.0.0:50060
说明：TaskTracker HTTP状态监视地址

阅读(1359) | 评论(0) | 转发(0) |

上一篇：Hbase实现like查询

下一篇：Java Service Wrapper使用

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6