Hadoop安装手记-zyd_cu-ChinaUnix博客

YunNotesydzhang.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

zyd_cu

博客访问： 4113036
博文数量： 251
博客积分： 11197
博客等级：上将
技术积分： 6862
用户组：普通用户
注册时间： 2008-12-05 14:41

个人简介

@HUST张友东 work@taobao zyd_com@126.com

文章分类

全部博文（251）

互联网（8）
课程笔记（7）
技术交流（5）
KV存储（8）
搜索引擎（5）
系统管理（14）
网络编程（22）
程序设计（14）
文件系统（15）
C/C++（18）
Linux内核（29）
Linux编程（27）
FUSE专辑（10）
分布式系统（19）
工作杂记（17）
TFS开发（33）
未分配的博文（0）

文章存档

2014年（10）

2013年（20）

2012年（22）

2011年（74）

2010年（98）

2009年（27）

我的朋友

相关博文

Hadoop安装手记

分类：服务器与存储

2010-12-14 20:49:23

1． 创建java运行环境

l 下载jdk for linux： jdk-6u22-linux-i586.bin

l 安装jdk：chmod a+x jdk-6u22-linux-i586.bin;

./ jdk-6u22-linux-i586.bin

l 设置环境变量

#vi /etc/profile

export JAVA_HOME=/home/ydzhang/jdk1.6.0_22

export PATH="$JAVA_HOME/bin:$PATH"

export CLASSPATH=".:$JAVA_HOME/lib:$CLASSPATH"

l 确认java安装成功

javac/java –version （正确配置PATH）

运行hello world (正确配置CLASSPATH)

2. 搭建hadoop集群

Hadoop可以在三种模式下运行，单机模式，伪分布式模式（NameNode与DataNode在一个节点上），分布式模式（NameNode与DataNode分散在多个不同的节点上）。

注：本例为伪分布式模式,搭建hadoop前，确保各个节点已经安装ssh。

参数配置：（配置文件在HADOOP_HOME/conf目录中, HADOOP_HOME为hadoop的根目录）

l 设置环境变量 hadoop-env.sh

如果环境变量都已设置好，此处无需再做配置

l core-site.xml （默认的配置可查看HADOOP_HOME/docs/cn/core-default.html）

修改该配置文件如下，更改fs.default.name，hadoop.tmp.dir选项。

fs.default.name为文件系统默认名字，其默认值为：

hadoop.tmp.di为临时文件路径，其默认值为：/tmp/hadoop-${user.name}

fs.default.name

hdfs://localhost:9000

hadoop.tmp.dir

/home/u/tmp

l hdfs-site.xml （默认的配置可查看HADOOP_HOME/docs/cn/hdfs-default.html）

修改该配置文件如下，修改dfs.replication，dfs.name.dir，dfs.data.dir。

dfs.replication为副本数，默认值为3。

dfs.name.dir为namenode存储数据的根目录，默认值为${hadoop.tmp.dir}/dfs/name。

dfs.data.dir为datanode存储数据的根目录，默认值为${hadoop.tmp.dir}/dfs/data。

dfs.replication

dfs.name.dir

/home/u/hdfs/name

dfs.data.dir

/home/u/hdfs/data

l mapred.xml（默认的配置可查看HADOOP_HOME/docs/cn/mapred-default.html）

修改该配置文件如下，修改mapred.job.tracker的值。

mapred.job.tracker为jobtracker运行的主机和端口号，默认为localhost；

mapred.job.tracker

localhost:9001

如果配置有多个DataNode并且运行在不同的机器上，则将配置好的Hadoop文件夹拷贝到对应的DataNode上。

启动hadoop前，需格式化hadoop的文件系统hdfs，在master上，进入hadoop文件夹输入命令：bin/hadoop namenode –format

启动所有的服务：bin/start-all.sh

验证hadoop是否安装成功：

(mapreduce的web页面)

(hdfs的web页面)

对于hadoop来说，mapreduce及hdfs都是必须的，但也可以只启动hdfs（start-dfs.sh）或mapreduce（start-mapred.sh）

向正在运行的集群中添加新的数据节点：

输入以下命令：

bin/hadoop-daemon.sh --config ./conf start datanode

bin/hadoop-daemon.sh --config ./conf start tasktracker

这样就可以把新的节点联入集群中，第一步是启动datanode，第二步是启动tasktracker。

3. 运行WordCount实例

l 方法1：参见HADOOP_HOME/docs/ mapred-default.html

注意：0.20.2版本的hadoop编译WordCount时，还要使用HADOOP_HOME/lib/commons-cli-1.2.jar。

l 方法2：

直接用hadoop提供的jar包（hadoop-0.20.2-examples.jar）中包含的wordcount来运行。（参见方法1，在hdfs中创建输入输出目录，建立输入文件集）

执行以下命令：

bin/hadoop jar hadoop-0.19.2-examples.jar wordcount wordcount/input wordcount/output

通过hadoop fs -ls wordcount/output 查看输出文件信息，并可通过cat查看。

阅读(5746) | 评论(0) | 转发(0) |

上一篇：可扩展标记语言XML

下一篇：Linux系统自动配置

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6