linux下安装hadoop步骤-yifangyou-ChinaUnix博客

yifangyouyifangyou.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

yifangyou

博客访问： 4228186
博文数量： 291
博客积分： 8003
博客等级：大校
技术积分： 4275
用户组：普通用户
注册时间： 2010-10-30 18:28

文章分类

全部博文（291）

geode（1）
交叉编译（1）
路由器（1）
技术会议（1）
移动开发（3）

flash（1）
IOS（11）
项目管理（1）
mac（7）
翻译（2）
读书（8）
phonegap（0）
java（26）
javascript（5）
android（3）
虚拟机（5）
php（15）
win7技巧（4）
硬件（1）
windows（12）
c开发（13）
shell（2）
windows技巧（7）
linux系统（32）
linux环境开发（18）
perl（11）
日记（25）
开发（46）
数据库（22）
未分配的博文（8）

文章存档

2017年（1）

2013年（47）

2012年（115）

2011年（121）

2010年（7）

我的朋友

相关博文

linux下安装hadoop步骤

分类：云计算

2011-06-07 13:48:06

一、前期准备:

下载hadoop:

二、硬件环境

共有3台机器，均使用的CentOS，Java使用的是jdk1.6.0。

三、安装JAVA6

sudo apt-get install sun-java6-jdk

/etc/environment

打开之后加入：#中间是以英文的冒号隔开，记得windows中是以英文的分号做为分隔的

CLASSPATH=.:/usr/local/java/lib

JAVA_HOME=/usr/local/java

三、配置host表

[root@hadoop ~]# vi /etc/hosts

127.0.0.1 localhost

192.168.13.100 namenode

192.168.13.108 datanode1

192.168.13.110 datanode2

[root@test ~]# vi /etc/hosts

127.0.0.1 localhost

192.168.13.100 namenode

192.168.13.108 datanode1

[root@test2 ~]# vi /etc/host

127.0.0.1 localhost

192.168.13.100 namenode

192.168.13.110 datanode2

添加用户和用户组

addgroup hadoop

adduser hadoop

usermod -a -G hadoop hadoop

passwd hadoop

配置ssh:

服务端:

su hadoop

ssh-keygen -t rsa

cp id_rsa.pub authorized_keys

客户端

chmod 700 /home/hadoop

chmod 755 /home/hadoop/.ssh

su hadoop

cd /home

mkdir .ssh

服务端:

chmod 644 /home/hadoop/.ssh/authorized_keys

scp authorized_keys datanode1:/home/hadoop/.ssh/

scp authorized_keys datanode2:/home/hadoop/.ssh/

ssh datanode1

ssh datanode2

　如果ssh配置好了就会出现以下提示信息

The authenticity of host [dbrg-2] can't be established.

Key fingerpr is 1024 5f:a0:0b:65:d3:82:df:ab:44:62:6d:98:9c:fe:e9:52.

Are you sure you want to continue connecting (yes/no)?

　　OpenSSH告诉你它不知道这台主机但是你不用担心这个问题你是第次登录这台主机键入“yes”这将把

这台主机“识别标记”加到“~/.ssh/know_hosts”文件中第 2次访问这台主机时候就不会再显示这条提示信

不过别忘了测试本机ssh　dbrg-1

mkdir /home/hadoop/HadoopInstall

tar -zxvf hadoop-0.20.1.tar.gz -C /home/hadoop/HadoopInstall/

cd /home/hadoop/HadoopInstall/

ln -s hadoop-0.20.1 hadoop

export JAVA_HOME=/usr/local/java

export CLASSPATH=.:/usr/local/java/lib

export HADOOP_HOME=/home/hadoop/HadoopInstall/hadoop

export HADOOP_CONF_DIR=/home/hadoop/hadoop-conf

export PATH=$HADOOP_HOME/bin:$PATH

cd $HADOOP_HOME/conf/

mkdir /home/hadoop/hadoop-conf

cp hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml masters slaves /home/hadoop/hadoop-conf

vi $HADOOP_HOME/hadoop-conf/hadoop-env.sh

# The java implementation to use. Required. --修改成你自己jdk安装的目录

export JAVA_HOME=/usr/local/java

export HADOOP_CLASSPATH=.:/usr/local/java/lib

# The maximum amount of heap to use, in MB. Default is 1000.--根据你的内存大小调整

export HADOOP_HEAPSIZE=200

vi /home/hadoop/.bashrc

export JAVA_HOME=/usr/local/java

export CLASSPATH=.:/usr/local/java/lib

export HADOOP_HOME=/home/hadoop/HadoopInstall/hadoop

export HADOOP_CONF_DIR=/home/hadoop/hadoop-conf

export PATH=$HADOOP_HOME/bin:$PATH

配置

namenode

#vi $HADOOP_CONF_DIR/slaves

192.168.13.108

192.168.13.110

#vi $HADOOP_CONF_DIR/core-site.xml

fs.default.name

hdfs://192.168.13.100:9000

#vi $HADOOP_CONF_DIR/hdfs-site.xml

dfs.replication

Default block replication.

The actual number of replications can be specified when the file is created.

The default is used if replication is not specified in create time.

#vi $HADOOP_CONF_DIR/mapred-site.xml

mapred.job.tracker

192.168.13.100:11000

在slave上的配置文件如下(hdfs-site.xml不需要配置)：

[root@test12 conf]# cat core-site.xml

fs.default.name

hdfs://namenode:9000

[root@test12 conf]# cat mapred-site.xml

mapred.job.tracker

namenode:11000

启动

export PATH=$HADOOP_HOME/bin:$PATH

hadoop namenode -format

start-all.sh

停止stop-all.sh

在hdfs上创建danchentest文件夹，上传文件到此目录下

$HADOOP_HOME/bin/hadoop fs -mkdir danchentest

$HADOOP_HOME/bin/hadoop fs -put $HADOOP_HOME/README.txt danchentest

cd $HADOOP_HOME

hadoop jar hadoop-0.20.1-examples.jar wordcount /user/hadoop/danchentest/README.txt output1

09/12/21 18:31:44 INFO input.FileInputFormat: Total input paths to process : 1

09/12/21 18:31:45 INFO mapred.JobClient: Running job: job_200912211824_0002

09/12/21 18:31:46 INFO mapred.JobClient: map 0% reduce 0%

09/12/21 18:31:53 INFO mapred.JobClient: map 100% reduce 0%

09/12/21 18:32:05 INFO mapred.JobClient: map 100% reduce 100%

09/12/21 18:32:07 INFO mapred.JobClient: Job complete: job_200912211824_0002

09/12/21 18:32:07 INFO mapred.JobClient: Counters: 17

09/12/21 18:32:07 INFO mapred.JobClient: Job Counters

09/12/21 18:32:07 INFO mapred.JobClient: Launched reduce tasks=1

查看输出结果文件，这个文件在hdfs上

[root@test11 hadoop]# hadoop fs -ls output1

Found 2 items

drwxr-xr-x - root supergroup 0 2009-09-30 16:01 /user/root/output1/_logs

-rw-r--r-- 3 root supergroup 1306 2009-09-30 16:01 /user/root/output1/part-r-00000

[root@test11 hadoop]# hadoop fs -cat output1/part-r-00000

(BIS), 1

(ECCN) 1

查看hdfs运行状态,可以通过web界面来访问查看map-reduce信息，

可以通过web界面来访问下面是直接命令行看到的结果。

出现08/01/25 16:31:40 INFO ipc.Client: Retrying connect to server: foo.bar.com/1.1.1.1:53567. Already tried 1 time(s).

的原因是没有格式化:hadoop namenode -format

阅读(1360) | 评论(0) | 转发(0) |

上一篇：javascript自定义字符串处理函数

下一篇：linux C把ip转为整数

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6