在Linux上安装与配置Hadoop-xiong9937-ChinaUnix博客

storage&nbsp;architect

首页　| 　博文目录　| 　关于我

xiong9937

博客访问： 1975671
博文数量： 1000
博客积分： 0
博客等级：民兵
技术积分： 7921
用户组：普通用户
注册时间： 2013-08-20 09:23

个人简介

storage R&D guy.

文章分类

全部博文（1000）

hh（5）
python（1）
flashcache（2）
levelDB（12）
java（4）
mac（5）
zookeeper（73）
ceph（108）
investation（2）
raid（3）
USB（21）
raise（1）
others（2）
salary（2）
salary（0）
KVM（11）
3G（2）
SAS（3）
PMC（2）
cold（24）
algorithm（9）
HDFS（92）
HDFS（4）
gdb（5）
hp（1）
DDK（27）
C（25）
eclipse（3）
tools（52）
kernel（37）
iscsi（19）
HPC（1）
FS（35）
scst（15）
istributed （5）
cloud（19）
NAS（41）
intel（1）
algorithm（0）
command（2）
tcpip（18）
documents（2）
board（1）
memory（13）
management（1）
linux boot（34）
bios（3）
pcie（56）
memory（3）
ethnet（56）
driver（3）
fcoe（13）
FC（14）
english（4）
switch（2）
links（14）
private（0）
protocal（0）
office（2）
network（2）
vm（8）
database（1）
os（43）
storage（27）

fcoe（4）
server（3）
未分配的博文（1）

文章存档

2019年（5）

2017年（47）

2016年（38）

2015年（539）

2014年（193）

2013年（178）

我的朋友

1 安装JDK1.7

Linux会自带JDK，如果不使用自带版本的话需要卸载。

(一) 卸载系统自带的jdk版本

查看自带的jdk

#rpm -qa | grep gcj

看到如下信息：

libgcj-4.1.2-44.el5

java-1.4.2-gcj-compat-1.4.2.0-40jpp.115

使用rpm -e --nodeps 命令删除上面查找的内容：

#rpm -e --nodeps java-1.4.2-gcj-compat-1.4.2.0-40jpp.115

(二) 卸载rpm安装的jkd版本

查看安装的jdk：

#rpm -qa|grep jdk

看到如下信息：

java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5

卸载：

#rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5

(三) 安装jdk

首先到sun官网下载安装包，下面是最新的安装包

如果希望找以前的版本，到下面的地址可以找到

有jdk-6u7-linux-i586-rpm.bin和jdk-6u7-linux-i586.bin两种版本。bin是二进制包，而rpm是redhat package 就是红帽的标准安装包。区别就是rpm安装的时候给你自动配置，一般都是lib安装到/usr/lib，bin安装到/usr/bin下边，就算不是，在/usr/bin下也要建立一个软连接。

下边以现有最新版本jdk-7u3-linux-i586.rpm为例进行安装：

将安装文件放到:/usr/java目录下，修改权限，命令如下（需先用cd命令切换到相应目录下）：

# chmod +x jdk-7u3-linux-i586.rpm

执行文件的安装：

# rpm-ivh jdk-7u3-linux-i586.rpm

(四) 配置环境变量

修改/etc/profile文件，在该文件最后加上

export JAVA_HOME=/usr/java/jdk1.7.0_03

export PATH=$PATH: /usr/java/jdk1.7.0_03/bin

保存

(五) 执行

cd /etc

source profile

(六) 验证JDK是否安装成功

[root@localhost ~]# java -version

java version "1.7.0"

Java(TM) SE Runtime Environment (build 1.7.0-b147)

Java HotSpot(TM) Server VM (build 21.0-b17, mixed mode)

2 配置SSH免密码登陆

首先，确保当前可以连接到互联网。在root下修改/etc/ssh/sshd_config文件（客户端、服务器都需要更改），将

#AuthorizedKeysFile .ssh/authorized_keys

前面的＃号去掉，即启用

AuthorizedKeysFile .ssh/authorized_keys

如果需要root也能ssh登录，把“#PermitRootLogin yes”前面的＃号也去掉。

同样root账户下，重启sshd服务使之生效

/etc/rc.d/init.d/sshd restart

客户端中，切换到需要ssh登录的帐户下:

ssh-keygen -t dsa

产生公私钥对。回车，采用默认文件保存钥匙。

xxxxx 回车键入密码短语，直接回车为不建立密码短语。密码短语至少5个字符

xxxxx 回车重复密码短语，直接回车为不建立密码短语

也可以：

ssh-keygen -t dsa -P ' ' -f /home/账户名/.ssh/id_dsa

ssh-keygen代表生成密钥；-t（注意区分大小写）表示指定生成的迷密钥类型；dsa是dsa密钥认证的意思，即密钥类型；-P用于提供密语；-f指定生成的密钥文件。这个

公私钥产生在此账户的.ssh目录中，id_dsa为私钥，id_dsa.pub为公钥

服务器中，切换到需要ssh登录的帐户下：

如果服务器中尚未建立公私钥对，那么首先按照客户端的方法建立公私钥对

scp 账户名@客户端主机名或ip地址:/home/帐户名/.ssh/id_dsa.pub /home/帐户名/

将客户端账户的公钥拷到服务器中。客户端用主机名或ip地址均可，但是需与ssh登录命令相符，建议将主机名与ip地址写入/etc/hosts中，此处用主机名即可（下同）。

yes 将客户端写入known_hosts中

输入客户端中的账户密码完成复制

将id_rsa.pub中的内容添加到authorized_keys文件中，authorized_keys文件名需与sshd_config中的设置相符

cat /home/帐户名/id_rsa.pub >>/home/帐户名/.ssh/authorized_keys

修改authorized_keys文件的权限，至少为644，也可更为严格（600），不修改的话ssh无密码登录不起作用：

chmod 644 /home/帐户名/.ssh/authorized_keys

客户端中，切换到需要ssh登录的帐户下:

ssh 服务器主机名 --登录服务器，若在服务器与客户端中的帐户名不同，则

ssh 帐户名@服务器主机名

yes --将服务器写入known_hosts中

若产生公私钥时设置了密码短语，还需要输入密码短语，为了方便，可在客户端中ssh-add，然后输入密码短语，下次再ssh登录，无需再输入密码短语。

验证：

[test@localhost ~]$ ssh -version

OpenSSH_4.3p2, OpenSSL 0.9.8e-fips-rhel5 01 Jul 2008

Bad escape character 'rsion'.

显示SSH已经安装成功了。输入命令：

ssh localhost

会有如下显示：

[test@localhost .ssh]$ ssh localhost

The authenticity of host 'localhost (127.0.0.1)' can't be established.

RSA key fingerprint is 2b:36:6b:23:4d:e4:71:2b:b0:79:69:36:0e:65:3b:0f.

Are you sure you want to continue connecting (yes/no)? yes

Warning: Permanently added 'localhost' (RSA) to the list of known hosts.

Last login: Tue Oct 30 13:08:33 2012 from localhost.localdomain

这说明已经安装成功，第一次登录时会询问你是否继续链接，输入yes即可进入。

实际上，在Hadoop的安装过程中，是否无密码登陆是无关紧要的，但是如果不配置无密码登录，每次启动Hadoop，都需要输入密码以登陆到每台机器的DataNode上，考虑到一般的Hadoop集群动辄数百台或上千台机器，因此一般来说都会配置SSH的无密码登录。

关于公私钥对的一点理解：公私钥对就像是一套钥匙和锁，公钥是锁，私钥是钥匙。私钥留在客户端中，公钥发给服务器。服务器可以有很多把锁，客户端只有一把钥匙。当客户端ssh登录服务器时，服务器会找到这个客户端发的锁，然后跟客户端要钥匙，如果钥匙是配套的，那么登录成功，反之登录失败。当然，以上是针对同一个用户说的，不同用户的公私钥对也不同，而且每次ssh-keygen产生的公私钥对也不同。

备注将普通用户修改为超级用户的方法：

l 进入超级用户模式。也就是输入"su -",系统会让你输入超级用户密码，输入密码后就进入了超级用户模式。

l 添加文件的写权限。也就是输入命令"chmod u+w /etc/sudoers"。

l 编辑/etc/sudoers文件。也就是输入命令"vim /etc/sudoers",输入"i"进入编辑模式，找到这一行："root ALL=(ALL) ALL"在起下面添加"xxx ALL=(ALL) ALL"(这里的xxx是你的用户名)，然后保存（就是先摁一下Esc键，然后输入":wq"）退出。

l 撤销文件的写权限。也就是输入命令"chmod u-w /etc/sudoers"。

3 安装并运行Hadoop

先介绍一下Hadoop对各个节点的角色意义：

Hadoop分别从三个角度将主机划分为两种角色。第一，划分为master和salve，即主人与奴隶；第二，从HDFS的角度，将主机划分为NameNode和DataNode（在分布式文件系统中，目标的管理很重要，管理目录的就相当于主人，而NameNode就是目录管理者）；第三，从MapReduce的角度，将主机划分为JobTracker和TaskTracker（一个job经常被划分为多个task，从这个角度不难理解它们之间的关系）。

Hadoop有官方发行版与cloudera版，其中cloudera版是Hadoop的商用版本。下面介绍Hadoop官方发行版的安装方法。

Hadoop有三种运行方式：单节点方式、单击伪分布方式与集群方式。乍看之下，前两种方式并不能体现云计算的优势，在实际应用中并没有什么意义，但是在程序的测试与调试过程中，他们还是很有意义的。

可以通过下面的地址下载获得Hadoop的官方发行版：

下载hadoop-1.0.4.tar.gz并将其解压，解压到用户目录下：/home/[用户]/

tar -xzvf hadoop-1.0.4.tar.gz

l 单节点方式配置

安装单节点的Hadoop无须配置，在这种方式下，Hadoop被认为是一个单独的java进程，这种方式经常用来测试。

l 伪分布式配置

可以把伪分布式的Hadoop看作是一个节点的集群，在这个集群中，这个节点既是master，也是salve；既是NameNode也是DataNode；既是JobTracker，也是TaskTracker。

伪分布式的配置过程也很简单，只需要修改几个文件，如下所示。

进入conf文件夹(在解压缩的目录下)，修改配置文件。

[test@localhost conf]$ pwd

/home/test/hadoop-1.0.4/conf

[test@localhost conf]$ ls hadoop-env.sh

hadoop-env.sh

[test@localhost conf]$ vim hadoop-env.sh

添加内容：

export JAVA_HOME=/usr/java/jdk1.7.0

指定JDK的安装位置

[test@localhost conf]$ pwd

/home/test/hadoop-1.0.4/conf

[test@localhost conf]$ ls core-site.xml

core-site.xml

修改文件

[test@localhost conf]$ vim core-site.xml

添加内容：

fs.default.name

hdfs://localhost:9000

这是hadoop核心的配置文件，这里配置的是HDFS的地址和端口号。

[test@localhost conf]$ ls hdfs-site.xml

hdfs-site.xml

修改文件：

dfs.replication

这是Hadoop中的HDFS的配置，配置的备份方式默认为3，在单机版的Hadoop中，需要将其改为1.

[test@localhost conf]$ ls mapred-site.xml

mapred-site.xml

[test@localhost conf]$ vim mapred-site.xml

修改文件：

mapred.job.tracker

localhost:9001

这是Hadoop中MapReduce的配置文件，配置的是JobTracker的地址和端口。

需要注意的是，如果安装的是0.20之前的版本，那么只有一个配置文件，即为Hadoop-site.xml。

接下来，在启动Hadoop前，需格式化Hadoop的文件系统HDFS（这点与Windows是一样的，重新分区后的卷总是要格式化的）。进入Hadoop文件夹，输入下面的命令：

[test@localhost hadoop-1.0.4]$ bin/hadoop namenode -format

12/11/01 00:20:50 INFO namenode.NameNode: STARTUP_MSG:

Re-format filesystem in /tmp/hadoop-test/dfs/name ? (Y or N) Y

12/11/01 00:20:55 INFO util.GSet: VM type = 32-bit

12/11/01 00:20:55 INFO util.GSet: 2% max memory = 17.77875 MB

12/11/01 00:20:55 INFO util.GSet: capacity = 2^22 = 4194304 entries

12/11/01 00:20:55 INFO util.GSet: recommended=4194304, actual=4194304

12/11/01 00:20:55 INFO namenode.FSNamesystem: fsOwner=test

12/11/01 00:20:55 INFO namenode.FSNamesystem: supergroup=supergroup

12/11/01 00:20:55 INFO namenode.FSNamesystem: isPermissionEnabled=true

12/11/01 00:20:55 INFO namenode.FSNamesystem: dfs.block.invalidate.limit=100

12/11/01 00:20:55 INFO namenode.FSNamesystem: isAccessTokenEnabled=false accessKeyUpdateInterval=0 min(s), accessTokenLifetime=0 min(s)

12/11/01 00:20:55 INFO namenode.NameNode: Caching file names occuring more than 10 times

12/11/01 00:20:56 INFO common.Storage: Image file of size 110 saved in 0 seconds.

12/11/01 00:20:56 INFO common.Storage: Storage directory /tmp/hadoop-test/dfs/name has been successfully formatted.

12/11/01 00:20:56 INFO namenode.NameNode: SHUTDOWN_MSG:

格式化文件系统，接下来启动Hadoop。

首先赋予test用户hadoop文件夹的使用权限：

[test@localhost ~]$ chown -hR test /home/test/hadoop-1.0.4

输入命令：

[test@localhost hadoop-1.0.4]$ bin/start-all.sh

starting namenode, logging to /home/test/hadoop-1.0.4/libexec/../logs/hadoop-test-namenode-localhost.localdomain.out

localhost: starting datanode, logging to /home/test/hadoop-1.0.4/libexec/../logs/hadoop-test-datanode-localhost.localdomain.out

localhost: starting secondarynamenode, logging to /home/test/hadoop-1.0.4/libexec/../logs/hadoop-test-secondarynamenode-localhost.localdomain.out

starting jobtracker, logging to /home/test/hadoop-1.0.4/libexec/../logs/hadoop-test-jobtracker-localhost.localdomain.out

localhost: starting tasktracker, logging to /home/test/hadoop-1.0.4/libexec/../logs/hadoop-test-tasktracker-localhost.localdomain.out

利用jps查看已经启动的服务:

[test@localhost ~]$ cd /home/test/hadoop-1.0.4

[test@localhost hadoop-1.0.4]$ jps

12657 SecondaryNameNode

12366 NameNode

12995 Jps

12877 TaskTracker

12739 JobTracker

12496 DataNode

最后，验证Hadoop是否安装成功。打开浏览器，分别输入网址：

(HDFS的Web页面)

(MapReduce的Web页面)

如果都能看到，说明Hadoop已经安装成功。对于Hadoop来说，安装MapReduce及HDFS都是必须的，但是如果有必要，依然可以只启动HDFS或者MapReduce：

[test@localhost hadoop-1.0.4]$ bin/start-dfs.sh

[test@localhost hadoop-1.0.4]$ bin/start-mapred.sh

4 搭建Hadoop的开发环境

Linux下安装eclipse

下载地址：http://www.eclipse.org/downloads/packages/eclipse-ide-java-ee-developers/junor

下载：eclipse-jee-juno-linux-gtk.tar.gz

解压缩：

[test@localhost ~]$ pwd

/home/test

[test@localhost ~]$ tar -xvf eclipse-jee-juno-linux-gtk.tar.gz

刚刚解压缩出来的Eclipse是找不到Java执行路径的，为了让每一位linux的使用者都可以执行eclipse，需要执行一下命令：

[test@localhost eclipse]$ /home/test/eclipse/eclipse -vm /usr/java/jdk1.7.0/bin/java -data ~/workspace

其中/home/test/eclipse/eclipse是对eclipse-jee-juno-linux-gtk.tar.gz解压之后的eclipse文件: -vm 参数用以指定使用哪一个jvm来执行eclipse，在此我们指定之前安装的Sun JDK 1.7.0-01 版-date 参数用以告诉eclipse要将项目储存在哪一个目录中。在此我们指定储存在使用者home目录(~)或用户根目录（"）的 workspace 目录中。此时，会看到eclipse图形界面出现，安装成功。可以在桌面创建启动器，将启动命令写入：/home/test/eclipse/eclipse，这样每次在桌面上就可以直接启动eclipse了。

下载插件hadoop-eclipse-plugin-1.0.3.jar，将插件拷贝到/home/test/eclipse/plugins下即可。

在Linux上安装与配置Hadoop

n 在左边的 project explorer 上头会有一个 DFS locations的标志

n 在 windows -> preferences里面会多一个hadoop map/reduce的选项，选中这个选项，然后右边，把下载的hadoop根目录选中

如果能看到以上两点说明安装成功了。

插件装完启动hadoop，然后就可以建一个hadoop连接了，就相当于eclipse里配置一个 weblogic的连接。

第一步，打开Map/Reduce Locations 视图，在右上角有个大象的标志点击：

在Linux上安装与配置Hadoop

第二步，在点击大象后弹出的对话框进行进行参数的添加，如下图：

在Linux上安装与配置Hadoop

location name: 这个随便填写：localhost.

Map/Reduce Master 这个框里

Host：就是jobtracker 所在的集群机器，这里写localhost

Hort：就是jobtracker 的port，这里写的是9001

这两个参数就是mapred-site.xml里面mapred.job.tracker里面的ip和port

DFS Master 这个框里

Host：就是namenode所在的集群机器，这里写localhost

Port：就是namenode的port，这里写9000

这两个参数就是core-site.xml里面fs.default.name里面的ip和port

（Use M/R master host，这个复选框如果选上，就默认和Map/Reduce Master这个框里的host一样，如果不选择，就可以自己定义输入，这里jobtracker 和namenode在一个机器上，所以是一样的，就勾选上）

user name：这个是连接hadoop的用户名，因为我是用test用户安装的hadoop，而且没建立其他的用户，所以就用test。下面的不用填写。然后点击finish按钮，此时，这个视图中就有多了一条记录。

在Linux上安装与配置Hadoop

第三步，重启eclipse并重新编辑刚才建立的那个连接记录，如图现在编辑advance parameters tab页

在Linux上安装与配置Hadoop

（重启编辑advance parameters tab页原因：在新建连接的时候，这个advance paramters tab页面的一些属性会显示不出来，显示不出来也就没法设置，所以必须重启一下eclipse再进来编辑才能看到）

这里大部分的属性都已经自动填写上了，其实就是把core-defaulte.xml、hdfs-defaulte.xml、mapred-defaulte.xml里面的一些配置属性展示出来。因为在安装hadoop的时候，其site系列配置文件里有改动，所以这里也要弄成一样的设置。主要关注的有以下属性：

fs.defualt.name：这个在General tab页已经设置了

mapred.job.tracker：这个在General tab页也设置了

然后点击finish，然后就连接上了，连接上的标志如图：

在Linux上安装与配置Hadoop

DFS Locations下面会有一只大象，下面会有一个文件夹，即 hdfs的根目录，这里就是展示的分布式文件系统的目录结构了。

到这里为止，Eclipse hadoop开发环境配置已经完全搭建完毕。最后，就可以在eclipse中像一般java程序那样开发hadoop程序了。

下面做一个简单的测试：

(一) 第1步：新建项目。

File-->New-->Other-->Map/Reduce Project

项目名可以随便取，如WordCount。

复制 hadoop安装目录/src/example/org/apache/hadoop/example/WordCount.java到刚才新建的项目下面。

(二) 第2步：上传模拟数据文件夹。

为了运行程序，我们需要一个输入的文件夹，和输出的文件夹。

在本地新建word.txt

java c++ python c

java c++ javascript

helloworld hadoop

mapreduce java hadoop hbase

通过hadoop的命令在HDFS上创建/tmp/workcount目录，命令如下：

[test@localhost hadoop-1.0.4]$ bin/hadoop fs -mkdir /tmp/wordcount/

通过copyFromLocal命令把本地的word.txt复制到HDFS上，命令如下：

[test@localhost hadoop-1.0.4]$ bin/hadoop fs -copyFromLocal /tmp/word.txt /tmp/wordcount/word.txt

/tmp/word.txt是本地创建txt文件的路径，/tmp/wordcount/word.txt是HDFS上的路径。

(三) 第3步：运行项目

l 在新建的项目WordCount，点击WordCount.java，右键-->Run As-->Run Configurations

l 在弹出的Run Configurations对话框中，点Java Application，右键-->New，这时会新建一个application名为WordCount

l 配置运行参数，点Arguments，在Program arguments中输入“你要传给程序的输入文件夹和你要求程序将计算结果保存的文件夹”，如：

hdfs://localhost:9000/tmp/wordcount/word.txt hdfs:// localhost:9000/tmp/wordcount/out

l 如果运行时报java.lang.OutOfMemoryError: Java heap space 配置VM arguments(在Program arguments下)

-Xms512m -Xmx1024m -XX:MaxPermSize=256m

在Linux上安装与配置Hadoop

l 点击Run，运行程序。

点击Run，运行程序，过段时间将运行完成，等运行结束后，查看运行结果，使用命令：

[test@localhost hadoop-1.0.4]$ bin/hadoop fs -ls /tmp/wordcount/out

Found 2 items

-rw-r--r-- 3 test supergroup 0 2012-11-01 11:32 /tmp/wordcount/out/_SUCCESS

-rw-r--r-- 3 test supergroup 81 2012-11-01 11:32 /tmp/wordcount/out/part-r-00000

查看例子的输出结果，发现有两个文件，使用命令查看part-r-00000文件，可以查看运行结果。

[test@localhost hadoop-1.0.4]$ bin/hadoop fs -cat /tmp/wordcount/out/part-r-00000

c 1

c++ 2

hadoop 2

hbase 1

helloworld 1

java 3

javascript 1

mapreduce 1

python 1

删除到运行结果：

[test@localhost hadoop-1.0.4]$ bin/hadoop fs -rmr /tmp/wordcount/out

Deleted hdfs://localhost:9000/tmp/wordcount/out

再次Run程序后查看结果：

[test@localhost hadoop-1.0.4]$ bin/hadoop fs -ls /tmp/wordcount/out

Found 2 items

-rw-r--r-- 3 test supergroup 0 2012-11-01 11:37 /tmp/wordcount/out/_SUCCESS

-rw-r--r-- 3 test supergroup 81 2012-11-01 11:37 /tmp/wordcount/out/part-r-00000

[test@localhost hadoop-1.0.4]$ bin/hadoop fs -cat /tmp/wordcount/out/part-r-00000

c 1

c++ 2

hadoop 2

hbase 1

helloworld 1

java 3

javascript 1

mapreduce 1

python 1

5 Hadoop包介绍

Hadoop API被分成如下几种主要的包（package）：

org.apache.hadoop.conf	定义了系统参数的配置文件处理API
org.apache.hadoop.fs	定义了抽象的文件系统API
org.apache.hadoop.dfs	Hadoop分布式文件系统（HDFS）模块的实现
org.apache.hadoop.io	定义了通用的I/O API，用于针对网络，数据库，文件等数据对象做读写操作
org.apache.hadoop.ipc	用于网络服务端和客户端的工具，封装了网络异步I/O的基础模块
org.apache.hadoop.mapred	Hadoop分布式计算系统（MapReduce）模块的实现，包括任务的分发调度等
org.apache.hadoop.metrics	定义了用于性能统计信息的API，主要用于mapred和dfs模块
org.apache.hadoop.record	定义了针对记录的I/O API类以及一个记录描述语言翻译器，用于简化将记录序列化成语言中性的格式（language-neutral manner）
org.apache.hadoop.tools	定义了一些通用的工具
org.apache.hadoop.util	定义了一些公用的API

阅读(1560) | 评论(0) | 转发(0) |

上一篇：集群的概念

下一篇： Linux内核设备驱动模块自动加载机制

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6