Chinaunix首页 | 论坛 | 博客
  • 博客访问: 710124
  • 博文数量: 143
  • 博客积分: 1554
  • 博客等级: 上尉
  • 技术积分: 1767
  • 用 户 组: 普通用户
  • 注册时间: 2011-04-10 11:50
文章分类

全部博文(143)

文章存档

2017年(2)

2016年(5)

2015年(16)

2014年(25)

2013年(27)

2012年(16)

2011年(52)

分类: 架构设计与优化

2013-12-28 23:55:06

1、  安装虚拟机和操作系统

VMware-workstation-full-10.0.0  或 VirtualBox-4.2.18-88781-Win    

ubuntu-13.04-server-amd64.iso 

2、  设置root用户密码

sudo passwd root

3、  上传文件

利用上传JDK和HADOOP文件,利用连接虚拟机中的ubuntu,, ,  ,

4、  配置JDK和HADOOP

tar -xzvf jdk-7u40-linux-x64.tar.gz

tar -xzvf hadoop-1.2.1.tar.gz

sudo vi /etc/profile

增加:

export JAVA_HOME=/home/ysc/jdk1.7.0_40

export PATH=$PATH:$JAVA_HOME/bin: /home/ysc/hadoop-1.2.1/bin

source /etc/profile

5、配置HADOOP

配置主机名称及网络

vi /etc/hostname

指定名称为host001

vi /etc/hosts

替换内容为:192.168.137.128 host001

同时加入C:\Windows\System32\drivers\etc\hosts文件

查看是否启用IPV6

cat /proc/sys/net/ipv6/conf/all/disable_ipv6

显示0说明ipv6开启,1说明关闭

关闭ipv6的方法:

sudo vi /etc/sysctl.conf

增加下面几行,并重启

#disable IPv6

net.ipv6.conf.all.disable_ipv6 = 1

net.ipv6.conf.default.disable_ipv6 = 1

net.ipv6.conf.lo.disable_ipv6 = 1

配置SSH

cd /home/ysc

sudo apt-get install openssh-server

ssh-keygen -t rsa(密码为空,路径默认)

cp .ssh/id_rsa.pub .ssh/authorized_keys

ssh host001

yes

cd hadoop-1.2.1

配置HADOOP环境变量

vi conf/hadoop-env.sh

增加:

export JAVA_HOME=/home/ysc/jdk1.7.0_40

配置HADOOP运行参数

vi conf/masters

localhosthost001

 

vi conf/slaves

localhosthost001

 

vi conf/core-site.xml

 

fs.default.name

hdfs://host001:9000

hadoop.tmp.dir

/home/ysc/tmp

 

vi conf/hdfs-site.xml

 

  dfs.name.dir

  /home/ysc/dfs/filesystem/name

  dfs.data.dir

  /home/ysc/dfs/filesystem/data

  dfs.replication

  1

 

vi conf/mapred-site.xml

                   

  mapred.job.tracker

  host001:9001

  mapred.tasktracker.map.tasks.maximum

  4

  mapred.tasktracker.reduce.tasks.maximum

  4

  mapred.system.dir

  /home/ysc/mapreduce/system

  mapred.local.dir

  /home/ysc/mapreduce/local

格式化名称节点并启动集群

hadoop  namenode  -format

启动集群并查看WEB管理界面

start-all.sh

访问可以查看 JobTracker 的运行状态

访问可以查看 TaskTracker 的运行状态

访问可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log 

hadoop jar hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar -inputinput -output output-streaming  -mapper/bin/cat -reducer /usr/bin/wc

hadoop  jar  hadoop-1.2.1/hadoop-examples-1.2.1.jar  wordcount  input  output

停止集群

stop-all.sh

阅读(2024) | 评论(1) | 转发(1) |
给主人留下些什么吧!~~

niao59292013-12-30 22:02:58

是oracleJDK还是OPENJDK。个人更推崇OPENJDK!!!!