Spark On Yarn环境搭建-niao5929-ChinaUnix博客

birdofpreybirdofprey.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

niao5929

博客访问： 7365712
博文数量： 3857
博客积分： 6409
博客等级：准将
技术积分： 15948
用户组：普通用户
注册时间： 2008-09-02 16:48

个人简介

迷彩潜伏隐蔽伪装

文章分类

全部博文（3857）

大数据计算（149）
随想（82）
编程语言（372）

python（3）

lisp（0）

JAVA C++（2）

GOLANG（0）
数据库（115）
高可用集群（412）

分布式系统（26）

SDN（0）

细胞节点（78）

分布式网络（5）
Linux（1172）

SHELL（10）

网络（209）
未分配的博文（1555）

文章存档

2017年（5）

2016年（63）

2015年（927）

2014年（677）

2013年（807）

2012年（1241）

2011年（67）

2010年（7）

2009年（36）

2008年（28）

我的朋友

相关博文

Spark On Yarn环境搭建

分类： HADOOP

2014-07-08 11:49:55

原文地址：Spark On Yarn环境搭建作者：bl竹子

最近在打Spark环境，下面hi简单总结：

一、基本布局

1、服务器分布：

10.168.9.240 主名字节点，同时为数据节点

10.168.9.241 备名字节点，同时数据节点

10.168.9.242 数据节点

2、 HOSTS设置：

10.168.9.240 namenode1

10.168.9.241 namenode2

10.168.9.242 datanode1

注意：hostname不能使localhost（127.0.0.1），应该设成本机具体IP，并且要保持/etc/hosts与/etc/sysconf/network一致

3、 SSH免密码登录：

具体参见脚本：

点击(此处)折叠或打开

#!/bin/sh
rm -rf ~/.ssh
ssh-keygen
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
#scp ~/.ssh/id_rsa.pub root@namenode2: ~/.ssh/
service sshd restart
ssh localhost

注：权限对ssh的设置影响很大

下面的各个操作，可以只在一台机器上进行，然后利用ssh的scp拷贝到其它机器上，命令格式为：scp ~/.ssh/id_rsa.pub root@namenode2: ~/.ssh/，其中root不是用户名，是权限的意思。

二、安装一些相关软件（主要是为了编译hadoop和开发环境搭建）

安装的软件有：JDK（1.8版本存在问题）、MAVEN、PROTOBUF、cmake、ncurses和openss以及hadoop。我在进行安装时都是以共享连接的形式ln -s到/usr/local/目录下的，注意此时要用绝对路径。

三、Hadoop YARN 分布式集群配置

1、添加相应的环境变量：

# vim /etc/profile

export HADOOP_HOME=/usr/local/hadoop

export HADOOP_PID_DIR=/data/hadoop/pids

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=$HADOOP_HOME/lib/native"

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export HDFS_CONF_DIR=$HADOOP_HOME/etc/hadoop

export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

# source /etc/profile

2、创建（主要是为hadoop的tmp.dir配置路径，不配也行试过）

mkdir -p $HADOOP_HOME/{pids,storage}

mkdir -p $HADOOP_HOME/{pids,storage1}

mkdir -p $HADOOP_HOME/storage/{hdfs,tmp}

mkdir -p $HADOOP_HOME/torage/hdfs/{name,data}

3、配置 core-site.xml（vi $HADOOP_HOME/etc/hadoop/core-site.xml）

点击(此处)折叠或打开

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://namenode1:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:$HADOOP_HOME/storage/tmp</value>
</property>
</configuration>

4、配置 hdfs-site.xml（vi $HADOOP_HOME/etc/hadoop/hdfs-site.xml）

点击(此处)折叠或打开

<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>namenode2:9000</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///$HADOOP_HOME/storage/hdfs/name,file:///$HADOOP_HOME/storage1/hdfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///$HADOOP_HOME/storage/hdfs/data,file:///$HADOOP_HOME/storage1/hdfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>

5、配置mapred-site.xml（vi $HADOOP_HOME/etc/hadoop/mapred-site.xml）

点击(此处)折叠或打开

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>namenode1:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>namenode1:19888</value>
</property>
</configuration>

6、配置yarn-site.xml（vi $HADOOP_HOME/etc/hadoop/yarn-site.xml）

点击(此处)折叠或打开

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<!--
此处要是用mapreduce_shuffle，会给出一个警告；
此处要是用mapreduce.shuffle，则会报错；
此处要是不填，则正常
-->
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>namenode1:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>namenode1:8031</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>namenode1:8032</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>namenode1:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>namenode1:80</value>
</property>
</configuration>

7、配置 hadoop-env.sh、mapred-env.sh、yarn-env.sh（在开头添加）

1)、文件路径：

$HADOOP_HOME/etc/hadoop/hadoop-env.sh

$HADOOP_HOME/etc/hadoop/mapred-env.sh

$HADOOP_HOME/etc/hadoop/yarn-env.sh

2)、添加内容

export JAVA_HOME=/usr/local/jdk

export CLASS_PATH=$JAVA_HOME/lib:$JAVA_HOME/jre/lib

export HADOOP_HOME=/usr/local/hadoop

export HADOOP_PID_DIR=/data/hadoop/pids

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=$HADOOP_HOME/lib/native"

export HADOOP_PREFIX=$HADOOP_HOME

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export HDFS_CONF_DIR=$HADOOP_HOME/etc/hadoop

export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

8、数据slaves节点配置（放在此处的节点为slaves节点）

位置：vi $HADOOP_HOME/etc/hadoop/slaves

9、 Hadoop简单测试：（都在master节点上进行）

hadoop namenode -format

tart-dfs.sh

#看看相应的resourcemanager和datanode等节点是否起来。

hdfs与mapreduce测试

#创建个目录： /usr/rocketzhang

hdfs dfs -mkdir -p /user/rocketzhang

#上传一个本地文件

hdfs dfs -put bin/hdfs.cmd /user/rocketzhang

#WordCount程序测试

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /user/rocketzhang /user/out

注意：在此过程中经常出现两种错误：无法连接和datanode节点没起来，大多数是因为防火墙没关闭和需要删除core*.xml中定义tmp.dir目录下的current并重新format。

查看监控页面URL：（我搭建时的url），看是否可以正常显示。

二、 Spark 分布式集群配置

1、下载相关软件：

kbcqa49mib13.cloudfront.net/spark-0.8.1-incubating-bin-hadoop2.tgz

安装并设置相关的环境变量，装完之后利用ln -s命令将其link到/user/local

录下，注意此时最好用绝对路径

2、对spark进行操作，如下：

cd /usr/local/spark/conf

vi spark-env.sh

export JAVA_HOME=/usr/local/jdk

export SCALA_HOME=/usr/local/scala
export HADOOP_HOME=/usr/local/hadoop

mv spark-env.sh.template spark-env.sh

设置slaves，打开slaves，添加datanode节点

3、启动Yarn，有三种方式：start-all.sh（start-dfs.sh、start-yarn.sh）、start-yarn.sh或yarn-demo.sh

4、简单测试：

还是提供过URL打开和上面一样，显示如下界面：

切换到/usr/local/spark目录

1)、本地测试：

./run-example org.apache.spark.examples.SparkPi local

2)、普通集群模式

./run-example org.apache.spark.examples.SparkPi spark://namenode1:7077

./run-example org.apache.spark.examples.SparkLR spark://namenode1:7077

./run-example org.apache.spark.examples.SparkKMeans spark://namenode1:7077 file:/usr/local/spark/kmeans_data.txt 2 1

注：此处不能用namenode1，要用具体IP地址

运行完之后，url界面会有如下显示：

5、结合HDFS的集群模式

hadoop fs -put README.md / /user/rocketzhang（不能用相对路径，无法识别）

MASTER=spark://10.168.9.240:7077 ./spark-shell

scala> val file = sc.textFile("hdfs://namenode1:9000/user/root/README.md")

scala> val count = file.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_)

scala> count.collect()

scala> :quit
本文出自：http://blog.chinaunix.net/uid/28311809/abstract/1.html

阅读(747) | 评论(0) | 转发(0) |

上一篇：如何在Ubuntu上安装最新版本的Node.js

下一篇：JavaScript代码分析

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6