spark安装-hxl-ChinaUnix博客

东南西北风andyhuang.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

hxl

博客访问： 6774310
博文数量： 1005
博客积分： 8199
博客等级：中将
技术积分： 13071
用户组：普通用户
注册时间： 2010-05-25 20:19

个人简介

脚踏实地、勇往直前！

文章分类

全部博文（1005）

Oracle（273）

12c cdb/pdb（2）

GoldenGate（15）

SQL&PL/SQL（8）

Data Guard（24）

RAC&Failsafe（52）

Server Utilities（17）

Security（1）

Performance Tuni（27）

Server Admin（80）

Backup&Recovery（38）
Oracle Asm（14）

Backup&Recovery（2）

Server Admin（12）
AIX（24）
Linux（101）
MySql（214）

配置管理（41）

备份和恢复（22）

优化（5）

SQL（17）

安全（0）

MariaDB（1）

工具（4）

中间件（1）

中间件（15）

排错（27）

高可用（12）

集群（11）
elasticsearch（2）
cratedb（0）
gnuplot（4）
ssdb（3）
时序数据库（2）
cratedb+es（27）
存储（1）
golang（7）
自动化运维（15）

nagios（0）

cacti（0）

zabbix（1）

garfana（1）

Python（12）
TiDB（4）
架构设计（1）
Redis（22）
db2（2）
Hadoop（63）

hadoop（16）

hbase（22）

hive（17）

zookeeper（1）

kafka（1）

Storm（1）

Pig（2）

spark（1）
Java（57）

Spring（4）

Hibernate（1）

JDBC（10）

Servlet（3）

网络（0）

多线程（1）
kettle（12）
PostgreSQL（21）

高可用（1）
PHP（7）
MongoDB（34）
Sql Server（12）
HP-UNIX（1）
Windows（2）
Solaris（4）
Storage（6）
Perl（3）
Shell（12）
C/C++（2）
work（17）
未分配的博文（36）

文章存档

2020年（2）

2019年（93）

2018年（208）

2017年（81）

2016年（49）

2015年（50）

2014年（170）

2013年（52）

2012年（177）

2011年（93）

2010年（30）

我的朋友

1.4 下载安装介质

下载安装介质,下载地址为:

根据情况选择下载的版本,我这里下载的版本是scala-2.10.2.tgz

1.5 解压并安装

使用hadoop登陆

拷贝安装文件到usr1目录

[hadoop1@node1 sacala]$ cp scala-2.10.2.tgz /usr1/

解压

[hadoop1@node1 usr1]$ tar -zxvf scala-2.10.2.tgz

目录改名

[hadoop1@node1 usr1]$ mv scala-2.10.2 scala

将hive目录权限赋予hadoop用户

[root@node1 usr1]# chown -R hadoop1:hadoop1 ./ scala

1.6 添加环境变量

export SCALA_HOME= /usr1/scala

修改后的红色标识

[hadoop1@node1 ~]$ vi .bash_profile

# .bash_profile

# Get the aliases and functions

if [ -f ~/.bashrc ]; then

. ~/.bashrc

# User specific environment and startup programs

export JAVA_HOME=/usr/java/jdk1.8.0_05

export JRE_HOME=/usr/java/jdk1.8.0_05/jre

export HADOOP_HOME=/usr1/hadoop

HIVE_HOME=/usr1/hive

ZOOKEEPER_HOME=/usr1/zookeeper

export SCALA_HOME=/usr1/scala

export SQOOP_HOME=/usr1/sqoop

export HBASE_HOME=/usr1/hbase

export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/lib:$HADOOP_HOME/lib:$HBASE_HOME/lib

export PATH=$HADOOP_HOME/bin:$HIVE_HOME/bin:$ZOOKEEPER_HOME/bin:$HBASE_HOME/bin:$JAVA_HOME/bin:$JRE_HOME/bin:$SQOOP_HOME/bin:$SCALA_HOME/bin:$PATH

PATH=$PATH:$HOME/bin

export PATH

1.7 验证

[hadoop1@node1 ~]$ scala -version

2.安装spark

2.1 下载安装介质

下载安装介质,下载地址为:

根据情况选择下载的版本,我这里下载的版本是spark-1.0.2-bin-hadoop1.tgz

2.2 解压并安装

使用hadoop登陆

拷贝安装文件到usr1目录

[hadoop1@node1 spark]$ cp spark-1.0.2-bin-hadoop1.tgz /usr1/

解压

[hadoop1@node1 usr1]$ tar -zxvf spark-1.0.2-bin-hadoop1.tgz

目录改名

[hadoop1@node1 usr1]$ mv spark-1.0.2-bin-hadoop1 spark

将hive目录权限赋予hadoop用户

[root@node1 usr1]# chown -R hadoop1:hadoop1 ./spark

2.3 添加环境变量

[hadoop1@node1 ~]$ vi .bash_profile

# .bash_profile

# Get the aliases and functions

if [ -f ~/.bashrc ]; then

. ~/.bashrc

# User specific environment and startup programs

export JAVA_HOME=/usr/java/jdk1.8.0_05

export JRE_HOME=/usr/java/jdk1.8.0_05/jre

export HADOOP_HOME=/usr1/hadoop

HIVE_HOME=/usr1/hive

ZOOKEEPER_HOME=/usr1/zookeeper

export SPARK_HOME=/usr1/spark

export SCALA_HOME=/usr1/scala

export SQOOP_HOME=/usr1/sqoop

export HBASE_HOME=/usr1/hbase

export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/lib:$HADOOP_HOME/lib:$HBASE_HOME/lib

export PATH=$HADOOP_HOME/bin:$HIVE_HOME/bin:$ZOOKEEPER_HOME/bin:$HBASE_HOME/bin:$JAVA_HOME/bin:$JRE_HOME/bin:$SQOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$PATH

PATH=$PATH:$HOME/bin

export PATH

2.4 修改slaves文件

进入conf目录

cd $SPARK_HOME/conf

vi slaves

添加如下数据节点

192.168.56.102

192.168.56.103

192.168.56.104

这里填写数据节点的ip

2.5 配置spark-env.sh

进入到conf目录

cd $SPARK_HOME/conf

从模板复制一份

[hadoop1@node1 conf]$ cp spark-env.sh.template spark-env.sh

编辑spark-env.sh文件

添加如下内容

export JAVA_HOME=/usr/java/jdk1.8.0_05

export HADOOP_HOME=/usr1/hadoop

export SCALA_HOME=/usr1/scala

export SPARK_MASTER_IP=192.168.56.101

192.168.56.101是名称节点的ip

2.6 打包到其他机器

[hadoop1@node1 usr1]$ tar -cvf spark.tar ./spark

传到其他机器

scp spark.tar hadoop1@192.168.56.102:/home/hadoop1

scp spark.tar hadoop1@192.168.56.103:/home/hadoop1

scp spark.tar hadoop1@192.168.56.104:/home/hadoop1

在每个数据节点上解压缩并修改目录属主

[root@node2 usr1]# tar -xvf spark.tar

[root@node2 usr1]# chown -R hadoop1:hadoop1 ./spark

2.7 启动spark

在主节点上执行

[hadoop1@node1 usr1]$ cd $SPARK_HOME/sbin

[hadoop1@node1 sbin]$ ./start-all.sh

2.8 验证

2.8.1 检查进程

[hadoop1@node1 sbin]$ jps

15026 Master

9668 JobTracker

9433 NameNode

9595 SecondaryNameNode

15135 Jps

名称节点上多出了Master

[hadoop1@node2 ~]$ jps
5152 DataNode
5236 TaskTracker
24184 Jps
24125 Worker

数据节点上多了Worker,说明spark已经启动成功.

2.8.2 执行样例程序

cd $SPARK_HOME/bin

[hadoop1@node1 bin]$ ./run-example SparkPi

amp 1417597140066

14/12/03 16:59:00 INFO util.Utils: Fetching to /tmp/fetchFileTemp7599337252435878324.tmp

14/12/03 16:59:01 INFO executor.Executor: Adding file:/tmp/spark-5ce4253d-148a-48fb-a3f4-741778cc4a0b/spark-examples-1.0.2-hadoop1.0.4.jar to class loader

14/12/03 16:59:01 INFO executor.Executor: Serialized size of result for 0 is 675

14/12/03 16:59:01 INFO executor.Executor: Sending result for 0 directly to driver

14/12/03 16:59:01 INFO scheduler.TaskSetManager: Starting task 0.0:1 as TID 1 on executor localhost: localhost (PROCESS_LOCAL)

14/12/03 16:59:01 INFO scheduler.TaskSetManager: Serialized task 0.0:1 as 1411 bytes in 1 ms

14/12/03 16:59:01 INFO scheduler.DAGScheduler: Completed ResultTask(0, 0)

14/12/03 16:59:01 INFO scheduler.TaskSetManager: Finished TID 0 in 701 ms on localhost (progress: 1/2)

14/12/03 16:59:01 INFO executor.Executor: Running task ID 1

14/12/03 16:59:01 INFO executor.Executor: Serialized size of result for 1 is 675

14/12/03 16:59:01 INFO executor.Executor: Sending result for 1 directly to driver

14/12/03 16:59:01 INFO executor.Executor: Finished task ID 1

14/12/03 16:59:01 INFO scheduler.DAGScheduler: Completed ResultTask(0, 1)

14/12/03 16:59:01 INFO scheduler.DAGScheduler: Stage 0 (reduce at SparkPi.scala:35) finished in 0.772 s

14/12/03 16:59:01 INFO scheduler.TaskSetManager: Finished TID 1 in 63 ms on localhost (progress: 2/2)

14/12/03 16:59:01 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool

14/12/03 16:59:01 INFO executor.Executor: Finished task ID 0

14/12/03 16:59:01 INFO spark.SparkContext: Job finished: reduce at SparkPi.scala:35, took 0.99398 s

Pi is roughly 3.14364

2.8.3 计算文件字符个数

[hadoop1@node1 bin]$cd $SPARK_HOME/bin

[hadoop1@node1 bin]$ ./spark-shell

scala> val distFile = sc.textFile("hdfs://192.168.56.101:9000/user/hadoop1/input/file1.txt")

scala> distFile.map(_.size).reduce(_+_)

2.8.4 登陆web界面

IE栏里输入:

-- The End --

阅读(3896) | 评论(0) | 转发(0) |

上一篇：linux下安装sqoop

下一篇：linux下安装postgres(9.4)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6