Chinaunix首页 | 论坛 | 博客
  • 博客访问: 383252
  • 博文数量: 67
  • 博客积分: 1486
  • 博客等级: 上尉
  • 技术积分: 610
  • 用 户 组: 普通用户
  • 注册时间: 2010-07-22 18:38
个人简介

...

文章分类
文章存档

2024年(1)

2021年(2)

2016年(9)

2015年(34)

2011年(14)

2010年(7)

分类: HADOOP

2015-09-17 16:02:21

Spark配置文件

点击(此处)折叠或打开

  1. export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=1.hadoop.com:2181,2.hadoop.com:2181,3.hadoop.com:2181 -Dspark.deploy.zookeeper.dir=/spark "

  2. export SPARK_DAEMON_MEMORY=512m
编辑 spark-defaults.conf 文件
第一种配置方式 Yarn 模式

点击(此处)折叠或打开

  1. spark.executor.extraJavaOptions     -XX:MaxPermSize=896m
  2. spark.executor.memory         5g
  3. spark.serializer org.apache.spark.serializer.KryoSerializer
  4. spark.cores.max        32
  5. spark.shuffle.manager    SORT
  6. spark.driver.memory    2g
第二种配置方式 standalone方式

点击(此处)折叠或打开

  1. spark.master spark://5.6.7.8:7077
  2. spark.executor.memory 512m
  3. spark.eventLog.enabled true
  4. spark.serializer org.apache.spark.serializer.KryoSerializer

spark 集群安装
saprk 集群安装比较简单,按照以上配置,接着 scp 到其他节点,接着启动集群,不过spark对内存的要求比较高,有条件的,可以找些内存较大的机器,接着就是如何启动了
点击(此处)折叠或打开
  1. $ ./start-all.sh
  2. 或者
  3. $ ./start-master.sh & ./start-slaves.sh

  1. 分别在主机和备机查看spark进程
  2. 主机
  3. $ jps
  4. 6421 Master
  5. 备机
  6. $ jps
  7. 5103 Worker


spark 客户端模式

操作一:saprk-submit:计算不重复字符数

点击(此处)折叠或打开

  1. bin/spark-submit \
  2.     --class org.project.modules.spark.java.WordCount 
  3.     --master=spark://1.hadoop.com:7077 
  4.     ./WordCount.py 
  5.     hdfs://2.hadoop.com:8020/sparktest/ipInfo.txt
WordCount.py 内容

点击(此处)折叠或打开

  1. import sys
  2. from operator import add

  3. from pyspark import SparkContext

  4. if __name__ == "__main__":
  5.     if len(sys.argv) != 2:
  6.         print >> sys.stderr, "Usage: wordcount "
  7.         exit(-1)
  8.     sc = SparkContext(appName="PythonWordCount")
  9.     lines = sc.textFile(sys.argv[1], 1)
  10.     counts = lines.flatMap(lambda x: x.split(' ')) \
  11.                   .map(lambda x: (x, 1)) \
  12.                   .reduceByKey(add)
  13.     output = counts.collect()
  14.     for (word, count) in output:
  15.         print "%s: %i" % (word, count)
操作二 :beeline 模式
这个首先在启动spark其群的JDBC-server,然后通过 spark/bin 目录下的命令行工具 beeline 去连接
这个参见我的博客: 《使用spark-sql 的JDBC server

待续。。。。。


阅读(1773) | 评论(0) | 转发(0) |
0

上一篇:Zookeeper集群安装

下一篇:expect使用总结

给主人留下些什么吧!~~