spark 资源动态分配_hustfxj-ChinaUnix博客

博客访问： 503409
博文数量： 80
博客积分： 0
博客等级：民兵
技术积分： 1916
用户组：普通用户
注册时间： 2013-07-11 22:01

个人简介

从事实时计算多年，熟悉jstorm/spark/flink/kafka/rocketMq, 热衷于开源，希望在这里和前辈们一起学习与分享，得到长足的进步！邮箱：hustfxj@gmail.com 我的githup地址是：https://github.com/hustfxj。欢迎和大家一起交流探讨问题。

文章分类

全部博文（80）

Heron（1）
flink（2）
spark（7）
java（1）
Metrics（1）
java框架（0）
storm（8）
设计模式（1）
常识（1）
编程之美（2）
Apue（6）
windows（2）
源码（0）
effectve C+（1）
面试问题（3）
算法与结构（12）
书籍（1）

工作准备（0）
个人日记（5）
STL（4）
C++（10）
Linux（12）
未分配的博文（0）

文章存档

2017年（11）

2015年（3）

2014年（33）

2013年（33）

我的朋友

最近访客

推荐博文

spark 资源动态分配

发布时间：2017-05-27 20:02:08

spark 1.5开始为standalone模式和mesos的粗粒度模式提供了executor的动态管理，具体表现为：如果executor在一段时间内空闲就会移除这个executor。如果有新任务处于等待状态，并且等待时间超过Spark.dynamicAllocation.schedulerBacklogTimeout(默认1s)，则会依次启动executor,每次启动1,2,4,8…个executor（如果有的.........【阅读全文】

阅读(1892) | 评论(0) | 转发(0)

Spark History Server配置使用

发布时间：2017-05-27 20:01:17

第一步，需要配置相关配置项如果要求集群级别都需要history服务的话，这两个配置项请加入spark-defalut.conf文件里头去，如果只是希望个别任务需要history服务的话，那只要任务本身加入两个配置项。第二步，可以在任务一台机器上启动history服务export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDi.........【阅读全文】

阅读(1551) | 评论(0) | 转发(0)

Shuffle阶段的write 和 read

发布时间：2017-05-27 19:59:53

一般Stage在提交过程中，会产生两种Task，ShuffleMapTask和ResultTask。在ShuffleMapTask执行过程中，会产生Shuffle结果的写磁盘操作。然后ResultTask会从上一个ShuffleMapTask写的磁盘里头读取数据。那么这里头涉及到几个问题？答：ShuffleMapTask产生的结果一般写入到本地磁盘，数据存入shuffle {$shuffleId}{.........【阅读全文】

阅读(2525) | 评论(0) | 转发(0)

spark 开发文档

发布时间：2017-05-27 19:58:20

https://docs.databricks.com/......【阅读全文】

阅读(1036) | 评论(0) | 转发(0)

Spark 参数调优

发布时间：2017-05-27 19:57:20

对于每种输入数据的DStream，都有一个Receiver对象与之相关联，对于每个Receiver对象，又有一个Source与之相对应。每一个Receiver对象代表一个数据接收端实例（即只有一个executor使用一个core来接收数据，并发度为1），如果要提高并发度，可以通过创建多个Receiver对象来实现，方法如下:其中，streamingContext.uni.........【阅读全文】

阅读(2156) | 评论(0) | 转发(0)

Apache Spark 内存管理详解

发布时间：2017-05-27 19:45:21

在执行 Spark 的应用程序时，Spark 集群会启动 Driver 和 Executor 两种 JVM 进程，前者为主控进程，负责创建 Spark 上下文，提交 Spark 作业（Job），并将作业转化为计算任务（Task），在各个 Executor 进程间协调任务的调度，后者负责在工作节点上执行具体的计算任务，并将结果返回给 Driver，同时为需要持久化的 RDD .........【阅读全文】

阅读(1257) | 评论(0) | 转发(0)

2.x Spark 调优（官方文档译文）

发布时间：2017-05-27 19:42:34

Spark采用基于内存的计算方式，尽管这种方式对数据处理的效率很高，但也会往往引发各种各样的问题，Spark中常见的OOM等等。效率高的特点，注定了Spark对性能的严苛要求，那Spark不同程序的性能会碰到不同的资源瓶颈，比如：CPU，带宽、内存。如果该程序性能遇到了阻碍，但不是内存问题（编码问题），通常来说便需要你处理.........【阅读全文】

阅读(1471) | 评论(0) | 转发(0)

给主人留下些什么吧！~~

留言热议

请登录后留言。

登录注册

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6