Chinaunix首页 | 论坛 | 博客
  • 博客访问: 499461
  • 博文数量: 80
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1916
  • 用 户 组: 普通用户
  • 注册时间: 2013-07-11 22:01
个人简介

从事实时计算多年,熟悉jstorm/spark/flink/kafka/rocketMq, 热衷于开源,希望在这里和前辈们一起学习与分享,得到长足的进步!邮箱:hustfxj@gmail.com 我的githup地址是:https://github.com/hustfxj。欢迎和大家一起交流探讨问题。

文章分类

全部博文(80)

文章存档

2017年(11)

2015年(3)

2014年(33)

2013年(33)

发布时间:2017-05-27 20:02:08

spark 1.5开始为standalone模式和mesos的粗粒度模式提供了executor的动态管理,具体表现为:如果executor在一段时间内空闲就会移除这个executor。如果有新任务处于等待状态,并且等待时间超过Spark.dynamicAllocation.schedulerBacklogTimeout(默认1s),则会依次启动executor,每次启动1,2,4,8…个executor(如果有的.........【阅读全文】

阅读(1831) | 评论(0) | 转发(0)

发布时间:2017-05-27 20:01:17

第一步,需要配置相关配置项如果要求集群级别都需要history服务的话,这两个配置项请加入spark-defalut.conf文件里头去,如果只是希望个别任务需要history服务的话,那只要任务本身加入两个配置项。第二步,可以在任务一台机器上启动history服务export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDi.........【阅读全文】

阅读(1487) | 评论(0) | 转发(0)

发布时间:2017-05-27 19:59:53

一般Stage在提交过程中,会产生两种Task,ShuffleMapTask和ResultTask。在ShuffleMapTask执行过程中,会产生Shuffle结果的写磁盘操作。然后ResultTask会从上一个ShuffleMapTask写的磁盘里头读取数据。那么这里头涉及到几个问题?答:ShuffleMapTask产生的结果一般写入到本地磁盘,数据存入shuffle {$shuffleId}{.........【阅读全文】

阅读(2492) | 评论(0) | 转发(0)

发布时间:2017-05-27 19:58:20

https://docs.databricks.com/......【阅读全文】

阅读(1018) | 评论(0) | 转发(0)

发布时间:2017-05-27 19:57:20

对于每种输入数据的DStream,都有一个Receiver对象与之相关联,对于每个Receiver对象,又有一个Source与之相对应。每一个Receiver对象代表一个数据接收端实例(即只有一个executor使用一个core来接收数据,并发度为1),如果要提高并发度,可以通过创 建多个Receiver对象来实现,方法如下:其中,streamingContext.uni.........【阅读全文】

阅读(2098) | 评论(0) | 转发(0)

发布时间:2017-05-27 19:45:21

在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),并将作业转化为计算任务(Task),在各个 Executor 进程间协调任务的调度,后者负责在工作节点上执行具体的计算任务,并将结果返回给 Driver,同时为需要持久化的 RDD .........【阅读全文】

阅读(1237) | 评论(0) | 转发(0)

发布时间:2017-05-27 19:42:34

Spark采用基于内存的计算方式,尽管这种方式对数据处理的效率很高,但也会往往引发各种各样的问题,Spark中常见的OOM等等。效率高的特点,注定了Spark对性能的严苛要求,那Spark不同程序的性能会碰到不同的资源瓶颈,比如:CPU,带宽、内存。如果该程序性能遇到了阻碍,但不是内存问题(编码问题),通常来说便需要你处理.........【阅读全文】

阅读(1454) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册