Chinaunix首页 | 论坛 | 博客
  • 博客访问: 497962
  • 博文数量: 80
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1916
  • 用 户 组: 普通用户
  • 注册时间: 2013-07-11 22:01
个人简介

从事实时计算多年,熟悉jstorm/spark/flink/kafka/rocketMq, 热衷于开源,希望在这里和前辈们一起学习与分享,得到长足的进步!邮箱:hustfxj@gmail.com 我的githup地址是:https://github.com/hustfxj。欢迎和大家一起交流探讨问题。

文章分类

全部博文(80)

文章存档

2017年(11)

2015年(3)

2014年(33)

2013年(33)

发布时间:2017-06-02 19:25:28

Apache Calcite面向Hadoop新的sql引擎,它提供了标准的SQL语言、多种查询优化和连接各种数据源的能力。除此之外,Calcite还提供了OLAP和流处理的查询引擎。它2013年成为了Apache孵化项目以来,在Hadoop中越来越引人注目,并被众多项目集成。比如Flink/Storm/Drill/Phoenix都依赖它做sql解析和优化。Flink Table API&S.........【阅读全文】

阅读(11195) | 评论(0) | 转发(0)

发布时间:2017-06-01 15:47:03

上图中的三个pattern通过编译生成了NFA,NFA包含了四个状态,其中endstate是在编译的时候自动加上的,来作为终止状态。状态间转换是通过箭头表示的状态迁移边(StateTransition)来实现的,我们注意到state2做状态迁移的时候存在三条边(take,proceed,ingore),为什么有的状态只有一条边?有的状态有两条边?有的状态上有三条.........【阅读全文】

阅读(9668) | 评论(0) | 转发(0)

发布时间:2017-05-27 20:02:08

spark 1.5开始为standalone模式和mesos的粗粒度模式提供了executor的动态管理,具体表现为:如果executor在一段时间内空闲就会移除这个executor。如果有新任务处于等待状态,并且等待时间超过Spark.dynamicAllocation.schedulerBacklogTimeout(默认1s),则会依次启动executor,每次启动1,2,4,8…个executor(如果有的.........【阅读全文】

阅读(1823) | 评论(0) | 转发(0)

发布时间:2017-05-27 20:01:17

第一步,需要配置相关配置项如果要求集群级别都需要history服务的话,这两个配置项请加入spark-defalut.conf文件里头去,如果只是希望个别任务需要history服务的话,那只要任务本身加入两个配置项。第二步,可以在任务一台机器上启动history服务export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDi.........【阅读全文】

阅读(1480) | 评论(0) | 转发(0)

发布时间:2017-05-27 19:59:53

一般Stage在提交过程中,会产生两种Task,ShuffleMapTask和ResultTask。在ShuffleMapTask执行过程中,会产生Shuffle结果的写磁盘操作。然后ResultTask会从上一个ShuffleMapTask写的磁盘里头读取数据。那么这里头涉及到几个问题?答:ShuffleMapTask产生的结果一般写入到本地磁盘,数据存入shuffle {$shuffleId}{.........【阅读全文】

阅读(2484) | 评论(0) | 转发(0)

发布时间:2017-05-27 19:58:20

https://docs.databricks.com/......【阅读全文】

阅读(1015) | 评论(0) | 转发(0)

发布时间:2017-05-27 19:57:20

对于每种输入数据的DStream,都有一个Receiver对象与之相关联,对于每个Receiver对象,又有一个Source与之相对应。每一个Receiver对象代表一个数据接收端实例(即只有一个executor使用一个core来接收数据,并发度为1),如果要提高并发度,可以通过创 建多个Receiver对象来实现,方法如下:其中,streamingContext.uni.........【阅读全文】

阅读(2083) | 评论(0) | 转发(0)

发布时间:2017-05-27 19:45:21

在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),并将作业转化为计算任务(Task),在各个 Executor 进程间协调任务的调度,后者负责在工作节点上执行具体的计算任务,并将结果返回给 Driver,同时为需要持久化的 RDD .........【阅读全文】

阅读(1232) | 评论(0) | 转发(0)

发布时间:2017-05-27 19:42:34

Spark采用基于内存的计算方式,尽管这种方式对数据处理的效率很高,但也会往往引发各种各样的问题,Spark中常见的OOM等等。效率高的特点,注定了Spark对性能的严苛要求,那Spark不同程序的性能会碰到不同的资源瓶颈,比如:CPU,带宽、内存。如果该程序性能遇到了阻碍,但不是内存问题(编码问题),通常来说便需要你处理.........【阅读全文】

阅读(1448) | 评论(0) | 转发(0)

发布时间:2017-05-27 19:39:12

 概要     在流式计算中我们经常需要以时间或者数据量将无界的数据划分成一份份有限的集合,然后以这个集合为维度进行操作。比如我们会计算过去1个小时交易额TOP 10的天猫卖家,这时我会按照交易事件发生的时间将交易事件划分成到某个事件集合当中去,每个集合的大小是1个小时,然后计算每一个集合.........【阅读全文】

阅读(1352) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册