Chinaunix首页 | 论坛 | 博客
  • 博客访问: 312904
  • 博文数量: 173
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1060
  • 用 户 组: 普通用户
  • 注册时间: 2014-11-09 16:23
文章分类

全部博文(173)

文章存档

2015年(66)

2014年(107)

我的朋友

分类: LINUX

2014-11-19 17:21:16

近日,  宣布开源其正在使用的大数据计算引擎  ,该框架提供了一种新的数据模型来组织数据,并使用诸如MeshJoin 和Cube算法等算法来对组织后的数据进行计算,从而减轻了系统负荷和节省了CPU资源,最终提供给用户一个简单、高效的查询。Cubert比较适合的计 算领域包括统计计算、聚合、时间距离计算、增量计算、图形计算等。

Cubert整个架构可分为三层,第一层是数据流语言层,主要用来实现执行计划,包括  、  以及Cubert Script;中间层是执行计划的分布式引擎层,包括Map-Reduce、Tez和Spark以及各个算法实现;最底层是数据存储层,Cubert根据 数据模型以数据分区的形式组织和存储,且数据分区由HDFS提供的文件系统管理。Cubert 架构如下图所示:

LinkedIn把Cubert作为一个关键组件来处理数据,其中  负责实时消息传递给Hadoop,Hadoop负责数据的存储,Cubert负责处理数据,处理后数据流向  进行实时分析。数据流向图如下所示:

另外,LinkedIn还为Cubert创建了一门新语言Cubert Script,该语言为不同的Job明确定义了Mapper、Reducer和Combiner等操作,其目的是使得开发人员无需做任何形式的自定义编码 就能够轻松地使用Cubert。Cubert还提供了一套丰富的数据处理的操作,包括输入/输出操作(如LOAD、STORE、TEE等)、转换操作(如 FROM、GENERATE、FILTER等)、聚合操作(如GROUP BY、CUBE)、数据移动操作(如SHUFFLE、BLOCKGEN、COMBINE等)、字典操作等。接下来Cubert还将实现Tez 执行引擎、Cubert Script v2、增量计算、用于分析的窗函数等。Cubert遵循  开源协议发布,读者朋友们如果想尝试或者研究Cubert的话,您可以参考Cubert  。

  • 相关文章推荐:
  • 本文来自:
  • 本文链接:
阅读(966) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~