Cubert：LinkedIn开源的大数据计算引擎-dxm2025-ChinaUnix博客

dxm2025的ChinaUnix博客

首页　| 　博文目录　| 　关于我

dxm2025

博客访问： 328385
博文数量： 173
博客积分： 0
博客等级：民兵
技术积分： 1060
用户组：普通用户
注册时间： 2014-11-09 16:23

文章分类

全部博文（173）

未分配的博文（173）

文章存档

2015年（66）

2014年（107）

我的朋友

相关博文

Cubert：LinkedIn开源的大数据计算引擎

分类： LINUX

2014-11-19 17:21:16

近日，宣布开源其正在使用的大数据计算引擎，该框架提供了一种新的数据模型来组织数据，并使用诸如MeshJoin 和Cube算法等算法来对组织后的数据进行计算，从而减轻了系统负荷和节省了CPU资源，最终提供给用户一个简单、高效的查询。Cubert比较适合的计算领域包括统计计算、聚合、时间距离计算、增量计算、图形计算等。

Cubert整个架构可分为三层，第一层是数据流语言层，主要用来实现执行计划，包括、以及Cubert Script；中间层是执行计划的分布式引擎层，包括Map-Reduce、Tez和Spark以及各个算法实现；最底层是数据存储层，Cubert根据数据模型以数据分区的形式组织和存储，且数据分区由HDFS提供的文件系统管理。Cubert 架构如下图所示：

LinkedIn把Cubert作为一个关键组件来处理数据，其中负责实时消息传递给Hadoop，Hadoop负责数据的存储，Cubert负责处理数据，处理后数据流向进行实时分析。数据流向图如下所示：

另外，LinkedIn还为Cubert创建了一门新语言Cubert Script，该语言为不同的Job明确定义了Mapper、Reducer和Combiner等操作，其目的是使得开发人员无需做任何形式的自定义编码就能够轻松地使用Cubert。Cubert还提供了一套丰富的数据处理的操作，包括输入/输出操作（如LOAD、STORE、TEE等）、转换操作（如 FROM、GENERATE、FILTER等）、聚合操作（如GROUP BY、CUBE）、数据移动操作（如SHUFFLE、BLOCKGEN、COMBINE等）、字典操作等。接下来Cubert还将实现Tez 执行引擎、Cubert Script v2、增量计算、用于分析的窗函数等。Cubert遵循开源协议发布，读者朋友们如果想尝试或者研究Cubert的话，您可以参考Cubert 。

相关文章推荐：
本文来自：
本文链接：

阅读(1014) | 评论(0) | 转发(0) |

上一篇：Grml 2014.11 发布，Linux 发行版

下一篇：Linux下查看网卡驱动和版本信息

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6