Cubert:LinkedIn开源的大数据计算引擎
2014-11-19 17:19
411 查看
近日, Linkedin 宣布开源其正在使用的大数据计算引擎 Cubert ,该框架提供了一种新的数据模型来组织数据,并使用诸如MeshJoin
和Cube算法等算法来对组织后的数据进行计算,从而减轻了系统负荷和节省了CPU资源,最终提供给用户一个简单、高效的查询。Cubert比较适合的计 算领域包括统计计算、聚合、时间距离计算、增量计算、图形计算等。
Cubert整个架构可分为三层,第一层是数据流语言层,主要用来实现执行计划,包括 Apache Pig 、 Apache
Hive 以及Cubert Script;中间层是执行计划的分布式引擎层,包括Map-Reduce、Tez和Spark以及各个算法实现;最底层是数据存储层,Cubert根据 数据模型以数据分区的形式组织和存储,且数据分区由HDFS提供的文件系统管理。Cubert 架构如下图所示:
![](http://www.ahlinux.com/uploadfile/2014/1119/20141119065745859.jpg)
LinkedIn把Cubert作为一个关键组件来处理数据,其中 Kafka 负责实时消息传递给Hadoop,Hadoop负责数据的存储,Cubert负责处理数据,处理后数据流向 Pinot 进行实时分析。数据流向图如下所示:
![](http://www.ahlinux.com/uploadfile/2014/1119/20141119065745739.png)
另外,LinkedIn还为Cubert创建了一门新语言Cubert Script,该语言为不同的Job明确定义了Mapper、Reducer和Combiner等操作,其目的是使得开发人员无需做任何形式的自定义编码 就能够轻松地使用Cubert。Cubert还提供了一套丰富的数据处理的操作,包括输入/输出操作(如LOAD、STORE、TEE等)、转换操作(如 FROM、GENERATE、FILTER等)、聚合操作(如GROUP BY、CUBE)、数据移动操作(如SHUFFLE、BLOCKGEN、COMBINE等)、字典操作等。接下来Cubert还将实现Tez
执行引擎、Cubert Script v2、增量计算、用于分析的窗函数等。Cubert遵循 Apache License Version 2.0 开源协议发布,读者朋友们如果想尝试或者研究Cubert的话,您可以参考Cubert 使用指导和Javadoc 。
相关文章推荐:
OpenAge:【帝国时代2】游戏引擎的开源克隆版
国内开源html5游戏引擎全收录
Google
Cloud Platform 加入支持 Docker 的容器引擎
本文来自:爱好Linux
本文链接:http://www.ahlinux.com/open/9320.html
和Cube算法等算法来对组织后的数据进行计算,从而减轻了系统负荷和节省了CPU资源,最终提供给用户一个简单、高效的查询。Cubert比较适合的计 算领域包括统计计算、聚合、时间距离计算、增量计算、图形计算等。
Cubert整个架构可分为三层,第一层是数据流语言层,主要用来实现执行计划,包括 Apache Pig 、 Apache
Hive 以及Cubert Script;中间层是执行计划的分布式引擎层,包括Map-Reduce、Tez和Spark以及各个算法实现;最底层是数据存储层,Cubert根据 数据模型以数据分区的形式组织和存储,且数据分区由HDFS提供的文件系统管理。Cubert 架构如下图所示:
![](http://www.ahlinux.com/uploadfile/2014/1119/20141119065745859.jpg)
LinkedIn把Cubert作为一个关键组件来处理数据,其中 Kafka 负责实时消息传递给Hadoop,Hadoop负责数据的存储,Cubert负责处理数据,处理后数据流向 Pinot 进行实时分析。数据流向图如下所示:
![](http://www.ahlinux.com/uploadfile/2014/1119/20141119065745739.png)
另外,LinkedIn还为Cubert创建了一门新语言Cubert Script,该语言为不同的Job明确定义了Mapper、Reducer和Combiner等操作,其目的是使得开发人员无需做任何形式的自定义编码 就能够轻松地使用Cubert。Cubert还提供了一套丰富的数据处理的操作,包括输入/输出操作(如LOAD、STORE、TEE等)、转换操作(如 FROM、GENERATE、FILTER等)、聚合操作(如GROUP BY、CUBE)、数据移动操作(如SHUFFLE、BLOCKGEN、COMBINE等)、字典操作等。接下来Cubert还将实现Tez
执行引擎、Cubert Script v2、增量计算、用于分析的窗函数等。Cubert遵循 Apache License Version 2.0 开源协议发布,读者朋友们如果想尝试或者研究Cubert的话,您可以参考Cubert 使用指导和Javadoc 。
相关文章推荐:
OpenAge:【帝国时代2】游戏引擎的开源克隆版
国内开源html5游戏引擎全收录
Cloud Platform 加入支持 Docker 的容器引擎
本文来自:爱好Linux
本文链接:http://www.ahlinux.com/open/9320.html
相关文章推荐
- LinkedIn开源大数据计算引擎 Cubert,并为此创建新的语言
- 开源分布式计算引擎 & 开源搜索引擎 Iveely 0.5.0 为大数据而生
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- 百度DMLC分布式深度机器学习开源项目(简称“深盟”)上线了如xgboost(速度快效果好的Boosting模型)、CXXNET(极致的C++深度学习库)、Minerva(高效灵活的并行深度学习引擎)以及Parameter Server(一小时训练600T数据)等产品,在语音识别、OCR识别、人脸识别以及计算效率提升上发布了多个成熟产品。
- 百度DMLC分布式深度机器学习开源项目(简称“深盟”)上线了如xgboost(速度快效果好的Boosting模型)、CXXNET(极致的C++深度学习库)、Minerva(高效灵活的并行深度学习引擎)以及Parameter Server(一小时训练600T数据)等产品,在语音识别、OCR识别、人脸识别以及计算效率提升上发布了多个成熟产品。
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- 开源大数据查询分析引擎现状
- 开源大数据查询分析引擎现状
- 轻松搞定TB级数据,开源GraphLab突破图计算“极限”
- 天涯社区高性能数据引擎Memlink正式开源
- 开源大数据查询分析引擎
- 开源大数据SQL引擎性能比较
- 天涯开源key-list类型内存数据引擎——Memlink
- LinkedIn实时低延迟数据抓取系统Databus开源
- 学习开源推荐引擎Mahout中的刷新数据的设计
- 开源大数据查询分析引擎现状
- 腾讯大数据之 TDW 计算引擎解析——Shuffle
- 数据挖掘和推荐引擎开源项目列表 (欢迎补充)
- 天涯开源key-list类型内存数据引擎——Memlink
- 数据挖掘|推荐引擎|开源项目列表