LinkedIn开源大数据计算引擎 Cubert,并为此创建新的语言
2014-11-16 18:44
399 查看
摘要:Linkedin周二宣布开源其大数据计算引擎Cubert,据悉,这个开源框架将让工程师使用一套专门的算法,在不浪费CPU资源的情况下,更轻松的运行查询,该公司还为此开发出新的语言Cubert Script。
【编者按】Linkedin周二宣布开源其大数据计算引擎Cubert,其名字来源于鲁比克方块(Rubik’s Cube),为了让开发人员更容易使用Cubert,而无需做任何形式的自定义编码,Linkedin为此开发了新的编程语言Cubert Script。
以下为译文:
Linkedin周二宣布开源其大数据计算引擎Cubert,这个框架可以使用一种专门的算法来组织数据,让其在没有超系统负荷和浪费CPU资源的情况下,更轻松的运行查询。
Cubert,其名字来源于鲁比克方块(Rubik’s Cube),据悉,它可以作为一个Java应用程序,从而很容易被工程师接受,它包含一个“类似script用户界面”,因此工程师可以在运行查询时,使用诸如MeshJoin 和 Cube算法在组织数据上节省系统资源。
从 LinkedIn博客我们知道:
现存引擎Apache Pig、Hive 以及Shark提供一个合乎逻辑的声明性语言,然后被翻译成一个实物计划。这个计划执行分布式引擎(Map-Reduce、Tez 或者Spark),在此物理操作者针对数据分区执行。最后,数据分区将由HDFS提供的文件系统抽象管理。
![](http://cms.csdnimg.cn/article/201411/12/5462d4280c962.jpg)
Cubert 架构
Cubert运行在Hadoop之上,新的框架可以抽象所有的存储到数据块,这将除了让操作者能帮助更好的管理数据之外,还能让其更易于运行它的资源节约算法,例如,COMBINE操作者可以合并多个数据块在一起,PIVOT操作者可以创建数据块的子集。
LinkedIn也创建了一门名为Cubert Script的新语言,其目的是使开发人员更容易使用Cubert,而无需做任何形式的自定义编码。
LinkedIn现在使用Cubert作为一个关键组件来处理数据。当Kafka实时消息传递系统从LinkedIn的众多应用程序中获取所有信息并将其发送到Hadoop,Cubert然后处理这些数据,以确保它不占用系统资源并帮助工程师解决“各种各样的统计、分析和图形计算问题。”
被处理后,数据流向LinkedIn的Pinot实时数据分析系统,然后该公司分析其众多数据跟踪特性,如最近谁查看了用户的资料。
![](http://cms.csdnimg.cn/article/201411/12/5462d44494423.jpg)
LinkedIn Data Pipeline
现在Cubert已经和LinkedIn的基础设施连接,公司不再担心Hadoop脚本终结“在集群上占用太多资源”或浪费时间去做他们为此应该做的。
原文链接: LinkedIn open sources
Cubert, a big data computation engine that saves CPU resources (责编/魏伟)
【编者按】Linkedin周二宣布开源其大数据计算引擎Cubert,其名字来源于鲁比克方块(Rubik’s Cube),为了让开发人员更容易使用Cubert,而无需做任何形式的自定义编码,Linkedin为此开发了新的编程语言Cubert Script。
以下为译文:
Linkedin周二宣布开源其大数据计算引擎Cubert,这个框架可以使用一种专门的算法来组织数据,让其在没有超系统负荷和浪费CPU资源的情况下,更轻松的运行查询。
Cubert,其名字来源于鲁比克方块(Rubik’s Cube),据悉,它可以作为一个Java应用程序,从而很容易被工程师接受,它包含一个“类似script用户界面”,因此工程师可以在运行查询时,使用诸如MeshJoin 和 Cube算法在组织数据上节省系统资源。
从 LinkedIn博客我们知道:
现存引擎Apache Pig、Hive 以及Shark提供一个合乎逻辑的声明性语言,然后被翻译成一个实物计划。这个计划执行分布式引擎(Map-Reduce、Tez 或者Spark),在此物理操作者针对数据分区执行。最后,数据分区将由HDFS提供的文件系统抽象管理。
![](http://cms.csdnimg.cn/article/201411/12/5462d4280c962.jpg)
Cubert 架构
Cubert运行在Hadoop之上,新的框架可以抽象所有的存储到数据块,这将除了让操作者能帮助更好的管理数据之外,还能让其更易于运行它的资源节约算法,例如,COMBINE操作者可以合并多个数据块在一起,PIVOT操作者可以创建数据块的子集。
LinkedIn也创建了一门名为Cubert Script的新语言,其目的是使开发人员更容易使用Cubert,而无需做任何形式的自定义编码。
LinkedIn现在使用Cubert作为一个关键组件来处理数据。当Kafka实时消息传递系统从LinkedIn的众多应用程序中获取所有信息并将其发送到Hadoop,Cubert然后处理这些数据,以确保它不占用系统资源并帮助工程师解决“各种各样的统计、分析和图形计算问题。”
被处理后,数据流向LinkedIn的Pinot实时数据分析系统,然后该公司分析其众多数据跟踪特性,如最近谁查看了用户的资料。
![](http://cms.csdnimg.cn/article/201411/12/5462d44494423.jpg)
LinkedIn Data Pipeline
现在Cubert已经和LinkedIn的基础设施连接,公司不再担心Hadoop脚本终结“在集群上占用太多资源”或浪费时间去做他们为此应该做的。
原文链接: LinkedIn open sources
Cubert, a big data computation engine that saves CPU resources (责编/魏伟)
相关文章推荐
- Cubert:LinkedIn开源的大数据计算引擎
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- Impala:新一代开源大数据分析引擎
- Impala:新一代开源大数据分析引擎
- Impala:新一代开源大数据分析引擎
- Java语言介绍(04)开源项目(04)模板引擎(01)Velocity
- 大数据系列之并行计算引擎Spark部署及应用
- 开源分布式实时计算引擎 Iveely Computing 之 本地调试Topology(4)
- 开源分布式实时计算引擎 Iveely Computing 之 WordCount 详解(3)
- 百度DMLC分布式深度机器学习开源项目(简称“深盟”)上线了如xgboost(速度快效果好的Boosting模型)、CXXNET(极致的C++深度学习库)、Minerva(高效灵活的并行深度学习引擎)以及Parameter Server(一小时训练600T数据)等产品,在语音识别、OCR识别、人脸识别以及计算效率提升上发布了多个成熟产品。
- 打开*.HLP时,系统提示"*.hlp是为此Windows版本不支持的语言创建的"的解决方法!
- Impala:新一代开源大数据分析引擎
- 如何通过Tesseract开源OCR引擎创建Android OCR应用
- xlsxtools游戏配置表工具,开源跨平台,支持多语言,Unity3D等游戏引擎使用Excel做游戏配置表的解决方案
- Impala:新一代开源大数据分析引擎
- Impala:新一代开源大数据分析引擎
- 用JAVA语言编写程序:包含两个类,一个类Cricle中包含计算圆周长,面积的方法。在另一个类Compute中给出半径值为10,创建对象,并调用Cricle类中的方法,计算该对象的面积、周长并显示出结
- 开源大数据处理引擎汇总(一)
- 大数据系列之并行计算引擎Spark介绍