轻松搞定TB级数据,开源GraphLab突破人类图计算“极限值”
2015-01-21 11:49
531 查看
轻松搞定TB级数据,开源GraphLab突破人类图计算“极限值”
作者毛梦琪
大数据GraphLabNoSQL图数据库开源
摘要:目前图数据已应用于用户分析、欺诈检测、生命科学等多个领域,图数据巨大的商业价值逐渐被发现,开源项目GraphLab有力推动了图分析技术的发展,SFrame框架的首次亮相吸引来大量目光,未来的应用还会更加广泛。
图数据处理过去一直是数据科学家的专利,随着数据应用得越来越广泛,图数据分析成为数据分析领域必不可少的部分,人们越来越需要易于上手、使用简单的图数据分析工具。GraphLab是个很受大家欢迎的开源项目,GraphLab开发者们不断追求图计算的创新和发展,使其能迎合海量数据处理的要求。SFrame的亮相显得低调而神秘,不过其功能不可小觑,它将GraphLab扩展到了表格,使其可以轻松管理TB级数据。
社交媒体的图数据已经引起了许多公司注意,在生命健康科学、安全、金融服务等很多领域也存在类似的数据集。图数据的特征使其需要特殊工具和技术,这些工具对于一般用户来说太复杂了,在过去使用这些工具一直是数据科学家的专利。幸运的是图数据分析这个领域吸引了很多热心的企业家和开发人员。这些工具已经得到很大的改进,而且变得越来越简单。
我们身边有很多机器学习应用于图数据分析的示例,比如:发现有影响力的用户(PageRank)和社区、欺诈检测和推荐系统(GraphLab用户中比较流行的协同过滤)。一个领域的工具开发出来后常常会被应用到其他领域,除了GraphLab,分布式分析还被应用到Giraph、GraphX、Faunus和Grappa,此外像Neo4j和Yarcdata这样的图数据库也带有一些分析功能。
近日一家新公司的成立大大推动了开源项目GraphLab的发展,该公司由GraphLab的开发者组成,筹集资金为图数据集开发分析工具。GraphLab公司也将继续使用开源GraphLab“突破图计算的极限,努力创新”。
GraphLab的SFrame是一种趣味十足而低调神秘的工具,首次在
Strata Santa Clara被揭开面纱。它基于磁盘,并通过二维表形式将GraphLab扩展到了表格数据。通过添加SFrame,用户可以利用GraphLab中许多处理图或表中数据的算法。更重要的是SFrame增加了GraphLab数据科学工作流的覆盖范围:它允许用户直接使用GraphLab对TB大小的数据集进行数据清洁或者创建新的功能,SFrame性能可以通过增加内核实现线性扩展。
据有关人士透露GraphLab正在努力将它们的引擎与YARN集成到一起,不过SFrame测试版已经可以从HDFS中读取数据,还可以从本地磁盘、HDFS、S3或URL中读取数据,并保存成人类可读的.csv或更有效的本机格式。一旦SFrame被创建并保存到磁盘后,就不需要再重复处理数据了。下面用Python代码演示如何读取一个.csv文件到SFrame,以及创建一个新的数据功能并把它保存在S3磁盘上:
![](http://cms.csdnimg.cn/article/201402/25/530c16309c919.jpg)
来源:GraphLab公司
GraphLab Create是为那些想要开发推荐系统之类数据产品的软件工程师和数据科学家设计的,即使那些对机器学习比较陌生的人也能很快上手,还可以帮助经验丰富的开发者节省大量时间。
通过GraphLab Create可以开发数据产品或者用机器学习和图分析方法进行数据分析,可以连接到你的数据,通过迭代层次模型实现数据转换,并轻松地分析模型和系统性能,还可以在你的机器上运行应用或在AWS中运行实例。
而SFrame就是GraphLab Create的一部分,三月份将发布Python包,以简化可扩展分析产品的创建(例如推荐系统和图型分析系统)。利用GraphLab Create,用户将能够从Python或Ipython内部生成和维护分析管道,并将它们部署在单个服务器上或整个群集(包括本地和云)。
过去GraphLab被认为可扩展、速度快,但是使用困难而且应用范围有限。但过去的几个月里,GraphLab公司已解决两个首要问题,由此开发的工具应该可以大大增加GraphLab对于数据科学家的吸引力。与IPython的集成为PyData社区开启了一个GraphLab快速、可扩展分析模块时代(通过Python的六个线程生成端到端推荐)。SFrame和GraphLab
Create扩展了数据科学工作流,使其包括数据转换(data wrangling)和数据吸收(data ingestion)。
在利用图工具分析之前,需要将数据转化成图。GraphBuilder是英特尔的一个开源项目,它使用Hadoop MapReduce从大型数据集中生成图。另一个选择是GraphX与Spark的结合产物,是由一个叫做Trifacta的新公司开发的多用途数据辨析工具。
由于SFrames类似于Pandas(PyData)和R数据架构,数据科学家可以非常方便快速地使用它们,提高工作效率。要问SFrames为什么能吸引Strata与会者,我觉得是因为它能够扩展到更大的数据集: SFrame允许用户处理大型表格式数据集而不局限于内存大小。
相关链接:
Easily Manipulate Terabyte-Sized Datasets With GraphLab
Improving options for unlocking your graph data(编译/毛梦琪 审校/魏伟)
CSDN推荐:欢迎免费订阅《[b]Hadoop与大数据周刊》获取更多Hadoop技术文献、大数据技术分析、企业实战经验,生态圈发展趋势。[/b]
本文为CSDN原创文章,未经允许不得转载,如需转载请联系market#csdn.net(#换成@)
顶9踩1
推荐阅读相关主题:数据类数据科学家软件工程师数据分析机器学习
最新报道
大数据玩家们对2013年趋势的预测
IDC预测2015年大数据市场规模或达169亿美元
Just Works的力量——Google科学家Jeff Dean斯坦福大学演讲的启示
大数据偏爱整合与开源,IBM ELS支持Hadoop
IBM纳米光子芯片对付大数据 单个通道25Gbps
还可以再输入500个字
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/17e67b5a88507496cb547cd1c2e62234.jpg)
相关文章推荐
- 轻松搞定TB级数据,开源GraphLab突破图计算“极限”
- TurboMail强大的数据迁移功能——两步轻松搞定
- 韩顺平_轻松搞定网页设计(html+css+javascript)_第20讲_js基本数据类型_js运算符1_学习笔记_源代码图解_PPT文档整理
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- 主要介绍OSS上支持开源数据格式_和计算打通的场景
- 主要介绍OSS上支持开源数据格式_和计算打通的场景
- TurboMail强大的数据迁移功能――两步轻松搞定
- 腾讯大数据宣布开源第三代高性能计算平台Angel:支持十亿维度
- 轻松搞定VMware虚拟机的数据恢复
- 开源图计算框架GraphLab介绍
- 时间序列数据的存储和计算 - 开源时序数据库解析(一)
- 十分钟轻松搞定两个不同数据库之间的数据交换
- Cubert:LinkedIn开源的大数据计算引擎
- 2016 CCF大数据与计算智能大赛 开源资料整理
- SQL Server数据汇总五招轻松搞定
- Perl帮MM轻松搞定Excel数据
- 轻松搞定Ajax(分享下自己封装ajax函数,其实Ajax使用很简单,难是难在你得到数据后来怎样去使用这些数据)
- 多备份创始人解析如何搞定TB级数据上云备份保护
- 百度DMLC分布式深度机器学习开源项目(简称“深盟”)上线了如xgboost(速度快效果好的Boosting模型)、CXXNET(极致的C++深度学习库)、Minerva(高效灵活的并行深度学习引擎)以及Parameter Server(一小时训练600T数据)等产品,在语音识别、OCR识别、人脸识别以及计算效率提升上发布了多个成熟产品。