您的位置:首页 > 其它

spark学习--基本概念描述

2017-09-20 16:05 204 查看

spark系统概述

什么是spark?


是apache旗下的一款开源项目,通俗的理解就是一个分布式的大数据处理框架,有一个很大优点,一栈式解决方案

spark与hadoop相比有哪些优点?


为什么spark比hadoop快?因为spark基于内存进行计算而hadoop基于磁盘进行计算,hadoop把每次计算的结果存回磁盘并在下次需要使用时重新从磁盘读取这就导致会有大量的IO操作,时间会很慢。

hadoop进行计算是按部就班的进行,但是spark会事先将数据读取进来之后把整个运算过程绘制成一幅有向无环图,具有方向性,可以对路径进行优化。

他可以和已存在的hadoop数据集成

BDAS

spark core ?


spark core是一个分布式大数据处理框架,包含spark的基本功能,他不仅比mapreduce快很多,并且提供量比mapreduce更多的操作函数,它具有核心组件RDD。弹性分布式数据集。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: