您的位置：首页 > 大数据 > 云计算

速度Spark为什么能够把云计算大数据的速度提高到100倍以上

2016-03-11 20:47 507 查看

1、基于内存计算

**Hadoop**
![Hadoop](https://img-blog.csdn.net/20160311204546046)
shuffle 70%决定了效率    map->reduce 每次计算结果放到磁盘上（容错，容灾）,io网络开销都比较大
**Spark**
![Spark](https://img-blog.csdn.net/20160311204622625)
当然对内存要求比较大

2、DAG 有向无环图

对数据的操作首先记录下来，暂时不执行（transform阶段），具体要结果的时候（reduceByKey）才会执行

3、任务调度机制（ Scheduler）

一个虚拟机可以开多个任务
Spark不同任务间可以共享数据（内存级别）
Hadoop中不同任务共享数据--磁盘

4、容错机制（Lineage）

Hadoop中一个节点出错要重新运行

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航