Spark作为一套用Scala写成的分布式内存计算系统
2014-04-08 10:54
218 查看
有关集群运算的编程框架和模型例如MapReduce,
Dryad等正在被大量运用于处理不断增长的数据量,这些系统具有容错、平衡负载等优点,使得大部分用户都可以使用这些系统进行大数据的处理。但是几乎所有的现代集群计算系统都是基于非循环式的数据流模型,意味着每一次的计算过程都必然包含着从存储中读取数据然后计算完成之后写入结果的过程,这样的模型使得那些需要重复使用一个特定的数据集的迭代算法无法很高效的运行,RDD和Spark正是为了解决这一类问题而诞生的。
RDD的设计理念是在保留例如MapReduce等数据流模型的框架的优点的同时(自动容错、本地优化分配(locality-aware
scheduling)和可拓展性),使得用户可以明确地将一部分数据集缓存在内存中,以大大加速对这部分数据之后的查询和计算过程。
Dryad等正在被大量运用于处理不断增长的数据量,这些系统具有容错、平衡负载等优点,使得大部分用户都可以使用这些系统进行大数据的处理。但是几乎所有的现代集群计算系统都是基于非循环式的数据流模型,意味着每一次的计算过程都必然包含着从存储中读取数据然后计算完成之后写入结果的过程,这样的模型使得那些需要重复使用一个特定的数据集的迭代算法无法很高效的运行,RDD和Spark正是为了解决这一类问题而诞生的。
RDD的设计理念是在保留例如MapReduce等数据流模型的框架的优点的同时(自动容错、本地优化分配(locality-aware
scheduling)和可拓展性),使得用户可以明确地将一部分数据集缓存在内存中,以大大加速对这部分数据之后的查询和计算过程。
相关文章推荐
- Spark RDD编程(Python和Scala版本)----Spark中的RDD就是一个不可变的分布式对象集合,是一种具有兼容性的基于内存的集群计算抽象方法,Spark则是这个方法的抽象。 Spa
- Spark:一个高效的分布式计算系统
- Spark:一个高效的分布式计算系统
- Tachyon:Spark生态系统中的分布式内存文件系统
- Spark:一个高效的分布式计算系统
- Spark:一个高效的分布式计算系统
- Spark:一个高效的分布式计算系统
- Spark:一个高效的分布式计算系统
- Spark:一个高效的分布式计算系统
- Spark:一个高效的分布式计算系统
- Tachyon:Spark生态系统中的分布式内存文件系统
- 高效分布式计算系统之—Spark与Hadoop
- 一个高效的分布式计算系统:Spark
- Spark:一个高效的分布式计算系统
- Spark:一个高效的分布式计算系统
- Spark:一个高效的分布式计算系统
- Spark:一个高效的分布式计算系统
- 【转】Spark:一个高效的分布式计算系统
- Spark:一个高效的分布式计算系统
- 系统的学习大数据分布式计算spark技术