Spark独到见解--1、什么是Spark?及和MR的区别
2017-11-10 18:55
260 查看
1、什么是Spark?
ApacheSpark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行计算框架,Spark拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark是Scala编写,方便快速编程。
2、 Spark与MapReduce的区别?
都是分布式计算框架,Spark基于内存,MR基于HDFS。Spark处理数据的能力一般是MR的十倍以上,Spark中除了基于内存计算外,还有DAG有向无环图来切分任务的执行先后顺序。
3、Spark运行模式
1)Local
多用于本地测试,如在eclipse,idea中写程序测试等。
2)Standalone
Standalone是Spark自带的一个资源调度框架,它支持完全分布式。
3)Yarn
Hadoop生态圈里面的一个资源调度框架,Spark也是可以基于Yarn来计算的。
4)Mesos
资源调度框架。
要基于Yarn来进行资源调度,必须实现AppalicationMaster接口,Spark实现了这个接口,所以可以基于Yarn。
ApacheSpark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行计算框架,Spark拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark是Scala编写,方便快速编程。
2、 Spark与MapReduce的区别?
都是分布式计算框架,Spark基于内存,MR基于HDFS。Spark处理数据的能力一般是MR的十倍以上,Spark中除了基于内存计算外,还有DAG有向无环图来切分任务的执行先后顺序。
3、Spark运行模式
1)Local
多用于本地测试,如在eclipse,idea中写程序测试等。
2)Standalone
Standalone是Spark自带的一个资源调度框架,它支持完全分布式。
3)Yarn
Hadoop生态圈里面的一个资源调度框架,Spark也是可以基于Yarn来计算的。
4)Mesos
资源调度框架。
要基于Yarn来进行资源调度,必须实现AppalicationMaster接口,Spark实现了这个接口,所以可以基于Yarn。
相关文章推荐
- Spark独到见解--Transformation算子总结
- spark中的map和flattop,persist和cache分别有什么区别?
- Spark 之 RDD、DataFrame和DataSet的区别是什么
- [转]hadoop,spark,storm,pig,hive,mahout等到底有什么区别和联系?
- [转]hadoop,spark,storm,pig,hive,mahout等到底有什么区别和联系?
- Spark独到见解--3控制算子
- Spark独到见解--Action算子总结
- CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别?
- 同时和同步有什么区别?
- ArrayAdapter和BaseAdapter的区别是什么
- ARM有几条memory barrier 的指令?分别有什么区别?
- Use MFC in a Static Library 和 use MFC in a Shared DLL 在运用上有什么区别?
- 集线器,路由器,交换机的作用和区别是什么?如何区分交换机,集线器,路由器?
- struct 和typedef struct什么区别
- Apache与Tomcat有什么关系和区别
- jdk和jre有什么不同?_jdk与jre的区别
- JSP中的include有哪些?有什么区别?
- abstract class和 interface 有什么区别?
- nginx.org与nginx.com有什么区别(Nginx与Nginx Plus)
- AIDL和Service的区别是什么