Apache Spark 之 入门笔记
2017-02-22 15:15
232 查看
Spark 是什么 ## [草稿 - 待整理]
Spark is a java virtual machine(JVM) based distributed data processing engine that scales. And it is fast compare to other data processing frameworkSpark的内核是一套通用的执行引擎。Spark平台基于该引擎的其他功能包括:
Spark Core is the general execution engine for the Spark platform that other functionality is built atop
Mesos文献
高速内存计算能力
- in-memory computing capabilities deliver speed
广泛的用例支持
- general execution model supports wide variety of use cases
易于开发
- ease of development – native APIs in Java, Scala, Python (+ SQL, Clojure, R)
Situation | Trade-off | Tech |
---|---|---|
Cheap Memory | Recompute | RDD |
Cheap Storage | Replicate | DFS |
Cheap Network | Reference | URI |
DFS:Distributed File System
Spark 优势
比Hadoop MapReduce快100倍利用了工作节点的主要内存进行处理
防止了磁盘不必要的I/O运行
在应用程序层串联任务的能力
最小化磁盘书写数量
Spark 效率
使用DAG(Directed Acyclic Graph) 有向无环图Spark 安装
Scala, Python, R –> REPL—————————————————————————–
Spark 集成
- Databricks Cloud
-
- Spark + Hadoop + Hbase + etc.
- Spark + PyData
- Kafka + Spark + Cassandra
- Spark + ElasticSearch
- Spark + Play
- Spark +Mesos
-
相关文章推荐
- Apache Spark 入门简介
- Apache Spark大数据分析入门(一)
- Apache Spark大数据分析入门
- Apache配置入门笔记
- Apache Spark 学习笔记(1)
- spark学习笔记总结-spark入门资料精化
- Apache Spark 入门简介
- 新手福利:Apache Spark 入门攻略
- [cocos2d-x学习笔记][入门基础]Cocos2d-x网络编程01.在Mac平台部署Apache和PHP
- Apache Spark入门攻略
- 新手福利:Apache Spark入门攻略
- Apache Spark入门攻略
- Apache Spark新手入门学习
- Apache Spark源码走读之1 -- Spark论文阅读笔记
- Spark学习笔记:(一)入门 glance
- Apache Spark入门攻略
- spark入门笔记(二)spark的stanalone模式