【Spark学习】Apache Spark项目简介
2014-11-20 09:06
344 查看
引言:本文直接翻译自Spark官方网站首页
Lightning-fast cluster computing
从Spark官方网站给出的标题可以看出:Spark——像闪电一样快的集群计算
[b]Apache Spark™ 是一个应用于大规模数据处理的快速且通用的引擎。[/b]
Logistic regression in Hadoop and Spark
【参考】
1)Spark官方网站 http://spark.apache.org/
Lightning-fast cluster computing
从Spark官方网站给出的标题可以看出:Spark——像闪电一样快的集群计算
[b]Apache Spark™ 是一个应用于大规模数据处理的快速且通用的引擎。[/b]
速度
Spark在内存中运行程序的速度比Hadoop MapReduce要快100多倍,在磁盘上则要快10多倍。它使用先进的DAG执行引擎来支持循环数据流和内存计算。Logistic regression in Hadoop and Spark
易用
用户可以使用Java、Scala或Python语言来快速编写应用程序。Spark提供了80多种高级运算符来帮助用户轻松创建并行应用。而且,用户还可以借助Spark-shell(Scala和Python语言有各自的Spark-shell)来交互地使用Spark。# Word count in Spark's Python API file = spark.textFile("hdfs://...") file.flatMap(lambda line: line.split()) .map(lambda word: (word, 1)) .reduceByKey(lambda a, b: a+b)
通用性
Spark兼备SQL、流处理以及复杂分析等功能。它为多个高级工具提供驱动,包括数据库框架Spark SQL、机器学习框架MLlib、图运算框架GraphX,以及流处理框架Spark Streaming。用户可以在相同的应用程序中无缝兼备这几种框架。兼容
Spark可以运行在Hadoop、Mesos、Standalone 或者 Cloud平台之上。它可以访问各种数据源,包括HDFS、HBase、S3,以及Cassandra。用户可以分别使用Standalone集群模式,EC2,Hadoop YARN或者Apache Mesos平台轻松运行Spark。Spark可以从HDFS、HBase、Cassandra,以及其他任何Hadoop数据源中读取数据。【参考】
1)Spark官方网站 http://spark.apache.org/
相关文章推荐
- 【Hadoop学习】Apache HBase项目简介
- 【Hadoop学习】Apache Hadoop项目简介
- 【HBase学习】Apache HBase项目简介
- 许鹏:从零开始学习,Apache Spark源码走读
- Apache学习笔记(一)Apache简介
- Java Apache 开源项目简介
- apache的开源项目-模板引擎(Velocity)_学习了两天就上手啦_源码下载
- CMS视频学习笔记1:cms项目和使用技术简介
- Hadoop Distributed File System 简介HDFS 是一个 Apache Software Foundation 项目,是 Apache Hadoop 项目的一个子项目(参见
- 【Spark学习】Apache Spark调优
- Apache spark简介
- Apache开源项目简介
- 【Spark学习】Apache Spark安全机制
- 传智播客erp项目学习,了解软件开发流程,使用apache的文件上传组件
- 【Zookeeper学习】Apache Zookeeper项目简介
- 认识 Atom 发布协议,第 3 部分: Apache Abdera 项目简介
- Apache开源项目Log4cxx学习
- Apache 开源的项目列表收集及简介(一)
- Delphi学习笔记一——Delphi的项目文件简介
- Apache Spark学习:将Spark部署到Hadoop 2.2.0上