您的位置：首页 > 运维架构 > Apache

【Spark学习】Apache Spark项目简介

2014-11-20 09:06 344 查看

引言：本文直接翻译自Spark官方网站首页

Lightning-fast cluster computing

从Spark官方网站给出的标题可以看出：Spark——像闪电一样快的集群计算

[b]Apache Spark™ 是一个应用于大规模数据处理的快速且通用的引擎。[/b]

速度

Spark在内存中运行程序的速度比Hadoop MapReduce要快100多倍，在磁盘上则要快10多倍。它使用先进的DAG执行引擎来支持循环数据流和内存计算。

Logistic regression in Hadoop and Spark

易用

用户可以使用Java、Scala或Python语言来快速编写应用程序。Spark提供了80多种高级运算符来帮助用户轻松创建并行应用。而且，用户还可以借助Spark-shell（Scala和Python语言有各自的Spark-shell）来交互地使用Spark。

# Word count in Spark's Python API

file = spark.textFile("hdfs://...")

file.flatMap(lambda line: line.split())
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a+b)

通用性

Spark兼备SQL、流处理以及复杂分析等功能。它为多个高级工具提供驱动，包括数据库框架Spark SQL、机器学习框架MLlib、图运算框架GraphX，以及流处理框架Spark Streaming。用户可以在相同的应用程序中无缝兼备这几种框架。

兼容

Spark可以运行在Hadoop、Mesos、Standalone 或者 Cloud平台之上。它可以访问各种数据源，包括HDFS、HBase、S3，以及Cassandra。用户可以分别使用Standalone集群模式，EC2，Hadoop YARN或者Apache Mesos平台轻松运行Spark。Spark可以从HDFS、HBase、Cassandra，以及其他任何Hadoop数据源中读取数据。

【参考】
　　　　1）Spark官方网站 http://spark.apache.org/

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航