您的位置:首页 > 其它

spark产生背景及特点

2018-03-02 17:44 411 查看
spark的产生背景以其特点

1、产生背景:
MapReduce编程的不便性:
1)繁杂:开发一个作业,既要写Map,又要写Reduce和驱动类。当需求变动要改变大量的代码
2)效率低:MapReduce基于进程,进程的启动和销毁要花费时间。
I/O频繁:网络I/O和磁盘I/O频繁
每个任务都必须排序,但其实有些任务排序是不必要的
3)不适合作迭代处理
4)不适合作实时处理

#spark基于线程,线程直接从线程池中获取即可。
#MapReduce也可以基于内存,但有一定限度。

2、spark概述及特点

Apache Spark is a fast and general engine for large-scale data processing。
Apache Spark 是一个快速的处理大规模数据的通用工具。它是一个基于内存计算框架。

特点:
快速:Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk。
易用:Write applications quickly in Java, Scala, Python, R。Spark offers over 80 high-level operators 
that make it easy to build parallel apps. And you can use it interactively from the Scala, Python and R shells
运行范围广:Spark runs on Hadoop, Mesos, Kubernetes, standalone, or in the cloud. It can access diverse data                 sources including HDFS, Cassandra, HBase, and S3.
通用:Combine SQL, streaming, and complex analytics。
分别用hadoop和spark实现机器学习的框架



#问题1:spark在什么场景比不上MapReduce? http://developer.51cto.com/art/201602/505847.htm http://blog.csdn.net/sunspeedzy/article/details/69062802
#问题2:spark sql和sql的区别?

#spark-1.6.0
1:主版本,主版本的更改往往意味着API的改变
6:次版本,次版本的更改往往意味着新特性的添加,有时也伴随着API的更改
0:末版本,末版本的更改网往往伴随着新特性的添加
注意:我们选择版本往往不建议选择末版本为0的版本,这个版本由于没有对新添加的特性进行bug的修复,会有很多的bug

#spark开发语言变迁(15年to16年)
SQL:36%to44%
java:31%to29%
python:58%to62%
scala:71%to65%
R:18%to20%

#spark源码:github.com/apache/spark/
源码中有很多的例子,这些例子在工作中可以直接用哦
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  spark