您的位置:首页 > 其它

Spark-1.5/1.6的新特性

2016-05-02 23:02 393 查看
Spark 1.5.x的新特性

1、DataFrame底层执行的性能优化(钨丝计划第一阶段)

  1.1 Spark自己来管理内存,而不再依靠JVM管理内容。这样就可以避免JVM GC的性能开销,并且能够控制OOM的问题。

  1.2 Java对象直接使用内部的二进制格式存储和计算,省去了序列化和反序列化的性能开销,而且更加节省内存开销。

  1.3 完善了Shuffle阶段的UnsafeShuffleManager,增加了不少新功能,优化shuffle性能。

  1.4 默认使用code-gen,使用cache-aware算法,加强了join、aggregation、shuffle、sorting的性能,增强了window function的性能,性能比1.4.x版本提高数倍

2、DataFrame

  2.1 实现了新的聚合函数接口,AggregateFunction2,并且提供了7个新的内置聚合函数。

  2.2 实现了100多个新的expression function,例如unix_timestamp等,增强了对NaN的处理

  2.3 支持连接不同版本的hive metastore

  2.4 支持Parquet 1.7

3、Spark Streaming:更完善的python支持、非实验的Kafka Direct API等等。

Spark 1.6.x的新特性

Spark-1.6是Spark-2.0之前的最后一个版本。主要是三个大方面的改进:性能提升,新的 Dataset API 和数据科学功能的扩展。这是社区开发非常重要的一个里程碑。

1. 性能提升

根据 Apache Spark 官方 2015 年 Spark Survey,有 91% 的用户想要提升 Spark 的性能。

Parquet 性能

自动化内存管理

流状态管理速度提升 10X

2. Dataset API

Spark 团队引入了 DataFrames,新型Dataset API。

3. 新的科学计算功能

机器学习管道持久性

新的算法和功能:

univariate and bivariate statistics

survival analysis

normal equation for least squares

bisecting K-Means clustering

online hypothesis testing

Latent Dirichlet Allocation (LDA) in ML Pipelines

R-like statistics for GLMs

feature interactions in R formula

instance weights for GLMs

univariate and bivariate statistics in DataFrames

LIBSVM data source

non-standard JSON data
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: