您的位置：首页 > 其它

Spark-1.5/1.6的新特性

2016-05-02 23:02 393 查看

Spark 1.5.x的新特性

1、DataFrame底层执行的性能优化（钨丝计划第一阶段）

1.1 Spark自己来管理内存，而不再依靠JVM管理内容。这样就可以避免JVM GC的性能开销，并且能够控制OOM的问题。

1.2 Java对象直接使用内部的二进制格式存储和计算，省去了序列化和反序列化的性能开销，而且更加节省内存开销。

1.3 完善了Shuffle阶段的UnsafeShuffleManager，增加了不少新功能，优化shuffle性能。

1.4 默认使用code-gen，使用cache-aware算法，加强了join、aggregation、shuffle、sorting的性能，增强了window function的性能，性能比1.4.x版本提高数倍

2、DataFrame

2.1 实现了新的聚合函数接口，AggregateFunction2，并且提供了7个新的内置聚合函数。

2.2 实现了100多个新的expression function，例如unix_timestamp等，增强了对NaN的处理

2.3 支持连接不同版本的hive metastore

2.4 支持Parquet 1.7

3、Spark Streaming：更完善的python支持、非实验的Kafka Direct API等等。

Spark 1.6.x的新特性

Spark-1.6是Spark-2.0之前的最后一个版本。主要是三个大方面的改进：性能提升，新的 Dataset API 和数据科学功能的扩展。这是社区开发非常重要的一个里程碑。

1. 性能提升

根据 Apache Spark 官方 2015 年 Spark Survey，有 91% 的用户想要提升 Spark 的性能。

Parquet 性能

自动化内存管理

流状态管理速度提升 10X

2. Dataset API

Spark 团队引入了 DataFrames，新型Dataset API。

3. 新的科学计算功能

机器学习管道持久性

新的算法和功能：

univariate and bivariate statistics

survival analysis

normal equation for least squares

bisecting K-Means clustering

online hypothesis testing

Latent Dirichlet Allocation (LDA) in ML Pipelines

R-like statistics for GLMs

feature interactions in R formula

instance weights for GLMs

univariate and bivariate statistics in DataFrames

LIBSVM data source

non-standard JSON data

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航