您的位置：首页 > 数据库

Spark SQL概念学习系列之性能调优

2017-06-05 14:48 363 查看

　　不多说，直接上干货！

性能调优

　　Caching Data In Memory

　　Spark SQL可以通过调用sqlContext.cacheTable("tableName") 或者dataFrame.cache()，将表用一种柱状格式（ an inmemory columnar format）缓存至内存中。然后Spark SQL在执行查询任务时，只需扫描必需的列，从而以减少扫描数据量、提高性能。

　　通过缓存数据，Spark SQL还可以自动调节压缩，从而达到最小化内存使用率和降低GC压力的目的。调用sqlContext.uncacheTable("tableName")可将缓存的数据移出内存。

　　可通过两种配置方式开启缓存数据功能：

　　　　使用SQLContext的setConf方法

　　　　执行SQL命令 SET key=value

　　其他调优参数

　　可以通过配置下表中的参数调节Spark SQL的性能。在后续的Spark版本中将逐渐增强自动调优功能，下表中的参数在后续的版本中或许将不再需要配置。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航