您的位置：首页 > 大数据

大数据Spark “蘑菇云”行动第77课：Spark Streaming性能调优思考和实践方法，发现磁盘空间没有了，怎么办

2016-11-11 20:56 597 查看

大数据Spark “蘑菇云”行动第77课：Spark Streaming性能调优思考和实践方法

Spark使用一段时间后，发现磁盘空间没有了，尤其是运行SparkStreaming

Spark streaming在不断的写日志，日志将磁盘撑满了。无论磁盘空间多大，都会撑破的。有时运行一个晚上，有时运行一个上午，磁盘写满了。

1、配置log最大的保存文件大小！！最多保存多少文件！

2、配置每一个文件的最大的大小！

3、executor roll的间隔时间interval按天、小时、分钟设置

4、按时间长短或size大小设置rolling大小。spark.executor.logs.rolling.maxSize

http://blog.csdn.net/u011291159/article/details/50344517

下面三个日志rolling参数记得设置：

spark.executor.logs.rolling.strategy size

spark.executor.logs.rolling.maxSize 134217728 #default byte

spark.executor.logs.rolling.maxRetainedFiles

http://geeks.aretotally.in/spark-streaming-kafka-direct-api-store-offsets-in-zk/
超时的时间一律调大！！更大的范围内跑通！！一律调大3到5倍！！

zk的会话超时时间

zookeeper.session.timeout.ms

任务的失败次数

spark.task.maxFailures 默认是4次，调成8次和10次

spark.streaming.kafka.maxRetries 调成 3次和5次

spark streaming 要使用direct api的方式

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航