您的位置:首页 > 大数据

大数据Spark “蘑菇云”行动第77课:Spark Streaming性能调优思考和实践方法,发现磁盘空间没有了,怎么办

2016-11-11 20:56 597 查看
大数据Spark “蘑菇云”行动第77课:Spark Streaming性能调优思考和实践方法

Spark使用一段时间后,发现磁盘空间没有了,尤其是运行SparkStreaming

Spark streaming在不断的写日志,日志将磁盘撑满了。无论磁盘空间多大,都会撑破的。有时运行一个晚上,有时运行一个上午,磁盘写满了。

1、配置log最大的保存文件大小!!最多保存多少文件!

2、配置每一个文件的最大的大小!

3、executor roll的间隔时间interval按天、小时、分钟设置

4、按时间长短 或size大小设置rolling大小。spark.executor.logs.rolling.maxSize

http://blog.csdn.net/u011291159/article/details/50344517

下面三个日志rolling参数记得设置:

spark.executor.logs.rolling.strategy size

spark.executor.logs.rolling.maxSize 134217728 #default byte

spark.executor.logs.rolling.maxRetainedFiles

 
http://geeks.aretotally.in/spark-streaming-kafka-direct-api-store-offsets-in-zk/
超时的时间一律调大!!更大的范围内跑通!!一律调大3到5倍!!

 

zk的会话超时时间

zookeeper.session.timeout.ms

 

任务的失败次数

spark.task.maxFailures 默认是4次,调成8次和10次
 

 

spark.streaming.kafka.maxRetries  调成 3次和5次
 
 
 
spark streaming 要使用direct api的方式
 
 
 
 







 
 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐