大数据Spark “蘑菇云”行动第77课:Spark Streaming性能调优思考和实践方法,发现磁盘空间没有了,怎么办
2016-11-11 20:56
597 查看
大数据Spark “蘑菇云”行动第77课:Spark Streaming性能调优思考和实践方法
Spark使用一段时间后,发现磁盘空间没有了,尤其是运行SparkStreaming
Spark streaming在不断的写日志,日志将磁盘撑满了。无论磁盘空间多大,都会撑破的。有时运行一个晚上,有时运行一个上午,磁盘写满了。
1、配置log最大的保存文件大小!!最多保存多少文件!
2、配置每一个文件的最大的大小!
3、executor roll的间隔时间interval按天、小时、分钟设置
4、按时间长短 或size大小设置rolling大小。spark.executor.logs.rolling.maxSize
http://blog.csdn.net/u011291159/article/details/50344517
下面三个日志rolling参数记得设置:
spark.executor.logs.rolling.strategy size
spark.executor.logs.rolling.maxSize 134217728 #default byte
spark.executor.logs.rolling.maxRetainedFiles
http://geeks.aretotally.in/spark-streaming-kafka-direct-api-store-offsets-in-zk/
超时的时间一律调大!!更大的范围内跑通!!一律调大3到5倍!!
zk的会话超时时间
zookeeper.session.timeout.ms
任务的失败次数
spark.task.maxFailures 默认是4次,调成8次和10次
spark.streaming.kafka.maxRetries 调成 3次和5次
spark streaming 要使用direct api的方式
Spark使用一段时间后,发现磁盘空间没有了,尤其是运行SparkStreaming
Spark streaming在不断的写日志,日志将磁盘撑满了。无论磁盘空间多大,都会撑破的。有时运行一个晚上,有时运行一个上午,磁盘写满了。
1、配置log最大的保存文件大小!!最多保存多少文件!
2、配置每一个文件的最大的大小!
3、executor roll的间隔时间interval按天、小时、分钟设置
4、按时间长短 或size大小设置rolling大小。spark.executor.logs.rolling.maxSize
http://blog.csdn.net/u011291159/article/details/50344517
下面三个日志rolling参数记得设置:
spark.executor.logs.rolling.strategy size
spark.executor.logs.rolling.maxSize 134217728 #default byte
spark.executor.logs.rolling.maxRetainedFiles
http://geeks.aretotally.in/spark-streaming-kafka-direct-api-store-offsets-in-zk/
超时的时间一律调大!!更大的范围内跑通!!一律调大3到5倍!!
zk的会话超时时间
zookeeper.session.timeout.ms
任务的失败次数
spark.task.maxFailures 默认是4次,调成8次和10次
spark.streaming.kafka.maxRetries 调成 3次和5次
spark streaming 要使用direct api的方式
相关文章推荐
- 大数据Spark “蘑菇云”行动第100课:Hive性能调优之企业级Join、MapJoin、GroupBy、Count、数据倾斜彻底解密和最佳实践
- 大数据Spark “蘑菇云”行动第102课:Hive性能调优之底层Hadoop引擎调优剖析和最佳实践
- 大数据Spark “蘑菇云”行动第99课:Hive性能调优之企业级Mapper和Reducer调优深度细节解密 参数配置
- 大数据Spark “蘑菇云”行动第97课:Hive性能调优的本质和源泉彻底解密
- 大数据Spark “蘑菇云”行动第98课:Hive性能调优压缩和分布式缓存
- 大数据Spark “蘑菇云”行动第101课:Hive性能调优之企业级数据倾斜解决方案及对Job数目的优化
- 大数据Spark “蘑菇云”行动第72课: 基于Spark 2.0.1项目实现之二. 实战 各种小bug修复及性能调优 200并行度调整为2个task
- 大数据Spark “蘑菇云”行动补充内容第70课: Spark SQL代码实战和性能调优 4个spark sql调优技巧有用!!!!
- 大数据Spark “蘑菇云”行动第90课:Hive中Join电影店铺系统案例和性能优化、Index和Bucket案例实战
- 大数据IMF传奇行动绝密课程第117课:Spark Streaming性能优化:如何最大程度的确保Spark Cluster和Kafka连接的稳定性
- 大数据Spark “蘑菇云”行动第48课程 Spark 2.0内幕深度解密和学习最佳实践
- 2016年大数据Spark“蘑菇云”行动之spark streaming消费flume采集的kafka数据Directf方式
- 第121课:Spark Streaming性能优化:通过摄像头图像处理案例来说明Spark流处理性能评估新方法及性能调优参数调试
- 第121课: Spark Streaming性能优化:通过摄像头图像处理案例来说明Spark流处理性能评估新方法及性能调优参数测试
- 大数据Spark “蘑菇云”行动第82课:Spark机器学习本质思考及案例初体验
- 大数据IMF传奇行动绝密课程第119课:Spark Streaming性能优化:如何在生产环境下应对流数据峰值巨变
- 大数据Spark “蘑菇云”行动第103课:Hive源码大师之路第一步:Hive源码思考和解析初体验
- 大数据IMF传奇行动绝密课程第115课:超大规模spark性能优化本质思考
- 大数据IMF传奇行动绝密课程第120课:Spark Streaming性能优化:如何在End-to-End生产环境下安全高效地把结果数据存入HBase中
- 大数据Spark “蘑菇云”行动第64课: 页面跳转功能分析与架构 A、B、C页面之间跳转率的计算方法