您的位置:首页 > 运维架构

hadoop性能调优

2015-10-09 19:19 197 查看

操作系统调优

增大同时打开文件描述符和网络连接上限

操作系统的默认连接数上限为128 (sysctl -a | grep net.core.somaxconn),/etc/sysctl.conf 添加 net.core.somaxconn=32767

linux默认打开文件描述符数量为183731 ,同样在sysctl.conf中添加fs.file-max=800000

执行systcl -a 查看 systcl -p来刷新配置

关闭swap分区

在MR分布式环境中.用户完全可以通过控制每个作业处理的数据量和每个任务运行过程中用到的各个缓冲区大小,避免使用swap分区.

设置合理的预读取缓冲区大小

磁盘IO性能滞后于CPU和内存,设置预读可以较少磁盘寻道和应用程序IO等待时间,使用linux blockdev 设置读取缓冲区大小.

文件系统配置

开启linux的noatime属性.(/etc/fstab)

IO调度器选择

参考 Hadoop Performance Tuning Guide

Hadoop参数调优

磁盘块配置

以前博文分析shuffle过程已经提过怎么配置 mapreduce.cluster.local.dir 将tmp文件写到其他本地硬盘,可以提升IO

选择合适的压缩算法

mapreduce.map.output.compress=true

mapreduce.map.output.compress.codec=XXCodec


修改ifile预读大小

可以根据项目需求,适当修改预读缓冲区大小mapreduce.ifile.readahead.bytes

应用程序调优

设置Combiner

增加输入文件的副本数
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: