hadoop性能调优
2015-10-09 19:19
197 查看
操作系统调优
增大同时打开文件描述符和网络连接上限操作系统的默认连接数上限为128 (sysctl -a | grep net.core.somaxconn),/etc/sysctl.conf 添加 net.core.somaxconn=32767
linux默认打开文件描述符数量为183731 ,同样在sysctl.conf中添加fs.file-max=800000
执行systcl -a 查看 systcl -p来刷新配置
关闭swap分区
在MR分布式环境中.用户完全可以通过控制每个作业处理的数据量和每个任务运行过程中用到的各个缓冲区大小,避免使用swap分区.
设置合理的预读取缓冲区大小
磁盘IO性能滞后于CPU和内存,设置预读可以较少磁盘寻道和应用程序IO等待时间,使用linux blockdev 设置读取缓冲区大小.
文件系统配置
开启linux的noatime属性.(/etc/fstab)
IO调度器选择
参考 Hadoop Performance Tuning Guide
Hadoop参数调优
磁盘块配置以前博文分析shuffle过程已经提过怎么配置 mapreduce.cluster.local.dir 将tmp文件写到其他本地硬盘,可以提升IO
选择合适的压缩算法
mapreduce.map.output.compress=true mapreduce.map.output.compress.codec=XXCodec
修改ifile预读大小
可以根据项目需求,适当修改预读缓冲区大小mapreduce.ifile.readahead.bytes
应用程序调优
设置Combiner增加输入文件的副本数
相关文章推荐
- Alerta在CentOS6.6安装全过程
- 错误记录--server tomcat v8.0 server at localhost failed to start
- 如果看了此文你还不懂傅里叶变换,那就过来掐死我吧
- ubutun 下编译linux内核并添加为新的启动项
- 解决更新到os x10.11后openssl头文件无法找到的问题
- Linux中查看CPU、内存等硬件信息
- 源码编译Nginx&MySQL&PHP实现LNMP
- Murano之:集成docker
- Linux 编程学习笔记----过程管理和项目发展(在)
- 为hadoop集群安装mapreduce
- Linux中几个进程查看命令总结 ps, top, htop, vmstat
- vertica copy
- 企业级系统架构的理解
- CentOS文件浏览器设置
- 关于waveinopen只采集麦克风的声音解决方案 - VC/MFC
- 网站的高性能架构
- tomcat容器下安装solr4.10
- linux文件处理命令
- linux下tar.gz、tar、bz2、zip等解压缩、压缩命令小结
- linux下解压命令大全