CentOS 6.2及最新操作系统部署Hadoop存在的问题
2013-09-07 21:20
218 查看
最近新采购的一批机器,由于intel cpu体系架构的改变,新机器的系统需要升级,选择了CentOS 6.2系统。
1 在新机器上将MR业务开启后,导致整个集群都反应很慢,运行的job几乎都被卡住;通过ganglia监控发现,机器的system cpu超过30%,机器几乎是满负载的情况。
原因分析:
RHEL 6.2和6.3系统中包含了一个新特性,被称为“transparent hugepage compaction”,它和Hadoop负载不能很好的交互。相比于其他的操作系统,这导致了严重的性能损失。Red Hat会在未来的更新中解决此问题。
解决方法:把如下命令增加到开机启动中。
?
2 解决上述问题,把MR业务开启一段时间后,经常出现某个task卡死的情况,job会一直hang住,查看TT日志
?
从上面的日志看,是OOM的错误,不能创建新的进程。但查看该TT机器,内存充足,应该不是内存导致的问题。
后来又check了环境的配置,发现在以前RHEL 5.4系统中生效的ulimit的nproc限制,在新系统中并没有生效(可以通过ulimit -u查看)。google后得知,6.2系统中修改了这一配置,新的配置需要在里/etc/security/limits.d/90-nproc.conf设置生效。
?
在处理hadoop前期环境的时候,发现有些机器在没有业务的情况下机器负载很高的情况,这里也记录一下。
1. 通过top命令发现plymouthd进程cpu负载达到近100%
解决方法:打开 /boot/grub/menu.lst , 去掉 “rhgb quiet”这两个参数 ,然后重启
2.power_saving死锁引起的高负载
解决方法:
方法1:rmmod acpi_pad,重启机器,机器将不支持电源节能;
方法2:在BIOS中开启ACPI支持,重启,更新内核至2.6.32-358.2.1.el6.x86_64;
方法3:在BIOS里设置禁用;
方法4:要将驱动程序列入黑名单,编辑 /etc/modprobe.d/blacklist.conf,然后添加blacklist acpi_pad。
开始使用方法1,解决了大多数机器power_saving死锁的问题,有些机器的整体负载还是会保持在10%以上,查看后发现还有部分power_saving进程,采用方法4,问题得以解决。
参考资料: http://serverfault.com/questions/356962/where-are-the-default-ulimit-values-set-linux-centos http://www.cnblogs.com/jishilei/archive/2013/03/29/2988222.html https://www.linuxwind.org/html/power_saving-thread-deadlock.html http://en.community.dell.com/support-forums/servers/f/1466/p/19456558/20387384.aspx
原文地址:http://in.sdo.com/?p=586
1 在新机器上将MR业务开启后,导致整个集群都反应很慢,运行的job几乎都被卡住;通过ganglia监控发现,机器的system cpu超过30%,机器几乎是满负载的情况。
原因分析:
RHEL 6.2和6.3系统中包含了一个新特性,被称为“transparent hugepage compaction”,它和Hadoop负载不能很好的交互。相比于其他的操作系统,这导致了严重的性能损失。Red Hat会在未来的更新中解决此问题。
解决方法:把如下命令增加到开机启动中。
?
?
后来又check了环境的配置,发现在以前RHEL 5.4系统中生效的ulimit的nproc限制,在新系统中并没有生效(可以通过ulimit -u查看)。google后得知,6.2系统中修改了这一配置,新的配置需要在里/etc/security/limits.d/90-nproc.conf设置生效。
?
在处理hadoop前期环境的时候,发现有些机器在没有业务的情况下机器负载很高的情况,这里也记录一下。
1. 通过top命令发现plymouthd进程cpu负载达到近100%
解决方法:打开 /boot/grub/menu.lst , 去掉 “rhgb quiet”这两个参数 ,然后重启
2.power_saving死锁引起的高负载
解决方法:
方法1:rmmod acpi_pad,重启机器,机器将不支持电源节能;
方法2:在BIOS中开启ACPI支持,重启,更新内核至2.6.32-358.2.1.el6.x86_64;
方法3:在BIOS里设置禁用;
方法4:要将驱动程序列入黑名单,编辑 /etc/modprobe.d/blacklist.conf,然后添加blacklist acpi_pad。
开始使用方法1,解决了大多数机器power_saving死锁的问题,有些机器的整体负载还是会保持在10%以上,查看后发现还有部分power_saving进程,采用方法4,问题得以解决。
参考资料: http://serverfault.com/questions/356962/where-are-the-default-ulimit-values-set-linux-centos http://www.cnblogs.com/jishilei/archive/2013/03/29/2988222.html https://www.linuxwind.org/html/power_saving-thread-deadlock.html http://en.community.dell.com/support-forums/servers/f/1466/p/19456558/20387384.aspx
原文地址:http://in.sdo.com/?p=586
相关文章推荐
- centos6.2-64位快速部署hadoop-1.0.4.tar.gz 和 jdk-7u17-linux-x64.tar.gz
- CentOS 6.2部署Hadoop的注意事项<转>
- 在win7的idea访问centos部署的hadoop2.7.1问题集锦
- 在Linux(CentOS6.2)服务器上配置hadoop时遇到的一些问题以及一些解决办法
- hadoop在linux操作系统中部署遇到的问题及解决方案
- 1:初学hadoop遇到各种错误,这里贴一下,方便以后脑补吧,报错如下: 主要是在window环境下面搞hadoop,而hadoop部署在linux操作系统上面;出现这个错误是权限的问题,操作had
- centos7.2部署最新ELK 5.3
- hadoop部署常见问题
- hadoop1存在的问题及hadoop2的优势对比
- 实战CentOS系统部署Hadoop集群服务
- 宇宙沸腾SCCM 2012 R2系列(12)OSD操作系统部署(四)- 常见问题,WDS ERROR 1067
- CentOs7 Hadoop-2.6.0 部署Hbase-1.0.0
- [原创] Centos 安装部署 Hadoop 集群和 hive
- Hadoop多文件(目录)输出 以及MultipleInputs存在的问题
- 最新版CentOS6.5上安装部署ASP.NET MVC4和WebApi
- CentOS6.2上安装Hadoop-2.0.0-alpha(独立版)和jdk7u4
- CentOS搭建Hadoop分布式集群详细步骤和常见问题解决
- centos 6.2升级6.5遇到的问题及解决方法
- Hadoop生态圈-CentOs7.5单机部署ClickHouse
- JFreeChart在CentOS6.2中的中文乱码问题