hadoop - jobTracker自动停止问题
2014-09-16 17:41
169 查看
这个问题貌似很少看到直接的解决方法啊,是大家都没遇到还是直接忽略了?该异常确实不影响整个hadoop系统任务的执行,但是对于我这个强迫症患者,天天看着任务报错还是很不爽的。
找了很久,终于找到问题的本质和解决办法。
以下为原博客内容,感谢(作者):
-------------------------------------------------------------------------------
集群出现大面积任务失败,表现为mapreduce刚启动不久,就抛出异常,查看log可以看到,
Status : FAILED
java.lang.Throwable: Child Error
at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:271)
Caused by: java.io.IOException: Task process exit with nonzero status of 1.
at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:258)
找了资料很长时间,经过了怀疑时钟同步有问题,ulimit设置不正确,终于在台湾,老外网站一个不经意的地方提到可能是写入有问题,或者磁盘不足。
They say 'it's an OS limit on the number of sub-directories that can be related in another directory.'
查了磁盘空间,还有足够的空间可以写数据。
突然想到是否是日志目录告警,因为每一个都会在log目录下建一个子目录的,而log目录所在磁盘格式是ext3,而linux的ext3文件格式是有子目录上限的,为32000,除掉. ..,子目录最多只能有31998.
查看/app/hadoop/logs/userlogs下子目录,果然达到了上限31998.
一天的子任务log能达到上限,看来是错误连续出错,导致子目录来不及删除引起。写了个脚本,删除各节点机器的部分userlogs下的子目录log后,问题解决。
总结:除了每天删除外,还要监控log子目录是否会达到上限。
找了很久,终于找到问题的本质和解决办法。
以下为原博客内容,感谢(作者):
-------------------------------------------------------------------------------
集群出现大面积任务失败,表现为mapreduce刚启动不久,就抛出异常,查看log可以看到,
Status : FAILED
java.lang.Throwable: Child Error
at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:271)
Caused by: java.io.IOException: Task process exit with nonzero status of 1.
at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:258)
找了资料很长时间,经过了怀疑时钟同步有问题,ulimit设置不正确,终于在台湾,老外网站一个不经意的地方提到可能是写入有问题,或者磁盘不足。
They say 'it's an OS limit on the number of sub-directories that can be related in another directory.'
查了磁盘空间,还有足够的空间可以写数据。
突然想到是否是日志目录告警,因为每一个都会在log目录下建一个子目录的,而log目录所在磁盘格式是ext3,而linux的ext3文件格式是有子目录上限的,为32000,除掉. ..,子目录最多只能有31998.
查看/app/hadoop/logs/userlogs下子目录,果然达到了上限31998.
一天的子任务log能达到上限,看来是错误连续出错,导致子目录来不及删除引起。写了个脚本,删除各节点机器的部分userlogs下的子目录log后,问题解决。
总结:除了每天删除外,还要监控log子目录是否会达到上限。
相关文章推荐
- Hadoop中Datanode节点启动后自动停止问题
- home/hadoop/tmp/mapred/system/jobtracker.info could only be replicated to 0 nodes, instead of 1问题解决
- hadoop运维之jobtracker无故停止服务
- hadoop 0.20 jobtracker leasechecker 线程溢出问题分析与解决
- hadoop运维之jobtracker无故停止服务
- Hadoop启动后Jobtracker一直是initializing状态的问题解决
- Oracle计划任务JOB不自动执行的问题
- 解决Oracle11g_TNSListener自动停止问题
- 解决hadoop集群中datanode启动后自动关闭的问题
- 关于IE8.0影响VS调试自动停止问题的解决
- [Hadoop] 50030/jobtracker.jsp监控不到eclipse提交的作业
- Symantec AntiVirus10.1服务自动停止问题解决
- java.io.IOException: File /home/hadoop/mapred/system/jobtracker.info could only be replicated to 0 n
- eclipse中tomcat自动部署时自动停止问题processWorkerExit(w, completedAbruptly)
- Hadoop源码之JobTracker
- 关于.net计时器自动停止的问题
- 如何停止正在运行的job(解决job不能删除或修改的问题)
- hadoop jobtracker结构分析(0.20)
- hadoop搭建异常 /tmp/hadoop-root/mapred/system/jobtracker.info could only be replicated to 0 nodes, inste
- 关于在ie8beta2下用vs2005运行调试,自动停止的问题