误删/tmp导致hadoop无法启停, jsp无法查看的解决方法
2013-10-14 09:02
519 查看
问题描述
我的hadoop版本是hadoop-cdh4.2.0,由于误删了/tmp目录(不是hadoop.tmp.dir设定的那个目录),在Namenode,SecondaryNamenode和Datanode上使用jps无法查看到如下结果:
同时,在namenode上, 启停dfs和yarn都无效,显示 no namenode to stop, no datanode to stop 等等。而整个 hadoop集群是正常运转的。
排查原因
jps查看起的进程需要读取/tmp目录下的一些内容。另一方面,在启停hadoop的脚本里,比如
实际使用的是
该脚本描述里写道:
根据 Y ARN_PID_DIR The pid files are stored. /tmp by default. /tmp目录保存的是pid的进程号,集群无法启停,jps无法查看进程都是因为丢失了pid,或者与/tmp下当前的pid进程号对不上,我的解决方法就是查看各节点上的进程然后替换pid文件里的内容,实施后证明是可行的
解决方案
使用netstat查看pid进程号,
namenode查看namenode和resourcemanager,/tmp下文件为hadoop-root-namenode.pid和 yarn-root-resourcemanager.pid
secondarynamenode查看secondarynamenode,/tmp下文件为hadoop-root-secondarynamenode.pid
datanode查看datanode和nodemanager,/tmp下文件为hadoop-root-datanode.pid和yarn-root-nodemanager.pid
(以上root为user名字)
下面是我使用的替换datanode机器上的pid的一个脚本,可以参考使用
所有机器上都更新好pid文件后,就可以去namenode上启停集群了,jsp命令也生效了。
(全文完)
我的hadoop版本是hadoop-cdh4.2.0,由于误删了/tmp目录(不是hadoop.tmp.dir设定的那个目录),在Namenode,SecondaryNamenode和Datanode上使用jps无法查看到如下结果:
[root@desktop1 ~]# jps 5389 NameNode 5980 Jps 5710 ResourceManager 7032 JobHistoryServer [root@desktop2 ~]# jps 3187 Jps 3124 SecondaryNameNode [root@desktop3 ~]# jps 3187 Jps 3124 DataNode 5711 NodeManager
同时,在namenode上, 启停dfs和yarn都无效,显示 no namenode to stop, no datanode to stop 等等。而整个 hadoop集群是正常运转的。
排查原因
jps查看起的进程需要读取/tmp目录下的一些内容。另一方面,在启停hadoop的脚本里,比如
sbin/stop-yarn.sh
实际使用的是
sbin/yarn-deamon.sh
该脚本描述里写道:
# Runs a yarn command as a daemon. # # Environment Variables # # YARN_CONF_DIR Alternate conf dir. Default is ${YARN_HOME}/conf. # YARN_LOG_DIR Where log files are stored. PWD by default. # YARN_MASTER host:path where hadoop code should be rsync'd from # YARN_PID_DIR The pid files are stored. /tmp by default. # YARN_IDENT_STRING A string representing this instance of hadoop. $USER by default # YARN_NICENESS The scheduling priority for daemons. Defaults to 0.
根据 Y ARN_PID_DIR The pid files are stored. /tmp by default. /tmp目录保存的是pid的进程号,集群无法启停,jps无法查看进程都是因为丢失了pid,或者与/tmp下当前的pid进程号对不上,我的解决方法就是查看各节点上的进程然后替换pid文件里的内容,实施后证明是可行的
解决方案
使用netstat查看pid进程号,
ps -ef | grep datanode | grep -v grep
namenode查看namenode和resourcemanager,/tmp下文件为hadoop-root-namenode.pid和 yarn-root-resourcemanager.pid
secondarynamenode查看secondarynamenode,/tmp下文件为hadoop-root-secondarynamenode.pid
datanode查看datanode和nodemanager,/tmp下文件为hadoop-root-datanode.pid和yarn-root-nodemanager.pid
(以上root为user名字)
下面是我使用的替换datanode机器上的pid的一个脚本,可以参考使用
> /tmp/hadoop-root-datanode.pid && echo `ps -ef | grep datanode | grep -v grep | awk '{print $2}'` > /tmp/hadoop-root-datanode.pid > /tmp/yarn-root-nodemanager.pid && echo `ps -ef | grep nodemanager | grep -v grep | awk '{print $2}'` > /tmp/yarn-root-nodemanager.pid
所有机器上都更新好pid文件后,就可以去namenode上启停集群了,jsp命令也生效了。
(全文完)
相关文章推荐
- 误删/tmp导致hadoop无法启停, jps无法查看的解决方法
- 误删系统账户导致SSH服务器无法启动解决方法
- VMware下ubuntu系统一直莫名其妙地连接无线网络导致Hadoop集群无法正常启动的解决方法
- Eclipse 的 jsp 代码里的 Task 无法在 查看到 解决方法
- Win7下误删winsock导致软件与系统之间无法通讯的解决方法
- Oracle修改机器名后导致监听和console无法启动解决方法参考(转的)
- c3p0 连接过多导致tomcat无法启动的解决方法
- 文件系统损坏导致虚拟机无法正常启动的问题及解决方法
- 【hadoop】DataNode,NameNode,JobTracker,TaskTracker用jps查看无法启动解决办法
- mysql 修改密码忘记使用password函数导致后面无法连接,解决方法记录
- Eclipse编写Hadoop程序,无法查看源码,提示Source not found的解决
- Eclipse 无法查看第三方jar包文件源代码解决方法
- 查看服务时提示“一个或多个ActiveX控件无法显示”的解决方法
- Ubuntu设置环境变量错误导致系统无法登录解决方法
- 【Linux网络编程笔记】TCP短连接产生大量TIME_WAIT导致无法对外建立新TCP连接的原因及解决方法—实践篇
- Serv-U占用IIS的80端口造成冲突导致iis无法运行的解决方法(serv_u6-8版本)
- WINDOWS中无法查看显示隐藏文件的解决方法
- 关于linux下jsp传值无法显示的解决方法
- ubuntu 使用sudo apt-get update 出现 被配置多次导致无法升级错误解决方法
- IE8升级新版Flash Player ActiveX14导致的discuz图片附件无法上传 解决方法