bigdata_hadoop_namenode手动重启错误解决分析
2016-11-17 11:32
579 查看
现象: 集群大面积异常,通过ambari启动不起来。逐一排查,顺序 hdfs -> mapreduce->yarn->hive -other
hdfs下发现namenode ,datanode启动不起来
namenode报错如下 【namenode.NameNode: Failed to start namenode. java.io.IOException: Gap in tra】
解决方案:
step1: /usr/hdp/current/hadoop-hdfs-namenode/bin/hdfs namenode 让错误报出来
step2: namenode 格式化 : /usr/hdp/current/hadoop-hdfs-namenode/bin/hdfs namenode -format
step3 :比对 clusterId : master namenode下的 current/version 和 datanode下的 current/version (多台机器) ,手动修改 datanode下的
clusterId: eg:[CID-e341356d-7657-48eb-b22e-3ab1f6771cd1]
/mnt/hadoop/hdfs/namenode/current/VERSION
/mnt/hadoop/hdfs/data/current/VERSION
step4: ambari上手动重启 namenode ,datanode
----------------分割线---------
常用命令,和手动重启
【设置任务类型:】
set hive.execution.engine=tez;
【Hive debug模式】
hive --hiveconf hive.root.logger=DEBUG,console
【yarn上杀死任务】
yarn application -kill application_1478856791630_0002
【resourcemanager手动启停】
/usr/hdp/current/hadoop-yarn-resourcemanager/sbin/yarn-daemon.sh stop resourcemanager
/usr/hdp/current/hadoop-yarn-resourcemanager/sbin/yarn-daemon.sh start resourcemanager
【nodemanager手动启停】
/usr/hdp/current/hadoop-yarn-nodemanager/sbin/yarn-daemon.sh stop nodemanager
/usr/hdp/current/hadoop-yarn-nodemanager/sbin/yarn-daemon.sh start nodemanager
【yarn historyserver 重启】
/usr/hdp/current/hadoop-mapreduce-historyserver/sbin/mr-jobhistory-daemon.sh stop historyserver
/usr/hdp/current/hadoop-mapreduce-historyserver/sbin/mr-jobhistory-daemon.sh start historyserver
【yarn ha状态互转】
yarn rmadmin -getServiceState rm1
yarn rmadmin -transitionToStandby rm1 --forcemanual
yarn rmadmin -transitionToActive rm2 --forcemanual
【zookeper手动起停】
/usr/hdp/current/zookeeper-server/bin/zkServer.sh stop
/usr/hdp/current/zookeeper-server/bin/zkServer.sh start
【namenode手动启停】
/usr/hdp/current/hadoop-hdfs-namenode/bin/hdfs namenode
【datanode 手动启停】
/usr/hdp/current/hadoop-hdfs-datanode/bin/hdfs datanode
hdfs下发现namenode ,datanode启动不起来
namenode报错如下 【namenode.NameNode: Failed to start namenode. java.io.IOException: Gap in tra】
解决方案:
step1: /usr/hdp/current/hadoop-hdfs-namenode/bin/hdfs namenode 让错误报出来
step2: namenode 格式化 : /usr/hdp/current/hadoop-hdfs-namenode/bin/hdfs namenode -format
step3 :比对 clusterId : master namenode下的 current/version 和 datanode下的 current/version (多台机器) ,手动修改 datanode下的
clusterId: eg:[CID-e341356d-7657-48eb-b22e-3ab1f6771cd1]
/mnt/hadoop/hdfs/namenode/current/VERSION
/mnt/hadoop/hdfs/data/current/VERSION
step4: ambari上手动重启 namenode ,datanode
----------------分割线---------
常用命令,和手动重启
【设置任务类型:】
set hive.execution.engine=tez;
【Hive debug模式】
hive --hiveconf hive.root.logger=DEBUG,console
【yarn上杀死任务】
yarn application -kill application_1478856791630_0002
【resourcemanager手动启停】
/usr/hdp/current/hadoop-yarn-resourcemanager/sbin/yarn-daemon.sh stop resourcemanager
/usr/hdp/current/hadoop-yarn-resourcemanager/sbin/yarn-daemon.sh start resourcemanager
【nodemanager手动启停】
/usr/hdp/current/hadoop-yarn-nodemanager/sbin/yarn-daemon.sh stop nodemanager
/usr/hdp/current/hadoop-yarn-nodemanager/sbin/yarn-daemon.sh start nodemanager
【yarn historyserver 重启】
/usr/hdp/current/hadoop-mapreduce-historyserver/sbin/mr-jobhistory-daemon.sh stop historyserver
/usr/hdp/current/hadoop-mapreduce-historyserver/sbin/mr-jobhistory-daemon.sh start historyserver
【yarn ha状态互转】
yarn rmadmin -getServiceState rm1
yarn rmadmin -transitionToStandby rm1 --forcemanual
yarn rmadmin -transitionToActive rm2 --forcemanual
【zookeper手动起停】
/usr/hdp/current/zookeeper-server/bin/zkServer.sh stop
/usr/hdp/current/zookeeper-server/bin/zkServer.sh start
【namenode手动启停】
/usr/hdp/current/hadoop-hdfs-namenode/bin/hdfs namenode
【datanode 手动启停】
/usr/hdp/current/hadoop-hdfs-datanode/bin/hdfs datanode
相关文章推荐
- hadoop 2.x之HDFS HA讲解之八HDFS HA测试启动NameNode遇见错误分析解决
- Hadoop运行错误及解决方法--namenode不启动(能力工场--小马哥整理)
- hadoop启动没有namenode节点的错误分析
- Hadoop datanode Datanode denied communication with namenode错误及解决
- 重启hadoop的namenode报错解决方法
- 重启Ubuntu后Hadoop的namenode起不来的解决办法
- Hadoop 格式化namenode错误:FATAL namenode.NameNode: Exception innamenode join 解决办法
- Hadoop运行错误及解决方法--namenode不启动(能力工场--小马哥整理)
- hadoop secondary namenode 部署出错所产生的错误及解决方法
- 电脑自动重启故障的分析解决(二)
- ORACLE常见错误代码的分析与解决(一)
- 九个常见的错误原因分析及解决方法
- ORACLE常见错误代码的分析与解决(三)
- ORACLE常见错误代码的分析与解决(二)
- ORACLE常见错误代码的分析与解决(三)
- 在分析完成之前就遇到流结尾 错误解决办法
- “无法解决 equal to 操作的排序规则冲突。”的错误分析和解决方法
- IIS5 HTTP500内部错误分析及解决办法
- 电脑自动重启故障的分析与解决(三)——硬件方面
- .NET中ora-01036错误分析与解决