您的位置：首页 > 运维架构

hbase奇怪问题现场

2014-07-16 11:23 246 查看

前一段时间给hadoop集群加了一个新节点，但是出现了一个非常奇怪的现象，到目前为止，问题还没找到，但是应该可以重现问题；先记录下来，等回头有时间，则重现问题；

我使用的hadoop版本1.0.2 hbase版本0.94 全部是社区的原版；

现场重现
7月10号下午16点：做好新节点配置，启动datanode，正常！启动regionserver正常；

7月11号上午9点：发现该节点regionserver进行挂掉；已经自动退出；datanode进程健在；

查看regionserver日志，发现日志的记录时间是从7月11号01点开始（疑点1：实际上我启动的时间是7月10号下午16点），然后接着往下看日志，没有异常，报错什么的，启动的时候一切正常，再往下看，突然发现日志时间变成7月10号20点多（疑点2：时间变正常了），然后就接着报错，regionserver shutdown（疑点3：为啥会挂掉）；

再看hadoop日志，hadoop的datanode日志写了大概54G的大小；

7月10号下午到11号凌晨，一直在给集群入数据；但是7月11号，看该节点的数据，没有写到这个节点上任何数据；

疑点1，2的解答：该节点配置的自动对时是凌晨4点多，根据日志的情况，当时的情况应该是这样的，服务器的实际时间是7月11号1点多，服务正常启动，然后服务器到7月11号4点后，发现时间不对，校准后变成7月10号20点多；这个时间间隔和我启动服务和服务进程shutdown的时间间隔基本一直；所以说日志的时间变化，疑点1，2得到解释；这个时间的变化，有硬件时钟和系统时钟的关系，可以度娘。应该找clock和date

疑点3的解答：应该是时间变化，zookeeper发现后，认为时间不对，认为regionserver有问题，然后退出；我这个节点不是leader也不是follower；

最终的疑点：

为啥时间不对，hbase可以启动起来；看hbase的源码，有个slave和master的时间检查，默认30S，不知道跨天的情况如何；待有环境重现；

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： hbase hadoop集群 zookeeper 异常

相关文章推荐

新的分享

章节导航