您的位置:首页 > 运维架构

hbase奇怪问题现场

2014-07-16 11:23 246 查看
前一段时间给hadoop集群加了一个新节点,但是出现了一个非常奇怪的现象,到目前为止,问题还没找到,但是应该可以重现问题;先记录下来,等回头有时间,则重现问题;

我使用的hadoop版本1.0.2  hbase版本0.94  全部是社区的原版;

现场重现
7月10号下午16点:做好新节点配置,启动datanode,正常!启动regionserver正常;

7月11号上午9点:发现该节点regionserver进行挂掉;已经自动退出;datanode进程健在;

查看regionserver日志,发现日志的记录时间是从7月11号01点开始(疑点1:实际上我启动的时间是7月10号下午16点),然后接着往下看日志,没有异常,报错什么的,启动的时候一切正常,再往下看,突然发现日志时间变成7月10号20点多(疑点2:时间变正常了),然后就接着报错,regionserver shutdown(疑点3:为啥会挂掉);

再看hadoop日志,hadoop的datanode日志写了大概54G的大小;

7月10号下午到11号凌晨,一直在给集群入数据;但是7月11号,看该节点的数据,没有写到这个节点上任何数据;

疑点1,2的解答:该节点配置的自动对时是凌晨4点多,根据日志的情况,当时的情况应该是这样的,服务器的实际时间是7月11号1点多,服务正常启动,然后服务器到7月11号4点后,发现时间不对,校准后变成7月10号20点多; 这个时间间隔和我启动服务和服务进程shutdown的时间间隔基本一直;所以说日志的时间变化,疑点1,2得到解释;这个时间的变化,有硬件时钟和系统时钟的关系,可以度娘。应该找clock和date

疑点3的解答:应该是时间变化,zookeeper发现后,认为时间不对,认为regionserver有问题,然后退出;我这个节点不是leader也不是follower;

最终的疑点:

为啥时间不对,hbase可以启动起来;看hbase的源码,有个slave和master的时间检查,默认30S,不知道跨天的情况如何;待有环境重现;
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息