您的位置:首页 > 其它

一次事故的经验与教训

2011-03-28 15:26 218 查看
早上刚到公司还没坐稳,客服mm就跑过来告诉我某某平台的应用进不去了,我打开浏览器一看果然上不去了,进入应用提示我502错误。奇怪了我没有收到任何报警啊,打开nagios 所有服务一切正常,ssh登录到服务器上检查了一番,没有发现问题,通过日志发现在同 某某平台api服务器通讯的时候超时,于是马上联系平台运营商的技术,对方说他们早上确实出问题了,现在正在抢修中,原

来问题出在他们那里(其实问题不仅是他们那里)。没过多久平台那边打电话回来说故障已经修复 让我们尝试连接,于是我马上测了一下问题依旧存在并把测试记录返回给平台的技术,他们也很奇怪,那里明明都弄好了怎么还是不行呢?因为我们是通过域名来连接平台服务器的,于是他们给了我一个文件让我wget一下,我wget时提示我无法连接他给我那个域名,他们自己又尝试了一下并告诉我连接一切正常,应该是我们这里的问题。开发最近没有做任何更新啊,怎么突然就不行了呢?我突然想到他们的域名连接不上 会不会是网通的dns服务器挂了,于是马上ping 了一下新浪的域名,结果还真是不通。马上修改 /etc/resolv.conf 把备用的dns地址加了上去,再尝试进入应用,一切恢复正常。

这次故障给了我一个教训,没有自己的DNS服务器用的是别人的DNS却没有做健康状态的检查这种错误是不应该发生的,被我忽略的域名解析会导致很严重的结果。以前并没有给服务器加入 域名解析的监控,于是马上在 nagios里面给每个需要域名访问的服务器加上域名解析的监控,方法很简单,在被监控服务器的 nrpe 配置文件里面加上 command[check_DNS]=.../libexec/check_ping -H api.xman.com -w 3000.0,80% -c 5000.0,100% -p 5 保存退出,

然后在监控服务器的配置文件里加入相关服务器的两个监控项 里面的 check_command 改成 check_command check_nrpe!check_DNS ,然后检查一下 nagios的配置文件正确性 .../bin/nagios -v .../etc/nagios.cfg ,如果没问题的话重启一下就好了。 以后在出现问题的时候一定要做彻底的检查,并针对故障现象进行检查次序的调整不能因为错误的检查顺序耽误了问题的解决。

本文出自 “story的天空” 博客,请务必保留此出处http://storysky.blog.51cto.com/628458/528789
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: