一次事故的经验与教训
2011-03-28 15:26
218 查看
早上刚到公司还没坐稳,客服mm就跑过来告诉我某某平台的应用进不去了,我打开浏览器一看果然上不去了,进入应用提示我502错误。奇怪了我没有收到任何报警啊,打开nagios 所有服务一切正常,ssh登录到服务器上检查了一番,没有发现问题,通过日志发现在同 某某平台api服务器通讯的时候超时,于是马上联系平台运营商的技术,对方说他们早上确实出问题了,现在正在抢修中,原
来问题出在他们那里(其实问题不仅是他们那里)。没过多久平台那边打电话回来说故障已经修复 让我们尝试连接,于是我马上测了一下问题依旧存在并把测试记录返回给平台的技术,他们也很奇怪,那里明明都弄好了怎么还是不行呢?因为我们是通过域名来连接平台服务器的,于是他们给了我一个文件让我wget一下,我wget时提示我无法连接他给我那个域名,他们自己又尝试了一下并告诉我连接一切正常,应该是我们这里的问题。开发最近没有做任何更新啊,怎么突然就不行了呢?我突然想到他们的域名连接不上 会不会是网通的dns服务器挂了,于是马上ping 了一下新浪的域名,结果还真是不通。马上修改 /etc/resolv.conf 把备用的dns地址加了上去,再尝试进入应用,一切恢复正常。
这次故障给了我一个教训,没有自己的DNS服务器用的是别人的DNS却没有做健康状态的检查这种错误是不应该发生的,被我忽略的域名解析会导致很严重的结果。以前并没有给服务器加入 域名解析的监控,于是马上在 nagios里面给每个需要域名访问的服务器加上域名解析的监控,方法很简单,在被监控服务器的 nrpe 配置文件里面加上 command[check_DNS]=.../libexec/check_ping -H api.xman.com -w 3000.0,80% -c 5000.0,100% -p 5 保存退出,
然后在监控服务器的配置文件里加入相关服务器的两个监控项 里面的 check_command 改成 check_command check_nrpe!check_DNS ,然后检查一下 nagios的配置文件正确性 .../bin/nagios -v .../etc/nagios.cfg ,如果没问题的话重启一下就好了。 以后在出现问题的时候一定要做彻底的检查,并针对故障现象进行检查次序的调整不能因为错误的检查顺序耽误了问题的解决。
本文出自 “story的天空” 博客,请务必保留此出处http://storysky.blog.51cto.com/628458/528789
来问题出在他们那里(其实问题不仅是他们那里)。没过多久平台那边打电话回来说故障已经修复 让我们尝试连接,于是我马上测了一下问题依旧存在并把测试记录返回给平台的技术,他们也很奇怪,那里明明都弄好了怎么还是不行呢?因为我们是通过域名来连接平台服务器的,于是他们给了我一个文件让我wget一下,我wget时提示我无法连接他给我那个域名,他们自己又尝试了一下并告诉我连接一切正常,应该是我们这里的问题。开发最近没有做任何更新啊,怎么突然就不行了呢?我突然想到他们的域名连接不上 会不会是网通的dns服务器挂了,于是马上ping 了一下新浪的域名,结果还真是不通。马上修改 /etc/resolv.conf 把备用的dns地址加了上去,再尝试进入应用,一切恢复正常。
这次故障给了我一个教训,没有自己的DNS服务器用的是别人的DNS却没有做健康状态的检查这种错误是不应该发生的,被我忽略的域名解析会导致很严重的结果。以前并没有给服务器加入 域名解析的监控,于是马上在 nagios里面给每个需要域名访问的服务器加上域名解析的监控,方法很简单,在被监控服务器的 nrpe 配置文件里面加上 command[check_DNS]=.../libexec/check_ping -H api.xman.com -w 3000.0,80% -c 5000.0,100% -p 5 保存退出,
然后在监控服务器的配置文件里加入相关服务器的两个监控项 里面的 check_command 改成 check_command check_nrpe!check_DNS ,然后检查一下 nagios的配置文件正确性 .../bin/nagios -v .../etc/nagios.cfg ,如果没问题的话重启一下就好了。 以后在出现问题的时候一定要做彻底的检查,并针对故障现象进行检查次序的调整不能因为错误的检查顺序耽误了问题的解决。
本文出自 “story的天空” 博客,请务必保留此出处http://storysky.blog.51cto.com/628458/528789
相关文章推荐
- 记一次曲折的苹果提交经历及经验教训
- 一次http服务器优化的经验和教训(silverlight游戏 - 金庸群侠传X0.5上线记)
- ubuntu:一次系统事故及其后续处理经验.
- 一次BI系统事故教训
- 一次远程支持事故的教训,与大家分享
- 小公司项目实施--从我的一次经历看经验教训
- 在Windows Embedded CE下进行Native C++开发,一次错误使用多线程的经验教训
- MongoDB经验教训:一次批量删除历史数据引发的悲剧
- 小公司项目实施--从我的一次经历看经验教训
- 一次httpserver优化的经验和教训(silverlight游戏 - 金庸群侠传X0.5上线记)
- 小公司项目实施--从我的一次经历看经验教训
- 一次上线事故经验
- 一次远程支持事故的教训,与大家分享
- 10+年程序员总结的20+条经验教训
- 10+年程序员总结的20+条经验教训
- 经验交流:学习J2EE流程中的经验和教训
- 关于企业云盘实施的经验教训
- 设计推荐系统的10条经验与教训
- android 30个经验教训
- 记一次扯到蛋的教训