一次公司zabbix大面积报警处理心得
2017-11-07 11:25
423 查看
刚到公司一周,作为一个运维小白还在正在熟悉公司的系统环境。
马上双十一来临,公司DBA发现监控主备数据库复制有问题,为防止双十一当天监控会突然炸掉,所以在今天下午三点钟左右对数据库进行重启操作。之前进行过N多次这样的操作,都顺利完成,因此没有在意会发生什么问题。
重启之后马上问题来了:(PS:这段时间没有对监控组件进行任何其他操作)
因为是重启数据库发生的该问题,首先想到的就是数据库重启之后其中一台数据库飘掉了,但是该问题很快被排除,因为重启的是备库,因此不存在飘掉的可能。
联系DBA 查看哪台数据库有连接,确认现在具体使用的是哪台数据库。同时根据公司建设的zabbix拓扑图查看各节点连接状态。
监控位执行重启zabbix_agentd操作,然而并没有什么用。
确认配置文件(zabbix_server.conf zabbix_agentd.conf配置文件主机名问题,IP问题),最终确认配置完全OK
此时想到是否因为重启数据库服务器后防火墙被重新打开
[root@localhost python]# service iptables status
iptables:未运行防火墙。
排除防火墙问题
此时已经过去一个多小时,仍然没有找到问题原因所在。
最快的解决方式就只剩下了重新建数据库,二话不说立马开始重新建库,将原来数据库数据重新导入新建的数据库。
重新建库后问题解决警报在慢慢解除,5分钟后3000多条报警慢慢变为800多条报警。
但这个时候新的问题出现了,主从数据库复制有延迟报警出现,查看显示主从复制延迟4分钟。查看服务器时间,发现两台数据库服务器时间不同步,重新同步两台服务器时间后报警解除。
最后总结:第一次大面积报警问题问题原因始终未找到,但是重新建库后报警解除,因此可以判断是数据库问题造成,结合重新建库后原来的报警解除但是出现主从数据库复制延迟,推测报警原因应该是数据库服务器时间不同步
马上双十一来临,公司DBA发现监控主备数据库复制有问题,为防止双十一当天监控会突然炸掉,所以在今天下午三点钟左右对数据库进行重启操作。之前进行过N多次这样的操作,都顺利完成,因此没有在意会发生什么问题。
重启之后马上问题来了:(PS:这段时间没有对监控组件进行任何其他操作)
因为是重启数据库发生的该问题,首先想到的就是数据库重启之后其中一台数据库飘掉了,但是该问题很快被排除,因为重启的是备库,因此不存在飘掉的可能。
联系DBA 查看哪台数据库有连接,确认现在具体使用的是哪台数据库。同时根据公司建设的zabbix拓扑图查看各节点连接状态。
监控位执行重启zabbix_agentd操作,然而并没有什么用。
确认配置文件(zabbix_server.conf zabbix_agentd.conf配置文件主机名问题,IP问题),最终确认配置完全OK
此时想到是否因为重启数据库服务器后防火墙被重新打开
[root@localhost python]# service iptables status
iptables:未运行防火墙。
排除防火墙问题
此时已经过去一个多小时,仍然没有找到问题原因所在。
最快的解决方式就只剩下了重新建数据库,二话不说立马开始重新建库,将原来数据库数据重新导入新建的数据库。
重新建库后问题解决警报在慢慢解除,5分钟后3000多条报警慢慢变为800多条报警。
但这个时候新的问题出现了,主从数据库复制有延迟报警出现,查看显示主从复制延迟4分钟。查看服务器时间,发现两台数据库服务器时间不同步,重新同步两台服务器时间后报警解除。
最后总结:第一次大面积报警问题问题原因始终未找到,但是重新建库后报警解除,因此可以判断是数据库问题造成,结合重新建库后原来的报警解除但是出现主从数据库复制延迟,推测报警原因应该是数据库服务器时间不同步
相关文章推荐
- 记一次zabbix-server服务启动失败处理过程(Zabbix 3.0.9)
- [mysql] 一次sql耗时高引发报警的分析和处理
- 一次线上机器load负载过高报警问题排查及其后续处理
- 一次大面积线上cpu使用率过载报警总结
- MySQL5.7 SLAVE监控zabbix报警 报错Slave_SQL_Running_State: invalidating query cache entries (table)处理
- zabbix常见报警处理方法
- 还在纠结毕业后是去大公司还是小公司工作?我来告诉你至少应该去初创公司工作一次的5大理由
- zabbix 报警sql
- 记一次Zabbix(Server)安装过程
- Mybatis工作机制源码分析—一次select请求处理流程
- 开公司的心得-租房子,得注意!
- 处理HP-UNIX面板灯报警及配置MP
- ZABBIX3.04设置外部邮件报警
- [导入]SQL Server 死锁处理和优化心得
- java心得--GUI事件处理
- zabbix发送报警的几种方法 推荐
- zabbix邮件报警变量表
- zabbix配置外部邮件服务器进行邮件报警
- 一次完整的zabbix监控配置
- zabbix使用sendEmail实现邮件报警