监控系统Nagios系列(四) 状态类型(soft & hard)
2017-05-20 11:50
232 查看
在监控系统Nagios系列(二)
架构中提到了如何定义对象的状态,对象状态根据是插件检查结果综合得到的。
对象状态如果发生了变化,Nagios会调用通知命令,发送警报。为了避免错误的警报,Nagios允许用户定义最大尝试次数(max_check_attempts),只有状态连续变化超过了最大尝试次数,才算是真的状态变化。Nagios通过定义两种状态变化类型:soft, hard,分别表示在max_check_attempts内的状态变化,和超过了max_check_attempts的状态变化。这种做法能够解决的一个典型问题就是状态处于抖动不稳定的对象,通过max_check_attempts,避免重复的警报。
1. soft类型
soft类型状态变化产生的条件为:
检查Service或Host状态的插件返回结果为non-OK或non-UP,且检查次数还未达到max_check_attempts,那么这个状态变化是soft类型,是一个soft error。
一个Service或Host从soft error恢复(插件检查返回结果为OK或UP),那么这个状态变化是soft类型,是一个soft recovery。
当soft状态变化发生之后,Nagios对应的处理有:
记录日志
调用外部注册的事件处理回调命令。开发者可以注册事件处理回调命令,尝试修复soft error,在soft error变为hard error之前。
2. hard类型
hard类型状态变化产生条件为:
检查Service或Host状态的插件返回结果为non-OK或non-UP,且检查次数已经达到max_check_attempts,那么这个状态变化是hard类型,是一个hard error。
一个Service或Host的状态由一个hard类型变化为另外一个hard类型,这次变化也是hard类型。如从Warning变为Critical。
一个Service的检查结果为non-OK状态,且与其关联的Host的状态是DOWN或UNREACHABLE,那么Service的状态变化是hard类型,是一个hard error。
一个Service或Host从hard error恢复,那么这个状态变化是hard类型,是一个hard recovery。
Service或Host的状态检查类型为passive_check(由外部注入状态),且全局配置文件(nagios.cfg)中的配置项“ passive_host_checks_are_soft”为0,那么passive_check的检查结果导致的状态变化,都是hard类型。
当hard状态变化发生之后,Nagios对应的处理有:
记录日志
调用外部注册的事件处理回调命令。
通知联系人。
原文网址:http://www.yunweipai.com/archives/3001.html
关于nagiosQL写得比较好的一篇博客:http://pengyl.blog.51cto.com/5591604/1227407
实际应用:
在执行时间处理办法的时候,软件问题会执行一次,当次数超过最大重试次数的时候,将会是硬件问题,同样也会执行一次命令。在这里不清楚为何通知联系人配置不起作用?
架构中提到了如何定义对象的状态,对象状态根据是插件检查结果综合得到的。
对象状态如果发生了变化,Nagios会调用通知命令,发送警报。为了避免错误的警报,Nagios允许用户定义最大尝试次数(max_check_attempts),只有状态连续变化超过了最大尝试次数,才算是真的状态变化。Nagios通过定义两种状态变化类型:soft, hard,分别表示在max_check_attempts内的状态变化,和超过了max_check_attempts的状态变化。这种做法能够解决的一个典型问题就是状态处于抖动不稳定的对象,通过max_check_attempts,避免重复的警报。
1. soft类型
soft类型状态变化产生的条件为:
检查Service或Host状态的插件返回结果为non-OK或non-UP,且检查次数还未达到max_check_attempts,那么这个状态变化是soft类型,是一个soft error。
一个Service或Host从soft error恢复(插件检查返回结果为OK或UP),那么这个状态变化是soft类型,是一个soft recovery。
当soft状态变化发生之后,Nagios对应的处理有:
记录日志
调用外部注册的事件处理回调命令。开发者可以注册事件处理回调命令,尝试修复soft error,在soft error变为hard error之前。
2. hard类型
hard类型状态变化产生条件为:
检查Service或Host状态的插件返回结果为non-OK或non-UP,且检查次数已经达到max_check_attempts,那么这个状态变化是hard类型,是一个hard error。
一个Service或Host的状态由一个hard类型变化为另外一个hard类型,这次变化也是hard类型。如从Warning变为Critical。
一个Service的检查结果为non-OK状态,且与其关联的Host的状态是DOWN或UNREACHABLE,那么Service的状态变化是hard类型,是一个hard error。
一个Service或Host从hard error恢复,那么这个状态变化是hard类型,是一个hard recovery。
Service或Host的状态检查类型为passive_check(由外部注入状态),且全局配置文件(nagios.cfg)中的配置项“ passive_host_checks_are_soft”为0,那么passive_check的检查结果导致的状态变化,都是hard类型。
当hard状态变化发生之后,Nagios对应的处理有:
记录日志
调用外部注册的事件处理回调命令。
通知联系人。
原文网址:http://www.yunweipai.com/archives/3001.html
关于nagiosQL写得比较好的一篇博客:http://pengyl.blog.51cto.com/5591604/1227407
实际应用:
在执行时间处理办法的时候,软件问题会执行一次,当次数超过最大重试次数的时候,将会是硬件问题,同样也会执行一次命令。在这里不清楚为何通知联系人配置不起作用?
相关文章推荐
- 监控系统Nagios系列(四) 状态类型(soft & hard)
- 详解运维监控利器Nagios 系列(三)-配置Nagios监控系统 (3)
- Nagios 监控系列学习 ―― check_snmp_int.pl 监控交换机端口状态和流量
- 使用Linux C开发Nagios监控插件系列——监控MySQL状态的插件开发
- 在nagios中监控windows主机系统地址的状态
- nagios系列(三)之nagios被动监控模式之添加系统负载load、swap、磁盘iostat及memory内存监控详解
- 详解运维监控利器Nagios 系列(三)-配置Nagios监控系统 (1)
- BPFP系列:优化电池使用时间:确定和监控基座对接状态和类型
- 网络监控软件Nagios, Nagios是一款开源的免费网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设备,打印机等。在系统或服务状态异常时发出邮件或短信报
- nagios系列(三)之nagios被动监控模式之添加系统负载load、swap、磁盘iostat及memory内存监控详解
- Nagios 监控系列学习 ―― check_nt 监控windows系统资源
- 使用Linux C开发Nagios监控插件系列——监控MySQL状态的插件开发
- 详解运维监控利器Nagios 系列(三)-配置Nagios监控系统 (2)
- 详解运维监控利器Nagios 系列(二)-安装Nagios监控系统
- Nagios监控系统配置过程2
- Nagios监控系统配置过程3
- Nagios监控系统配置过程1
- 在将 varchar 值 'select * from soft where id=' 转换成数据类型 int 时失败
- 新版飞信+Nagios部署监控系统
- QT图形界面实现系统监控状态(未完成)