原有Hostmonitor的配置存在两个问题
1、 太敏感,比如VPN的链接状况不是很稳定,PING测试时,总会偶尔丢一个包,然后很短时间内又恢复了,按原有的配置是检测的状态一发生变化就发送短信报警,这样就导致了不少无效短信,既浪费钱,也影响对需要关注的事件的关注;
2、 原有配置,一个测试如果失败,只发送一条短信报警,有时因为收到短信时,没有注意,过后也忘记了,这就可能导致故障长时间未得以处理。
为解决以上两个问题,决定采用macro variables宏变量对HM的报警配置做了如下调整:
1、 在Bad status acctions里,添加一项change test interval,调整检测间隔,为原来的50%,加大检测频率;
2、 在Bad status acctions里,将发送短信的条件改为高级模式,利用公式判断
(‘%SimpleStatus%’<>’UP’) and (%Recurrences% mod 100==3) and (%h% >6)
这样就将发送短信的条件改为,第三次检查不通过才开始发送短信,然后每隔一百次发送一条短信,直到故障得以排除。在发送时间上也做些控制,凌晨0点-6点发送的短信,可能会发送几十条短信,而此时的短信是无法得以处理的,发了只会影响查看短信,所以早晨7点以后才开始发送短信。
3、 在Good status acctions里,添加一项change test interval,调整检测间隔,恢复为原来的间隔;
4、 在Good status acctions里,将发送短信的条件改为高级模式,利用公式判断
(‘%SimpleStatus%’ == ‘UP’) and (‘%Status%’<>’%LastStatus%’) and (%PreviousStatusDuration_Sec% > 60) and (%h% >6)
这样就将发送短信的条件改为,只有检测试不通过持续时间超过1分种才发送短信告知故障排除,并且早晨7点以后才开始发送短信。
参考链接:
软件下载地址: