I\'m working in IT for above 10 years, although I\'m not an expert yet, but I\'m working on it :)
分类: LINUX
2012-10-02 10:42:04
为了应对本次DC split,我们针对Nagios,Centreon系统进行了准备。
这次我们的Nagios Dadong 单独运行,Nagios Tiexi及 Centreon关机,实际情况是Nagios Dadong单独运行良好。
当DC 分离工作基本结束后,我启动了Nagios Tiexi及 Centreon。
但是随之而来的问题就出现了。
1.我发现Centreon中所记录的host及server的数量不正确,而且Poller的状态及数据库的状态都为红色。
2.之后我就重新启动了所有的Nagios、Centreon机器,重启后的状态为 Centreon中只能看到自己,即只有1台机器,查看Centreon页面中的 administrtion-->Process control-->选择一个poller-->看是否能够看到 Nagios PID,发现2个poller都没有相关信息。
3.无耐下咨询供应商,通过查找问题所在。
我们进行了如下的操作。
1.在Centreon主机上,查看mysql的运行状态,kill掉然后重新启动mysql
2.ps -ef |grep nagios
在所有Nagios机器上,查找所有的nagios.cfg 进程, kill掉所有的相关进程,然后重新启动Nagios
3.再次检查 Centreon中是否有相关Nagios中的poller状态,如下图。
系统恢复正常。
总结,上次DC shutdown完成后启动时, poller就有点儿问题。
此次,似乎是mysql 及 nagios 进程在启动后有问题。
建议,在以后再出现类似情况下,重启mysql, 重启nagios相关进程, 检查Centreon中 Nagios PID的状态。