Nagios 探索之四 —— 主机监控的配置-lovegqin-ChinaUnix博客

lovegqingqin.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

lovegqin

博客访问： 1337695
博文数量： 554
博客积分： 10425
博客等级：上将
技术积分： 7555
用户组：普通用户
注册时间： 2006-11-09 09:49

文章分类

全部博文（554）

app（2）
nagios（8）
历史（2）
我的鱼（1）
Data_Base（51）

mysql（51）
Solaris（475）
shell（14）
情感（0）
General（0）
未分配的博文（1）

文章存档

2012年（1）

2011年（1）

2009年（8）

2008年（544）

我的朋友

相关博文

Nagios 探索之四 —— 主机监控的配置

分类： LINUX

2008-12-05 11:48:47

Nagios的主要功能是监控，其监控对象包括主机和服务。在配置需要监控的主机时，不用把主机上面跑的服务和监听的端口等等都加进来，监控主机只是监控该服务器是否是开机，网络是否是正常即可。至于该主机上运行的服务，就交给配置服务的时候再细致的加以配置吧，这样在Nagios的界面中显示的也比较清楚。

针对主机监控的配置项都是怎样的呢？一般对于主机的监控配置都会写在一个名字为hosts.cfg的配置文件中，以下是定义一台主机可以用到的定义参数：

define host{

host_name host_name ＃简短的主机名称

alias alias ＃别名，可以更详细的说明主机

address address ＃ip地址，当然你如果足够信任你的DNS的话，也可以写名称。如果你不定义这个值，nagios将会用host_name去寻找主机。

parents host_names ＃上一节点的名称，也就是指从nagios服务器到被监控主机之间经过的节点，可以是路由、交换机、主机等等。当然，这个节点也要定义，并且要被nagios监控。

hostgroups hostgroup_names ＃主机组名称，简短的

check_command command_name ＃检查命令的简短名称，如果此项留空，nagios将不会去判断该主机是否alive。

max_check_attempts 整数＃当检查命令的返回值不是“OK”时，重试的次数

check_interval 数字＃循环检查的间隔时间。

active_checks_enabled [0/1] ＃是否启用“active_checks”

passive_checks_enabled [0/1] #是否启用“passive_checks”，及“被动检查”

check_period timeperiod_name ＃检测时间段简短名称，注意这个只是个名称，具体的时间段要写在其他的配置文件中哦！

obsess_over_host [0/1] ＃是否启用主机操作系统探测。

check_freshness [0/1] ＃是否启用freshness测试。freshness测试是对于启用被动测试模式的主机而言的，其作用是定期检查该主机报告的状态信息，如果该状态信息已经过期，freshness将会强制作主机检查。

freshness_threshold 数字＃fressness的临界值，单位为秒。如果定义为0，则为自动定义。

event_handler command_name ＃当主机发生状态改变时，采用的处理命令的简短的名字（可以在commands.cfg中对其定义）

event_handler_enabled [0/1] ＃是否启用event_handler

low_flap_threshold 数字＃抖动的下限值。这里我简单解释一下抖动的含义，它定义了这样一种现象：在一段时间内，主机（或服务）的状态值频繁的发生变化，类似一个问题风暴或者一个网络问题。

high_flap_threshold 数字＃抖动的上限值

flap_detection_enabled [0/1] ＃是否启用抖动检测

process_perf_data [0/1] ＃是否启用processing of performance data

retain_status_information [0/1] #程序重启时，是否保持主机状态相关的信息

retain_nonstatus_information [0/1] ＃程序重启时，是否保持主机状态无关的信息

contact_groups contact_groups ＃联系人组（这个组会在contactgroup.cfg文件中定义），在此组中的联系人都会受到该主机的告警提醒信息。

notification_interval 整数＃告警临界值。达到此次数之后，才会发送该机的报警提醒信息。

notification_period timeperiod_name ＃该机的告警时间段

notification_options [d,u,r,f] ＃该机告警包括的状态变化结果

notifications_enabled [0/1] ＃是否启用告警提醒功能

stalking_options [o,d,u] ＃持续状态检测参数，o = 持续的UP状态, d = 持续的DOWN状态, and u = 持续的UNREACHABLE状态.

}

呵呵，看了上面那么长的配置说明是否有点头晕，一般我们对主机的监控需求是很简单的，如：

在任何时间内，只要用ping命令判断是否可以ping通主机即可。连续出现5次ping不通，则断定其出现问题。连续出现3次问题发通知到mygroup组。发送提醒包括以下状态改变：DOWN（ping不通） UNREACHABLE（不可达） RECOVERY（恢复正常，可以ping通了）

根据以上需求，其监控主机的配置如下即可：

define host {

host_name test.1

alias test.1

address 192.168.0.1

contact_groups mygroup

check_command check-host-alive

max_check_attempts 5

notification_interval 3

notification_period 24x7

notification_options d,u,r

}

转载于： loesprite.cublog.cn

阅读(2149) | 评论(0) | 转发(0) |

上一篇：Nagios 探索之三 —— 启动nagios服务

下一篇：Nagios 探索之五 —— 服务监控的配置

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6