Nagios 3.2 监控部署(二)-gron-ChinaUnix博客

黑小子博客gron.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

gron

博客访问： 2189854
博文数量： 317
博客积分： 5670
博客等级：大校
技术积分： 3677
用户组：普通用户
注册时间： 2008-08-10 17:51

文章分类

全部博文（317）

mcat（2）
日志系统（2）

awstats（1）
工具（1）
代理服务（0）
SVN（11）
FTP（1）
python（2）
tomcat（0）
存储（6）
SEO技术（0）
proxy（0）
Cache（5）

redis（1）
DNS（2）
自动化管理（3）
redis（4）
素质培养（2）
压力测试（3）
监控报警（12）

zabbix（1）
报错问题（19）

系统（2）
性能测试与优化（27）
DB（42）

MongoDB（1）

MySql（40）
Web（48）

php（4）

IIS（1）

nginx（15）

apache（16）
技术常识（5）
shell（10）
Iptables（5）
集群HA（8）
Nagios（6）
Safety +&nb（12）
System（29）
Command（37）
Mail（5）

iredmail（0）

Postfix（2）

Qmail（3）
Cacti（3）
安装配置（5）
未分配的博文（0）

文章存档

2016年（2）

2015年（44）

2014年（68）

2013年（42）

2012年（23）

2011年（51）

2010年（67）

2009年（17）

2008年（3）

我的朋友

相关博文

Nagios 3.2 监控部署(二)

分类：系统运维

2010-01-29 10:44:10

9、定义监控的项目,也叫服务,创建services.cfg

vi /usr/local/nagios/etc/services.cfg

#监控主机是否存活

define service{

host_name nagios-server

service_description check-host-alive

check_command check-host-alive

max_check_attempts 5

normal_check_interval 5

retry_check_interval 2

check_period 24x7

notification_interval 10

notification_period 24x7

notification_options w,u,c,r

contact_groups sagroup

}

#监控主机的web服务

define service{

host_name nagios-server

service_description check_tcp 80

check_period 24x7

max_check_attempts 4

normal_check_interval 3

retry_check_interval 2

contact_groups sagroup

notification_interval 10

notification_period 24x7

notification_options w,u,c,r

check_command check_tcp!80

}

#监控主机的cpu负载情况

define service{

host_name nagios-server

service_description cpu load

check_command check_nrpe!check_load

check_period 24x7

max_check_attempts 4

normal_check_interval 3

retry_check_interval 2

contact_groups sagroup

notification_interval 10

notification_period 24x7

notification_options w,u,c,r

}

#监控主机的进程数

define service{

host_name nagios-server

service_description total-procs

check_command check_nrpe!check_total_procs

check_period 24x7

max_check_attempts 4

normal_check_interval 3

retry_check_interval 2

contact_groups sagroup

notification_interval 10

notification_period 24x7

notification_options w,u,c,r

}

说明：

host_name：必须是主机配置文件hosts.cfg中定义的主机。

check_command：在commands.cfg文件中定义或在nrpe.cfg里面定义的命令；

max_check_attempts: 最大重试次数,一般设置为4次左右；

normal_check_interval 和retry_check_interval检查间隔的单位是分钟。

notification_interval 通知间隔指探测到故障后，每隔多长时间发送一次报警信息，单位是分钟。

notification_options：通知选项跟联系人配置文件相同。

contact_groups:配置文件contactgroup.cfg定义的组名称。

注意：check_command选项后面跟的命令一定要在commands.cfg里有定义；

如果要监控其他的主机的信息，可以通过复制并修改想应的选项来进行添加；

通过复制添加下面这两台服务器的监控项目：

win2003和linux

四、安装nrpe

tar xvf nrpe-2.12.tar.gz

cd nrpe-2.12.

./configure --prefix=/usr/local/nrpe

make

make install

#复制文件，因为在nrpe安装目录/usr/local/nrpe/libexec里只有cneck_nrpe这一个文件，而在nagios/libexec里却没有，还有一个就是nrpe.cfg文件里面默认定义的那几个命令后面的路径是放在/usr/local/nrpe/libexec的目录里面，也要把那几个文件复制过来，如果不复制过来的话必须要修改nrpe.cfg里面定义的命令的路径，免得在services.cfg里面定义check_command时提示找不到命令；现在把下面的文件复制过来：

cp /usr/local/nrpe/libexec/check_nrpe /usr/local/nagios/libexec

cp /usr/local/nagios/libexec/check_disk /usr/local/nrpe/libexec

cp /usr/local/nagios/libexec/check_load /usr/local/nrpe/libexec

cp /usr/local/nagios/libexec/check_ping /usr/local/nrpe/libexec

cp /usr/local/nagios/libexec/check_procs /usr/local/nrpe/libexec

cp /usr/local/nagios/libexec/check_users /usr/local/nrpe/libexec

#修改nrpe配置文件,只把改过的地方写出来

vi /usr/local/nrpe/etc/nrpe.cfg

server_address=192.168.0.10 //以单独的守护进程运行

allowed_hosts=127.0.0.1,192.168.0.10 //设置允许nagios监控服务器可以访问

command[check_users]=/usr/local/nrpe/libexec/check_users -w 5 -c 10

command[check_load]=/usr/local/nrpe/libexec/check_load -w 15,10,5 -c 30,25,20

#command[check_hda1]=/usr/local/nrpe/libexec/check_disk -w 20 -c 10 -p /dev/hda1 //注释掉

command[check_df]=/usr/local/nrpe/libexec/check_disk -w 20 -c 10 //添加这一行，监控整个磁盘利用率

command[check_zombie_procs]=/usr/local/nrpe/libexec/check_procs -w 5 -c 10 -s z

command[check_total_procs]=/usr/local/nrpe/libexec/check_procs -w 150 -c 200

command[check_ips]=/usr/local/nrpe/libexec/ip_conn.sh 8000 10000 //监控ip连接数

说明：

● command[check_users]=/usr/local/nrpe/libexec/check_users –w 5 –c 10在默认情况下check_users的插件是放在/usr/local/nrpe/libexec/目录里面，而目录里面在默认情况下是没有这一个文件的，所以说要从/usr/local/nagios/libexec/目录下拷贝一个过来；或者说的它后面的它改成: command[check_users]=/usr/local/nagios/libexec/check_users –w 5 –c 10 这样的话就可以了，要不然在引用check_users的时候会提示没有那命令；
ps：我这里为了方便，就是从/usr/local/nagios/libexec下把那几个文件拷贝过来；

● 在上面的nrpe.cfg配置文件里面，在中括号 “ [ ] “里面部分是命令名，也就是check_nrep –c 后面可以接的内容，等号=后面的就是实际执行的插件程序的路径；从上往下分别是检测登录用户数，cpu使用率，磁盘的容量，僵尸进程，总进程，连接数；

● 要是还要添加其它监控项目，不要忘记了在这里定义相应的命令；例：如果要监控主机的swap分区使用情况，当空闲空间小于20%时为警告状态，当空闲空间小于10%时为严重状态。需要在nrpe.cnf里面添加下面的命令：/usr/local/nagios/libexec/check_swap -w 20% -c 10% 如还有其它的，添加相就应的就可以了；关于命令用法可以能过/usr/local/nagios/libexec/check_swap –h这样的命令来查询；

● command[check_ips]=/usr/local/nrpe/libexec/ip_conn.sh 8000 10000 ip连接数，ip_conn.sh脚本需要自己写，下面给出脚本的内容：

#!/bin/sh

#if [ $#-ne 2 ]

#then

# echo "usage:$0 -w num1 -c num2"

#exit 3

#fi

ip_conns=`netstat -an |grep tcp |grep est |wc -l`

if [ $ip_conns -lt $1 ]

then

echo "ok -connectcounts is $ip_conns"

exit 0

if [ $ip_conns -gt $1 -a $ip_conns -lt $2 ]

then

echo "warning -connectcounts is $ip_conns"

exit 1

if [ $ip_conns -gt $2 ]

then

echo "critical -connectcounts is $ip_conns"

exit 2

我在nrpe配置文件nrpe.cfg把脚本所需的两个参数写上了，因此这个脚本就不需判断两个参数输入值的情况。只要当前ip连接数大于8000，系统就发warning报警，超过10000，则发“critical”报警信息。把这个脚本放在目录/usr/local/nrpe/libexec下，并给于执行权限；

注：脚本来自田逸的《开源监控利器nagios》

修改/usr/local/nagios/etc/objects/commands.cfg,在最后添加以下内容：

########################################################################

# 'check_nrpe ' command definition

define command{

command_name check_nrpe

command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$

}

添加check_nrpe的命令支持，要不是加的话，在”check_cmmmands check_nrpe!check_nrpe”这样的情况下的时候，会提示没有check_nrpe这一个命令。

五、 被监控主机设置

这一部分内容参考yahoon小屋的nagios全攻略(四)----监控linux上的”本地信息”，地址是：http://yahoon.blog.51cto.com/13184/41893

nrpe的工作原理图：

nrpe总共由两部分组成:

– check_nrpe 插件,位于在监控主机上

– nrpe daemon,运行在远程的linux主机上(通常就是被监控机)

按照上图,整个的监控过程如下:

当nagios需要监控某个远程linux主机的服务或者资源情况时

1.nagios会运行check_nrpe这个插件,告诉它要检查什么.

2.check_nrpe插件会连接到远程的nrpe daemon,所用的方式是ssl

3.nrpe daemon会运行相应的nagios插件来执行检查

4.nrpe daemon将检查的结果返回给check_nrpe插件,插件将其递交给nagios做处理.

注意:nrpe daemon需要nagios插件安装在远程的linux主机上,否则,daemon不能做任何的监控.

1、linux 主机
1）添加用户

# useradd nagios -s /sbin/nologin

2) 安装nagios插件

tar xvf nagios-plugins-1.4.14.tar.gz

cd nagios-plugins-1.4.14

./configure --prefix=/usr/local/nagios

make

make install

修改目录权限：

chown –R nagios:nagios /usr/local/nagios

chown –R nagios:nagios /usr/local/nagios/libexec

2) 安装nrpe

tar xvf nrpe-2.12.tar.gz

cd nrpe nrpe-2.12.

./configure --prefix=/usr/local/nagios //也把它放到nagios这一个目录

make all

make install-plugin //安装check_nrpe这个插件

make install-daemon //安装deamon

make install-daemon-config //安装配置文件

注意：安装nrpe时，要先安装SSL这一个工具，因为监控服务器与被监控主机之间通讯时是通过SSL的方式来进行的。

3）修改nrpe.cfg配置文件

allowed_hosts=127.0.0.1,192.168.0.10 //允许监控服务器访问，中间用逗号隔开；

server_address=192.168.0.10 //以单独的守护进程运行

# 修改NRPE的监控命令，添加相应的命令；

# The following examples use hardcoded command arguments...

command[check_users]=/usr/local/nagios/libexec/check_users -w 5 -c 10

command[check_load]=/usr/local/nagios/libexec/check_load -w 15,10,5 -c 30,25,20

#command[check_hda1]=/usr/local/nagios/libexec/check_disk -w 20% -c 10% -p /dev/hda1

command[check_df]=/usr/local/nagios/libexec/check_disk -w 20 -c 10

command[check_zombie_procs]=/usr/local/nagios/libexec/check_procs -w 5 -c 10 -s Z

command[check_total_procs]=/usr/local/nagios/libexec/check_procs -w 150 -c 200

command[check_swap]=/usr/local/nagios/libexec/check_swap -w 20% -c 10%

command[check_tcp]=/usr/local/nagios/libexec/check_tcp -p 80

4）启动nrpe服务

# /usr/local/nagios/bin/nrpe –c /usr/local/nagios/etc/nrpe.cfg -d

5) 在本机测试一下nrpe.cfg里面定义的命令有没有错误

/usr/local/nagios/libexec/check_nrpe -H localhost

/usr/local/nagios/libexec/check_nrpe -H localhost –c check_users

/usr/local/nagios/libexec/check_nrpe -H localhost –c check_load

/usr/local/nagios/libexec/check_nrpe -H localhost –c check_df

/usr/local/nagios/libexec/check_nrpe -H localhost –c check_zombie_procs

/usr/local/nagios/libexec/check_nrpe -H localhost –c check_total_procs

/usr/local/nagios/libexec/check_nrpe -H localhost –c check_swap

/usr/local/nagios/libexec/check_nrpe -H localhost –c check_tcp

6）在监控服务器上修改/usr/local/nagios/etc/services.cfg文件，添加相对应的监控项目；

2、windows主机

如果被监控主机是windows系统的话，需要安装nsclient++-0.3.6-win32.msi 这一个客户端工具；下载地址：

它的工作原理图如下：

可以看到它是通过监控服务器上的check_nt这一个插件来检查WINDOWS机器的服务，当监控服务器将监控请求发给NSClient后，通过NSClient客户端检查监控项目，所有的监控都是由NSClient来完成；

双击安装，完成后进到安装目录，我的是安装在F:\Program Files\NSClient++，用记事本打开NSC.ini文件，修改如下：

在 [modules]部分的所在模块前面的注释“；”去掉，只保留CheckWMI.dll和RemoteConfiguration.dll这两个不用去掉注释；

在 [Settings] 部分找到”allowed_hosts”选项，将前面的 “；”注释去掉，并在后面加上监控服务器的IP，这里也可以写成一个子网，如：192.168.0.0/24的形式，表示所有来自这个子网的机器都可以访问。

修改后如下：allowed_hosts=127.0.0.1/32,192.168.0.10 ；在多个IP之间用逗号相隔。

在 [NSClient] 部分找到“port=12489”这一行，并把前面的注释去掉；这是NSClinet的默认监听端口。

打开CMD ，进入到NSClient的安装目录，如下：

F:\Program Files\NSClient++> dir

2009-10-10 20:54 .

2009-10-10 20:54 ..

2009-06-14 13:20 442,368 nsclient++.exe

2009-06-14 13:24 278,528 nstray.exe

2009-10-10 23:08 13,087 NSC.ini

2009-06-14 13:13 43,129 changelog.txt

2008-06-15 18:20 8,804 counters.defs

2008-06-15 18:20 18,351 license.txt

2009-10-10 20:54 modules

2009-10-10 20:54 scripts

2009-10-14 20:00 26,592 nsclient.log

7 个文件 830,859 字节

4 个目录 3,589,242,880 可用字节

//依次执行下面的命令：

F:\Program Files\NSClient++> nsclient++.exe /install

e NSClient++.cpp(212) Service installation failed: Service already installed!

F:\Program Files\NSClient++> nsclient++.exe /install SysTray //注意大小写；

Service SysTray installed...

l NSClient++.cpp(224) Service installed!

F:\Program Files\NSClient++>nsclient++.exe /start //启动服务

接下来在运行里面输入：services.msc 打开服务管理；

看到下图时就表明已经安装上了：

在NSClinet++上面点右键属性，打开服务，如下图：服务已经启动了

点登录，在登录登录身份下面勾选允许服务与桌面交互，如下图：

到这里就已经在WINDOWS主机上安装好了，如果你有防火墙的话请打开TCP的12489端口，否则nagios检查此服务的时候会报socket 超时错误。

这样被监控的主机就搞定了，现在回到nagios-server 监控服务器上做下面三个步骤：

1）安装监控windows的插件(已经默认安装了check_nt)

2）定义命令

#'check_nt' command definition

define command{

command_name check_nt

command_line $USER1$/check_nt -H $HOSTADDRESS$ -p 12489 -v $ARG1$ $ARG2$

}

//这一部分在3.20里面默认就已经有了，不用再添加；

3）定义要监控的项目

修改/usr/local/nagios/etc/services.cfg文件，增加windows 被监控主机的监控项目；

详情请参阅前面第三步内容；

关于check_nt的用法可以使用下面命令查看帮助：

# /usr/local/nagios/libexec/check_nt -h

下面给出一些常用的参数：

1)监控windows服务器运行的时间

check_command check_nt!UPTIME

2)监控Windows服务器的CPU负载,如果5分钟超过80%则是warning,如果5分钟超过90%则是critical

check_command check_nt!CPULOAD!-l 5,80,90

3)监控Windows服务器的内存使用情况,如果超过了80%则是warning,如果超过90%则是critical.

check_command check_nt!MEMUSE!-w 80 -c 90

4)监控Windows服务器C:\盘的使用情况,如果超过80%已经使用则是warning,超过90%则是critical

check_command check_nt!USEDDISKSPACE!-l c -w 80 -c 90

注:-l后面接的参数用来指定盘符

5)监控Windows服务器D:\盘的使用情况,如果超过80%已经使用则是warning,超过90%则是critical

check_command check_nt!USEDDISKSPACE!-l d -w 80 -c 90

6)监控Windows服务器的W3SVC服务的状态,如果服务停止了,则是critical

check_command check_nt!SERVICESTATE!-d SHOWALL -l W3SVC

7)监控Windows服务器的Explorer.exe进程的状态,如果进程停止了,则是critical

check_command check_nt!PROCSTATE!-d SHOWALL -l Explorer.exe

这一部分被控主机设置这一部分是参考yahoon的小屋原文：http://yahoon.blog.51cto.com/13184/41897

阅读(2386) | 评论(0) | 转发(0) |

上一篇：防火墙限制IP连接数connlimit

下一篇：Nagios 3.2 监控部署(三)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6