俗话说:工欲善其事,必先利其器。要做好系统管理,使自己的工作更轻松、更有效的话,一个好的监控工具是必不可少的。
在2002年的时候,我有幸承包中国科学院某研究所的整个网络维护。当时网络状况十分糟糕,断网情况比较频繁。造成这种情况的原因大致有以下两种。
- 内部网络联网混乱。
- 上联到另外一个研究所,那里时不时操作不慎把上连的线路给弄掉了。
为了了解网络是否处于一个可用的状态,我上班的第一件事情就是打开网络收音机,根据声音的有无进行判断。
再往后两年,有一些用于远程教育的服务器托管在亦庄某机房。这个机房的服务的实在是很糟糕,曾有一段时间,网络服务基本处于无法访问的状态,打电话过去,那边敷衍说机房受到攻击,马上就会正常。我们不得不暂时相信他的托词,为了知道何时网络能恢复正常,我就在办公室的电脑执行ping服务器IP地址的操作。
2005年秋天,我在一个SP公司做系统管理。这里有数百个服务器对外提供服务,并且要求24小时运营保障。这种网络环境下,再用听在线收音机或者ping来判断网络是否正常,是没有什么效果的。幸好,在我接手的时候,已经有了一个监控系统Netsaint(Nagios的早期版本名称),后来我把它升级成最新的Nagios。通过逐步完善这个监控平台,取得比较理想的运营效果:只需带着手机,有故障会自动发短信报警。
12.1 Nagios概述
Nagios官方网站的描述:
Nagios is an open source host, service and network monitoring program.
Who uses it? Lots of people, including many big companies and organizations.
首先,我们来看看实际工作中需要监控的对象有哪些?在这里我总结出两种类型的监控对象:网络服务监控及主机资源监控。网络服务监控可包括主机存活检查、Web服务监控、FTP服务监控、数据库服务监控、自定义服务监控等;主机资源监控可包括系统负载、当前IP连接数、磁盘空间使用情况、当前进程数以及自定义的资源监控等。
其次,我们再来看看Nagios监控的表现形式。监控的主要目的是当监控的对象发生故障或资源紧张时及时通知相关人员,以便问题得到迅速的处理。追求的效果就是“在老板和客户发现问题之前得到及时、有效的通知”。假定故障通知来自老板,我想大家都不会很愉快的。Nagios为了方便我们的管理工作,提供了至少3种表现形式。
- Web方式。即通过浏览器看看被监控的对象。在正常状态下,其状态(status)是以蓝色填充并显示一个OK。
- 邮件通知。发生故障时,到达设定重试次数或探测间隔时间后发送邮件给管理员或相关人员,报告问题的大致情况。
- 手机短信。这是非常有用和及时的功能了。晚上熟睡中,不可能看看Web页面或查阅邮件。可是一旦发生故障,手机短信却能把你随时唤醒。
一般情况下,这三者是同时进行的:上班时间开个浏览器查看页面显示、打开邮件程序定时收取邮件、手机24小时在线。
下面,我们以一个实际场景来展示Nagios的强大功能,希望对大家的系统管理工作有所帮助。
阅读(2170) | 评论(0) | 转发(0) |