善用脚本让你的Nagios记录系统监控日志(附vmstat详解)-leigaiting-ChinaUnix博客

欢迎来到Shellmy的Blogshellmy.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

leigaiting

博客访问： 476784
博文数量： 403
博客积分： 0
博客等级：民兵
技术积分： -70
用户组：普通用户
注册时间： 2016-09-05 12:45

文章分类

全部博文（403）

GIS（1）
DOCTOR（0）
安卓开发（0）
AIX（3）
网站制作（3）
WIN相关（2）
Solaris（5）
我的游记（0）
我的论文（2）
VPN（0）
心情日记（32）
Perl（1）
ASP（4）
UML（0）
赛尔相关（2）
qq（3）
其它（7）
IPV6（0）
计算机硬件（4）
JAVA和JSP（14）
卫星通讯项目文档（4）
病毒相关（5）
C语言/C++（29）
协议大全（54）

socks5（8）

TCP（13）

HTTPMU（2）

UDP（3）

RFC（6）

HTTP（14）

PPPOE（2）

eap协议（2）

arp协议（1）

802.1x认证协议（3）
卫星通讯（9）
网络监控Iptable/（72）
数据库（41）
代理认证服务器（27）
Upnp技术（5）
PHP、APACHE（8）
P2P技术（7）
Linux（44）
FreeBSD（4）
DOS（2）
随笔（7）
网易控项目文档（2）
未分配的博文（0）

文章存档

2014年（3）

2013年（1）

2012年（3）

2011年（21）

2010年（13）

2009年（64）

2008年（9）

2007年（36）

2006年（253）

我的朋友

相关博文

善用脚本让你的Nagios记录系统监控日志(附vmstat详解)

分类：系统运维

2011-05-24 09:30:54

善用脚本让你的Nagios记录系统监控日志(附vmstat详解)

我是一名linux/unix系统工程师，平时用Nagios自动监测公司的内网开发环境及外网应用环境。Nagios报警功能很强大，但有时我们的系统组有这个需求，特别是系统繁忙时希望能留下日志，以供分析：到底是受到了攻击，还是开发人员设置不当，亦或是运维人员改动了系统配置等。机器少时可能问题不大，但公司的CDN服务器集群是一百多台，目前看形势还在增长，所以我想设计一个shell脚本来作Nagios的补充，在系统繁忙时分离出日志，供系统组同事们一起分析问题，得出问题的症结所在。
这里介绍下以vmstat为基础的系统监控脚本/root/monitor.sh

此脚本设计思想与功能实现：

①此脚本设计为Nagios监控补遗，Nagios是即时监控服务器状态并即时报警，但美中不足的不能记录其状态及日志，所以设计此脚本；

②此脚本已在FreeBSD上成功调试运行，亦适用于RHEL/Centos系统；

③这里以常用生产服务器HPDL380G6(英特尔至强双四核)为依据，r的阀值为4；

脚本内容如下

#!/bin/bash while : do vmr=`vmstat | tail -1 | awk '{print $1}'` if [ ${vmr} -gt 4 ] then date >> /root/monitor.txt vmstat >> /root/monitor.txt netstat -anp >> /root/monitor.txt ps -aux>> /root/monitor.txt last >> /root/monitor.txt tail -10 /var/log/messages >> /root/monitor.txt fi sleep 60 done 此脚本可放至后台运行 sh /root/monitor.sh & ，如遇CPU繁忙的情况，它会自动记载系统日志等以供分析。

这里补充下vmstat的详细信息。这部分资料参考南非蜘蛛，如有问题可咨询本文作者抚琴煮酒：。

用vmstat监视内存使用情况

vmstat是Virtual Meomory Statistics（虚拟内存统计）的缩写，可对操作系统的虚拟内存、进程、CPU活动进行监视。它是对系统的整体情况进行统计，不足之处是无法对某个进程进行深入分析。

vmstat的语法如下：

vmstat [-V] [-n] [delay [count]]

其中，－V表示打印出版本信息；－n表示在周期性循环输出时，输出的头部信息仅显示一次；delay是两次输出之间的延迟时间；count是指按照这个时间间隔统计的次数。对于vmstat输出各字段的含义，可运行man vmstat查看。

vmstat命令有四个可选标志可供使用。如果机器有虚拟地址缓存-c标志就改变输出报告缓存刷新统计数据。报告包括自从系统启动后每种缓存刷新全部总量。六个缓存类型是用户，上下文，区域，段，页，部分页。

-i标志使输出变为报告中断的数量。如果给出设备名，如d1,d2等，监控将在设备级*执行，（*注，参阅第十二章有关打开设备级监控的信息。）并报告每个给定设备的统计信息。

修改"普通"报告来显示交换而非页面调度活动的信息。这选项改变显示的两个字段：si(换入)和so(换出)替代了re和mf字段。

值得注意是，interval 和count选项对-i或-s选项是非法的。

vmstat 参数详解

procs:
r-->在运行队列中等待的进程数
b-->在等待io的进程数
w-->可以进入运行队列但被替换的进程

memoy
swap-->现时可用的交换内存（k表示）
free-->空闲的内存（k表示）

pages
re－－》回收的页面
mf－－》非严重错误的页面
pi－－》进入页面数（k表示）
po－－》出页面数（k表示）
fr－－》空余的页面数（k表示）
de－－》提前读入的页面中的未命中数
sr－－》通过时钟算法扫描的页面

disk 显示每秒的磁盘操作。 s表示scsi盘，0表示盘号

fault 显示每秒的中断数
in－－》设备中断
sy－－》系统中断
cy－－》cpu交换

cpu 表示cpu的使用状态
cs－－》用户进程使用的时间
sy－－》系统进程使用的时间
id－－》cpu空闲的时间如果 r经常大于 4 ，且id经常少于40，表示cpu的负荷很重。

如果pi，po 长期不等于0，表示内存不足。

如果disk 经常不等于0，且在 b中的队列大于3，表示 io性能不好。

由vmstat看服务器

一般VMSTAT工具的使用是通过两个数字参数来完成的，第一个参数是采样的时间间隔数，单位是秒，第二个参数是采样的次数。如：

[oracle@brucelau oracle]$ vmstat 1 2
   procs                      memory    swap       io system        　CPU
r b w   swpd   free   buff cache si so    bi    bo   in    cs us sy id
1 0 0      0 271844 186052 255852   0   0     2     6 102    10   0   0 100
0 0 0      0 271844 186052 255852   0   0     0     0 104    11   0   0 100(注：目前系统几乎空闲，并且不同操作系统VMSTAT输出内容有所不同)

目前说来，对于服务器监控有用处的度量主要有：

r（运行队列）
pi（页导入）
us（用户CPU）
sy（系统CPU）
id（空闲）通过VMSTAT识别CPU瓶颈

r（运行队列）展示了正在执行和等待CPU资源的任务个数。当这个值超过了CPU数目，就会出现CPU瓶颈了。

获得CPU个数的命令(LINUX环境)：

cat /proc/cpuinfo|grep processor|wc –l

当r值超过了CPU个数，就会出现CPU瓶颈，解决办法大体几种：

1. 最简单的就是增加CPU个数

2. 通过调整任务执行时间，如大任务放到系统不繁忙的情况下进行执行，进尔平衡系统任务

3. 调整已有任务的优先级

通过VMSTAT识别CPU满负荷

首先需要声明一点的是，vmstat中CPU的度量是百分比的。当us＋sy的值接近100的时候，表示CPU正在接近满负荷工作。但要注意的是，CPU满负荷工作并不能说明什么，UNIX总是试图要CPU尽可能的繁忙，使得任务的吞吐量最大化。唯一能够确定CPU瓶颈的还是r（运行队列）的值。

通过VMSTAT识别RAM瓶颈

数据库服务器都只有有限的RAM，出现内存争用现象是Oracle的常见问题。

首先察看RAM的数量，命令如下（LINUX环境）：

[root@brucelau root]#free
           total       used       free       shared     buffers     cached
Mem:       1027348     873312     154036     185736     187496     293964
-/+ buffers/cache:       391852      635496
Swap:      2096440          0      2096440当然可以使用top等其他命令来显示RAM。

当内存的需求大于RAM的数量，服务器启动了虚拟内存机制，通过虚拟内存，可以将RAM段移到SWAP DISK的特殊磁盘段上，这样会出现虚拟内存的页导出和页导入现象，页导出并不能说明RAM瓶颈，虚拟内存系统经常会对内存段进行页导出，但页导入操作就表明了服务器需要更多的内存了，页导入需要从SWAP DISK上将内存段复制回RAM，导致服务器速度变慢。

解决的办法有几种：

1. 最简单的，加大RAM

2. 改小SGA，使得对RAM需求减少

3. 减少RAM的需求（如：减少PGA

文章转载自网管之家：

阅读(1013) | 评论(0) | 转发(0) |

上一篇：sendmail webmail安装(linux)

下一篇：用PHP执行shell命令

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6