Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2110307
  • 博文数量: 317
  • 博客积分: 5670
  • 博客等级: 大校
  • 技术积分: 3677
  • 用 户 组: 普通用户
  • 注册时间: 2008-08-10 17:51
文章分类

全部博文(317)

文章存档

2016年(2)

2015年(44)

2014年(68)

2013年(42)

2012年(23)

2011年(51)

2010年(67)

2009年(17)

2008年(3)

分类: LINUX

2014-02-23 07:21:18

首先需要安装一个包
# rpm -qa sysstat
sysstat-7.0.2-3.el5
这个包安装了一些很有用的文件
# rpm -ql sysstat
/etc/cron.d/sysstat
/etc/rc.d/init.d/sysstat
/etc/sysconfig/sysstat
/etc/sysconfig/sysstat.ioconf
/usr/bin/iostat
/usr/bin/mpstat
/usr/bin/sadf
/usr/bin/sar
/usr/lib/sa
/usr/lib/sa/sa1
/usr/lib/sa/sa2
/usr/lib/sa/sadc
......
/var/log/sa
 

要启动SAR,必须通过cron工具以周期性的间隔启动。
安装sysstat包后,默认创建一个/etc/cron.d/sysstat文件,其默认内容为:
# run system activity accounting tool every 10 minutes
*/10 * * * * root /usr/lib/sa/sa1 1 1
# generate a daily summary of process accounting at 23:53
53 23 * * * root /usr/lib/sa/sa2 -A
这里用到了两个命令
/usr/lib/sa/sa1
/usr/lib/sa/sa2
sa1:是调用sadc(二进制文件),将数据收集到二进制日志文件的一个Shell脚本。sa1命令还确保每天使用不同的文件。每隔十分钟运行一次该命令,最好不要改这个值,这是对一般系统折中的值。二进制日志文件存放在/var/log/sa/目录下,命名为sa${DATE}。
sa2:是将当日二进制日志文件中所有的数据转储到文本文件(sar)的另一个Shell脚本,然后它将清除七天之前的所有日志文件。参数-A指定了从二进制文件中提取哪些数据转储到文本文件中。转储的文件存放在/var/log/sa/目录下,命名为sar${DATE}。
这两个命令要配合着使用。
(强烈建议看一下这两个命令的脚本)
 

查看一下/usr/lib/sa/sa1脚本,里面执行这样一句命令:
/usr/lib/sa/sadc -F -L 1 1 -
-F:强制指定一个储存文件,如果文件已存在,就将其转换成sa的二进制文件形式。
-L:给sa文件加互斥锁,不能让两个sadc进程同时写一个sa文件。
 

跟据sa1脚本中的命令,我们也可以手动的创建sa二进制文件,使用/usr/lib/sa/sadc命令,
# /usr/lib/sa/sadc 1 10 /tmp/jaylin_sa
上述命令的作用是:每隔1s写一条记录,写10条,存放到二进制文件/tmp/jaylin_sa中。
 

查看一下/usr/lib/sa/sa2脚本,里面执行这样一句命令:
/usr/bin/sar -A -f /var/log/sa/sa${DATE} > /var/log/sa/sar${DATE}
-A:列出所有存储在/var/log/sa/sa${DATE}里的统计信息。
-f:指定将要转储的sa文件,默认的参数值为/var/log/sa/sa${DATE}。
 

根据sa2脚本中的命令,我们也可以手动将sa文件(二进制)转储到sar文件(ASCII文本)中,使用/usr/bin/sar命令,
# /usr/bin/sar -A -f /tmp/jaylin_sa> /tmp/jaylin_sar

我们可以通过cat等命令查看sar文件的内容。但是我们也可以通过sar命令读取sa的二进制文件。
# sar
03:00:01 PM     CPU     %user     %nice   %system   %iowait    %steal    %idle
03:10:01 PM       all      1.02      0.00      2.33      0.39      0.00     96.25
03:20:01 PM       all      1.85      0.00      3.29      0.32      0.00     94.54
03:30:02 PM       all      1.63      0.06      3.81      2.05      0.00     92.45
03:40:02 PM       all      9.31      0.00      8.10      3.39      0.00     79.20
03:50:01 PM       all      8.64      0.00      7.73      2.27      0.00     81.36
04:00:01 PM       all      0.84      0.00      2.12      1.81      0.00     95.23
Average:          all      3.88      0.01      4.56      1.71      0.00     89.84
其中:
%user:CPU花费在用户进程(如应用程序、Shell脚本或该用户进行的交互)上的时间的百分比。
%nice:CPU用来执行有用户级别优先级别的任务的时间的百分比。
%system:CPU用来执行核心任务的时间的百分比。
%iowait:CPU等待块设备输入或输出的时间的百分比。
%steal:CPU等待管理程序(hypervisor)处理其他任务的时间的百分比。
%idle:CPU未进行任何有用操作的时间的百分比。
最后一行是所有数据的平均值。然而,因为大多数系统都会在忙时间段后经历空闲时间段,所以平均值并不能反映完整的情况。
其他度量参数:
-b:显示了缓冲区信息和使用缓冲区与必须写磁盘的比率。
-c:显示了系统调用分解为一些常用的调用,如fork()、exec()、read()和write()。高进程 创建会导致较差的性能,并且这是可能需要将一些应用程序转移到其他计算机的信号。
-p 和 -w:显示了分页(交换)活动。高分页操作是内存缺乏的信号。特别地,-w 选项 显示了进程切换的次数:高的数值表示计算机上运行的内容过多,该计算机在切换任务 上花费了比实际工作更多的时间。
-q:显示了运行队列的大小,它与当时的平均负载相同。
-r:显示了一段时间的可用内存和交换空间。
它们显示每一列的含义请查看sar的man page。
 

我们也可以查看指定的某一时间段内的记录
-f:指定要读取的sa文件。
-s:开始的时间。注意,-s不是包含性的,所以必须从所选择的开始时间减去十分钟。
-e:结束的时间。
例如:
# # sar -f /var/log/sa/sa12 -s 14:50:00 -e 15:30:00
03:00:01 PM     CPU     %user     %nice   %system   %iowait    %steal     %idle
03:10:01 PM       all      1.02      0.00      2.33      0.39      0.00     96.25
03:20:01 PM       all      1.85      0.00      3.29      0.32      0.00     94.54
Average:          all      1.44      0.00      2.81      0.36      0.00     95.40
上述命令查看本月12日,15:00—15:30之间的记录。
 

下面介绍一个第三方工具Ksar
这个工具可以将sar文件装换成图形,便于查看内存等数据的变化情况。
将下载的kSar-5.0.6.zip解压,解压后生成的目录下,有一个run.sh脚本。给其增加可执行权限。执行脚本,会出现一个图形界面:
将存在的sar文件导入工具,就可以看到根据sar文件记录生成的图形。
注意,如果是手动将sa文件转储到sar文件中,执行sar命令时要加LANG=C,即:
# LANG=C /usr/bin/sar -A -f /tmp/jaylin_sa> /tmp/jaylin_sar
不加LANG=C,sar文件显示的时间为12小时制;加LANG=C之后,sar文件显示的时间为24小时制。Ksar工具只能识别24小时制的sar文件,所以切记执行转储时要加此环境变量。


前面已经介绍了 vmstat和top命令的解析及使用,下面我们来学习一个更重要的命令sar
sar命令可以通过参数单独查看系统某个局部的使用情况

sar 命令行的常用格式:

sar [options] [-A] [-o file] t [n]

在命令行中,n 和t 两个参数组合起来定义采样间隔和次数,t为采样间隔,是必须有的参数,n为采样次数,是可选的,默认值是1,-o file表示将命令结果以二进制格式存放在文件中,

file 在此处不是关键字,是文件名。options 为命令行选项,sar命令的选项很多,下面只列出常用选项:

-A:所有报告的总和。
-u:CPU利用率
-v:进程、I节点、文件和锁表状态。
-d:硬盘使用报告。
-r:没有使用的内存页面和硬盘块。
-g:串口I/O的情况。
-b:缓冲区使用情况。
-a:文件读写情况。
-c:系统调用情况。
-R:进程的活动情况。
-y:终端设备活动情况。
-w:系统交换活动。
-n: 记录网络使用情况

默认监控: sar 5 5     //  CPU和IOWAIT统计状态 
(1) sar -b 5 5        // IO传送速率
(2) sar -B 5 5        // 页交换速率
(3) sar -c 5 5        // 进程创建的速率
(4) sar -d 5 5        // 块设备的活跃信息
(5) sar -n DEV 5 5    // 网路设备的状态信息
(6) sar -n SOCK 5 5   // SOCK的使用情况
(7) sar -n ALL 5 5    // 所有的网络状态信息
(8) sar -P ALL 5 5    // 每颗CPU的使用状态信息和IOWAIT统计状态 
(9) sar -q 5 5        // 队列的长度(等待运行的进程数)和负载的状态
(10) sar -r 5 5       // 内存和swap空间使用情况
(11) sar -R 5 5       // 内存的统计信息(内存页的分配和释放、系统每秒作为BUFFER使用内存页、每秒被cache到的内存页)
(12) sar -u 5 5       // CPU的使用情况和IOWAIT信息(同默认监控)
(13) sar -v 5 5       // inode, file and other kernel tablesd的状态信息
(14) sar -w 5 5       // 每秒上下文交换的数目
(15) sar -W 5 5       // SWAP交换的统计信息(监控状态同iostat 的si so)
(16) sar -x 2906 5 5  // 显示指定进程(2906)的统计信息,信息包括:进程造成的错误、用户级和系统级用户CPU的占用情况、运行在哪颗CPU上
(17) sar -y 5 5       // TTY设备的活动状态
(18) 将输出到文件(-o)和读取记录信息(-f)

例1: [/home/oracle] sar -u 1 0 -e 16:00:00 >data.txt   //每隔1秒记录CPU的使用情况,直到15点,数据将保存到data.txt文件中。(-e 参数表示结束时间,注意时间格式:必须为hh:mm:ss格式)

Linux 2.6.18-194.el5 (oracle)   10/11/2011

02:20:28 PM       CPU     %user     %nice   %system   %iowait    %steal     %idle
02:20:29 PM       all      0.00      0.00      0.00      0.00      0.00    100.00
02:20:30 PM       all      0.00      0.00      0.00      0.00      0.00    100.00
02:20:31 PM       all      0.00      0.00      0.00      0.00      0.00    100.00
02:20:32 PM       all      0.00      0.00      0.00      0.00      0.00    100.00
02:20:33 PM       all      0.00      0.00      0.00      0.00      0.00    100.00
02:20:34 PM       all      0.00      0.00      0.25      0.00      0.00     99.75
02:20:35 PM       all      0.00      0.00      0.00      0.00      0.00    100.00
02:20:36 PM       all      0.00      0.00      0.00      0.00      0.00    100.00
02:20:37 PM       all      0.25      0.00      0.00      0.00      0.00     99.75
02:20:38 PM       all      0.00      0.00      0.00      0.00      0.00    100.00
Average:          all      0.02      0.00      0.02      0.00      0.00     99.95

在不使用参数的情况下,系统默认打印CPU使用情况

%user:     CPU处在用户模式下的时间百分比。
%system:CPU处在系统模式下的时间百分比。
%iowait:   CPU等待输入输出完成时间的百分比。
%idle:       CPU空闲时间百分比。
在所有的显示中,我们应主要注意%iowait和%idle,%iowait的值过高,表示硬盘存在I/O瓶颈,%idle值高,表示CPU较空闲,如果%idle值高但系统响应慢时,有可能是CPU等待分配内存,此时应加大内存容量。%idle值如果持续低于10,那么系统的CPU处理能力相对较低,表明系统中最需要解决的资源是CPU。

在多CPU Linux系统中,sar命令也可以为每个CPU分解该信息,采用如下命令:sar -u -P ALL 5 5

 [/home/oracle] sar -u -P ALL 5 2
Linux 2.6.18-194.el5 (oracle)   10/11/2011

02:41:20 PM       CPU     %user     %nice   %system   %iowait    %steal     %idle
02:41:25 PM       all      0.00      0.00      0.10      0.00      0.00     99.90
02:41:25 PM         0      0.00      0.00      0.20      0.00      0.00     99.80
02:41:25 PM         1      0.00      0.00      0.00      0.00      0.00    100.00
02:41:25 PM         2      0.20      0.00      0.20      0.00      0.00     99.60
02:41:25 PM         3      0.00      0.00      0.00      0.00      0.00    100.00

02:41:25 PM       CPU     %user     %nice   %system   %iowait    %steal     %idle
02:41:30 PM       all      0.00      0.00      0.05      0.00      0.00     99.95
02:41:30 PM         0      0.00      0.00      0.00      0.00      0.00    100.00
02:41:30 PM         1      0.00      0.00      0.00      0.00      0.00    100.00
02:41:30 PM         2      0.00      0.00      0.00      0.00      0.00    100.00
02:41:30 PM         3      0.00      0.00      0.00      0.00      0.00    100.0


例2: 使用命令 sar -v t n 
 [/home/oracle] sar -v 30 5       //进程、I节点、文件和锁表状态
Linux 2.6.18-194.el5 (oracle)   10/11/2011

02:28:45 PM dentunusd   file-sz  inode-sz  super-sz %super-sz  dquot-sz %dquot-sz  rtsig-sz %rtsig-sz
02:29:15 PM      8675      9690      7119         0      0.00         0      0.00         0      0.00
02:29:45 PM      8676      9690      7119         0      0.00         0      0.00         0      0.00
02:30:15 PM      8677      9690      7119         0      0.00         0      0.00         0      0.00
02:30:45 PM      8684      9690      7126         0      0.00         0      0.00         0      0.00
02:31:15 PM      8685      9690      7126         0      0.00         0      0.00         0      0.00
Average:         8679      9690      7122         0      0.00         0      0.00         0      0.00

dentunusd:在缓冲目录条目中没有使用的条目数量.
file-nr:被系统使用的文件句柄数量.
inode-nr:使用的索引节点数量.
pty-nr:使用的pty数量.

例3: 使用命令 sar -d t n   

 [/home/oracle] sar -d 30 2          //查看设备使用情况
Linux 2.6.18-194.el5 (oracle)   10/11/2011

02:30:33 PM       DEV       tps  rd_sec/s  wr_sec/s  avgrq-sz  avgqu-sz     await     svctm     %util
02:31:03 PM    dev8-0     47.95  12099.97     58.38    253.56      0.08      1.74      1.03      4.95
02:31:03 PM    dev8-1      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
02:31:03 PM    dev8-2      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
02:31:03 PM    dev8-3     47.95  12099.97     58.38    253.56      0.08      1.74      1.03      4.95

02:31:03 PM       DEV       tps  rd_sec/s  wr_sec/s  avgrq-sz  avgqu-sz     await     svctm     %util
02:31:33 PM    dev8-0     38.67   9648.00     62.93    251.14      0.07      1.75      1.01      3.89
02:31:33 PM    dev8-1      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
02:31:33 PM    dev8-2      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
02:31:33 PM    dev8-3     38.67   9648.00     62.93    251.14      0.07      1.75      1.01      3.89

DEV            磁盘设备
用参数-p可以打印出sda,hdc等磁盘设备名称,如果不用参数-p,设备节点则有可能是dev8-0,dev22-0
tps:每秒从物理磁盘I/O的次数.多个逻辑请求会被合并为一个I/O磁盘请求,一次传输的大小是不确定的.
rd_sec/s:每秒读扇区的次数.
wr_sec/s:每秒写扇区的次数.
avgrq-sz:平均每次设备I/O操作的数据大小(扇区).
avgqu-sz:磁盘请求队列的平均长度.
await:从请求磁盘操作到系统完成处理,每次请求的平均消耗时间,包括请求队列等待时间,单位是毫秒(1秒=1000毫秒).
svctm:系统处理每次请求的平均时间,不包括在请求队列中消耗的时间.
%util:I/O请求占CPU的百分比,比率越大,说明越饱


例4: 使用命令 sar -n t n 

 [/home/oracle] sar -n ALL 5 2
Linux 2.6.18-194.el5 (oracle)   10/11/2011

02:52:49 PM     IFACE   rxpck/s   txpck/s   rxbyt/s   txbyt/s   rxcmp/s   txcmp/ s  rxmcst/s
02:52:54 PM        lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00
02:52:54 PM      eth0    127.15    112.57  38894.41  20819.16      0.00      0.00      0.00
02:52:54 PM      eth1      0.00      0.00      0.00      0.00      0.00      0.00      0.00
02:52:54 PM      sit0      0.00      0.00      0.00      0.00      0.00      0.00      0.00

02:52:49 PM     IFACE   rxerr/s   txerr/s    coll/s  rxdrop/s  txdrop/s  txcarr/s  rxfram/s  rxfifo/s  txfifo/s
02:52:54 PM        lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
02:52:54 PM      eth0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
02:52:54 PM      eth1      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
02:52:54 PM      sit0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00

02:52:49 PM    call/s retrans/s    read/s   write/s  access/s  getatt/s
02:52:54 PM      0.00      0.00      0.00      0.00      0.00      0.00

02:52:49 PM   scall/s badcall/s  packet/s     udp/s     tcp/s     hit/s    miss/s   sread/s  swrite/s saccess/s sgetatt/s
02:52:54 PM      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00

02:52:49 PM    totsck    tcpsck    udpsck    rawsck   ip-frag
02:52:54 PM       274        99        41         0         0

02:52:54 PM     IFACE   rxpck/s   txpck/s   rxbyt/s   txbyt/s   rxcmp/s   txcmp/s  rxmcst/s
02:52:59 PM        lo      0.40      0.40     20.00     20.00      0.00      0.00      0.00
02:52:59 PM      eth0    139.00    120.60  47988.20  22587.00      0.00      0.00      0.00
02:52:59 PM      eth1      0.00      0.00      0.00      0.00      0.00      0.00      0.00
02:52:59 PM      sit0      0.00      0.00      0.00      0.00      0.00      0.00      0.00

02:52:54 PM     IFACE   rxerr/s   txerr/s    coll/s  rxdrop/s  txdrop/s  txcarr/ s  rxfram/s  rxfifo/s  txfifo/s
02:52:59 PM        lo      0.00      0.00      0.00      0.00      0.00      0.0 0      0.00      0.00      0.00
02:52:59 PM      eth0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
02:52:59 PM      eth1      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
02:52:59 PM      sit0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00

02:52:54 PM    call/s retrans/s    read/s   write/s  access/s  getatt/s
02:52:59 PM      0.00      0.00      0.00      0.00      0.00      0.00

02:52:54 PM   scall/s badcall/s  packet/s     udp/s     tcp/s     hit/s    miss/s   sread/s  swrite/s saccess/s sgetatt/s
02:52:59 PM      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00

02:52:54 PM    totsck    tcpsck    udpsck    rawsck   ip-frag
02:52:59 PM       274        99        41         0         0

Average:        IFACE   rxpck/s   txpck/s   rxbyt/s   txbyt/s   rxcmp/s   txcmp/ s  rxmcst/s
Average:           lo      0.20      0.20      9.99      9.99      0.00      0.00      0.00
Average:         eth0    133.07    116.58  43436.76  21702.20      0.00      0.00      0.00
Average:         eth1      0.00      0.00      0.00      0.00      0.00      0.00      0.00
Average:         sit0      0.00      0.00      0.00      0.00      0.00      0.00      0.00

Average:        IFACE   rxerr/s   txerr/s    coll/s  rxdrop/s  txdrop/s  txcarr/s  rxfram/s  rxfifo/s  txfifo/s
Average:           lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
Average:         eth0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
Average:         eth1      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
Average:         sit0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00

Average:       call/s retrans/s    read/s   write/s  access/s  getatt/s
Average:         0.00      0.00      0.00      0.00      0.00      0.00

Average:      scall/s badcall/s  packet/s     udp/s     tcp/s     hit/s    miss/s   sread/s  swrite/s saccess/s sgetatt/s
Average:         0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00

Average:       totsck    tcpsck    udpsck    rawsck   ip-frag
Average:          274        99        41         0         0

sar提供四种不同的语法选项来显示网络信息。-n选项使用四个不同的开关:DEV、EDEV、SOCK和FULL。DEV显示网络接口信 息,EDEV显示关于网络错误的统计数据,SOCK显示套接字信息,

FULL显示所有三个开关。它们可以单独或者一起使用。          

字段          说明 
IFACE        LAN接口 
rxpck/s      每秒钟接收的数据包
txpck/s      每秒钟发送的数据包
rxbyt/s       每秒钟接收的字节数
txbyt/s       每秒钟发送的字节数
rxcmp/s    每秒钟接收的压缩数据包
txcmp/s    每秒钟发送的压缩数据包
rxmcst/s   每秒钟接收的多播数据包
 
后面的只针对每一个命令做解释,不做测试

例5:   sar -r 5 5       // 内存和swap空间使用情况
kbmemfree:这个值和free命令中的free值基本一致,所以它不包括buffer和cache的空间.
kbmemused:这个值和free命令中的used值基本一致,所以它包括buffer和cache的空间.
%memused:这个值是kbmemused和内存总量(不包括swap)的一个百分比.
kbbuffers和kbcached:这两个值就是free命令中的buffer和cache.
kbcommit:保证当前系统所需要的内存,即为了确保不溢出而需要的内存(RAM+swap).
%commit:这个值是kbcommit与内存总量(包括swap)的一个百分比.

例6:   sar -B 5 5        // 页交换速率
pgpgin/s:表示每秒从磁盘或SWAP置换到内存的字节数(KB)
pgpgout/s:表示每秒从内存置换到磁盘或SWAP的字节数(KB)
fault/s:每秒钟系统产生的缺页数,即主缺页与次缺页之和(major + minor)
majflt/s:每秒钟产生的主缺页数.
pgfree/s:每秒被放入空闲队列中的页个数
pgscank/s:每秒被kswapd扫描的页个数
pgscand/s:每秒直接被扫描的页个数
pgsteal/s:每秒钟从cache中被清除来满足内存需要的页个数
%vmeff:每秒清除的页(pgsteal)占总扫描页(pgscank+pgscand)的百分比

例7: sar -q 5 5        // 队列的长度(等待运行的进程数)和负载的状态
runq-sz:处于运行或就绪的进程数量
plist-sz:现在进程的总数(包括线程).
ldavg-1:最近一分钟的负载.
ldavg-5:最近五分钟的负载.
ldavg-15:最近十分钟的负载.
平均负载和队列的数据来源于/proc/loadavg

例8: sar -n NFS 5 5  //NFS客户端的监控
call/s:每秒成功的RPC调用都会使call/s的值增长,比如对NFS的一次读/写.
retrans/s:每秒重传的RPC次数,比如因为服务器的问题,产生timeout,这时客户端需要重新传输.
read/s:每秒从NFS服务端读取的次数.
write/s:每秒写入到NFS服务端的次数.
access/s:每秒访问NFS的次数,比如从NFS服务端COPY文件.
getatt/s:每秒获取NFS服务端文件属性的次数,比如ls -l /NFSSERVER/,如果NFSSERVER有300个文件,将产生300次这样的请求.

例9: sar -b 5 5        // IO传送速率
tps:每秒从物理磁盘I/O的次数.多个逻辑请求会被合并为一个I/O磁盘请求,一次传输的大小是不确定的.
rtps:每秒的读请求数
wtps:每秒的写请求数
bread/s:每秒读磁盘的数据块数(in blocks  1 block = 512B, 2.4以后内核)
bwrtn/s:每秒写磁盘的数据块数(in blocks  1 block = 512B, 2.4以后内核)
一般情况下tps=(rtps+wtps)


sar也可以监控非实时数据,通过cron周期的运行到指定目录下
例如:我们想查看本月27日,从0点到23点的内存资源.
sa27就是本月27日,指定具体的时间可以通过-s(start)和-e(end)来指定.
sar -f /var/log/sa/sa27 -s 00:00:00 -e 23:00:00 -r


关于sar的用法太多太复杂,建议先查看主要几个指标如CPU,内存,IO等(理解起累啊,好难得整理)




sar 命令行的常用格式: 
sar [options] [-A] [-o file] t [n] 

在命令行中,n 和t 两个参数组合起来定义采样间隔和次数,t为采样间隔,是必须有 的参数,
n为采样次数,是可选的,默认值是1,
-o file表示将命令结果以二进制格式 存放在文件中,file 在此处不是关键字,是文件名。
options 为命令行选项,

sar命令 的 选项很多,下面只列出常用选项: 
-A:所有报告的总和。 
 -u:CPU利用率 
-v:进程、I节点、文件和锁表状态。 
-d:硬盘使用报告。 
-r:没有使用的内存页面和硬盘块。 
 -g:串口I/O的情况。 
-b:缓冲区使用情况。 
-a:文件读写情 况。 
-c:系统调用情况。 
-R:进程的活动情况。 
-y:终端设备活动情况。 
-w:系统交换活动。 

下 面将举例说明。 

例一:使用命令行 sar -u t n 

例如,每60秒采样一次,连续采样5次,观察CPU 的使用情况,并将采样结果以二进制 
形式存入当前目录下的文件zhou中,需键入如下命令: 

# sar -u -o zhou 60 5 

屏幕显示: 

  SCO_SV   scosysv 3.2v5.0.5 i80386    10/01/2001 
     14:43:50   %usr   %sys  %wio    %idle(-u) 
     14:44:50   0     1    4      94 
     14:45:50   0     2    4      93 
     14:46:50   0     2    2      96 
     14:47:50   0     2    5      93 
     14:48:50   0     2    2      96 
     Average    0     2    4      94 
在显示内容包括: 
  %usr:CPU处在用 户模式下的时间百分比。 
   %sys:CPU处在系统模式下的时间百分比。 
   %wio:CPU等待输入输出完成时间的百分比。 
   %idle:CPU空闲时间百分比。 
在所有的显示中,我们应主要注意%wio和%idle,%wio的值过高,表示硬盘存在 I/O瓶颈,%idle值高,表示CPU较空闲,如果%idle值高但系统响应慢时,有可能是CPU等待分配内存, 此时应加大内存容量。%idle值如果持续低于10,那么系统的CPU处理能力相对较低,表明系统中最需要解决的资源是CPU。 
如果要查看二进 制文件zhou中的内容,则需键入如下sar命令: 
    # sar -u -f zhou 
可见,sar命令即可以实时采样,又可 以对以往的采样结果进行查询。 

例二:使用命行sar -v t n 

例如,每30秒采样一次,连续采样5次,观察核心 表的状态,需键入如下命令: 

# sar -v 30 5 

屏幕显示: 
       SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001 
       10:33:23 proc-sz ov inod-sz ov file-sz ov lock-sz   (-v) 
10:33:53 305/ 321  0 1337/2764  0 1561/1706 0 40/ 128 
10:34:23 308/ 321  0 1340/2764  0 1587/1706 0 37/ 128 
10:34:53 305/ 321  0 1332/2764  0 1565/1706 0 36/ 128 
10:35:23 308/ 321  0 1338/2764  0 1592/1706 0 37/ 128 
10:35:53 308/ 321  0 1335/2764  0 1591/1706 0 37/ 128 

显示内容包括: 

proc-sz:目前核心中正在使用或分配的进程表的表 项数,由核心参数MAX-PROC控制。 

  inod-sz:目前核心中正在使用或分配的i节点表的表项数,由核心参数MAX- INODE控制。 

  file-sz: 目前核心中正在使用或分配的文件表的表项数,由核心参数MAX-FILE控 制。 

   ov:溢出出现的次数。 

  Lock-sz:目前核心中正在使用或分配的记录加锁的表项数,由核心参数MAX-FLCKRE 控 制。 

显示格式为 

实际使用表项/可以使用的表项数 

显示内容表示,核心使用完全正常,三个表没有出现 溢出现象,核心参数不需调整,如果出现溢出时,要调整相应的核心参数,将对应的表项数加大。 

例三:使用命行sar -d t n 
例如,每30秒采样一次,连续采样5次,报告设备使用情况,需键入如下命令: 
# sar -d 30 5 
屏幕显示: 
       SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001 
11:06:43 device %busy   avque   r+w/s  blks/s  avwait avserv (-d) 
11:07:13 wd-0   1.47   2.75   4.67   14.73   5.50 3.14 
11:07:43 wd-0   0.43   18.77   3.07   8.66   25.11 1.41 
11:08:13 wd-0   0.77   2.78   2.77   7.26   4.94 2.77 
11:08:43 wd-0   1.10   11.18   4.10   11.26   27.32 2.68 
11:09:13 wd-0   1.97   21.78   5.86   34.06   69.66 3.35 
Average wd-0   1.15   12.11   4.09   15.19   31.12 2.80 

显示内容包括: 
device: sar命令正在监视的块设备的名字。 
   %busy: 设备忙时,传送请求所占时间的百分比。 
   avque: 队列站满时,未完成请求数量的平均值。 
   r+w/s: 每秒传送到设备或从设备传出的数据量。 
   blks/s: 每秒传送的块数,每块512字节。 
   avwait: 队列占满时传送请求等待队列空闲的平均时间。 
   avserv: 完成传送请求所需平均时间(毫秒)。 

在显示的内容中,wd-0是硬盘的名字,%busy的值比较小,说明用于处理传送请求的有效 时间太少,文件系统效率不高,一般来讲,%busy值高些,avque值低些,文件系统的效率比较高,如果%busy和avque值相对比较 高,说明硬盘传输速度太慢,需调整。 

例四:使用命行sar -b t n 
例如,每30秒采样一次,连续采样5次,报告缓冲区的使用情 况,需键入如下命令: 
# sar -b 30 5 

屏幕显示: 
  SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001 
14:54:59 bread/s lread/s %rcache bwrit/s lwrit/s %wcache pread/s pwrit/s (-b) 
14:55:29 0  147  100  5  21  78   0   0 
14:55:59 0  186  100  5  25  79   0   0 
14:56:29  4  232   98  8  58  86   0   0 
14:56:59 0  125  100  5  23  76   0   0 
14:57:29 0   89  100  4  12  66   0   0 
Average  1  156   99  5  28  80   0   0 

显示内容包括: 
bread/s: 每秒从硬盘读入系统缓冲区buffer的物理块数。 
lread/s: 平均每秒从系统buffer读出的逻辑块数。 
%rcache: 在buffer cache中进行逻辑读的百分比。 
bwrit/s: 平均每秒从系统buffer向磁盘所写的物理块数。 
lwrit/s: 平均每秒写到系统buffer逻辑块数。 
%wcache: 在buffer cache中进行逻辑读的百分比。 
pread/s: 平均每秒请求物理读的次数。 
pwrit/s: 平均每秒请求物理写的次数。 

在显示的内容中,最重要的是%cache 和%wcache两列,它们的值体现着buffer的使用效率,%rcache的值小于90或者%wcache的值低于65,应适当增加系统 buffer的数量,buffer 数量由核心参数NBUF控制,使%rcache达到90左右,%wcache达到80左右。但buffer参 数值的多少影响I/O效率,增加buffer,应在较大内存的情况下,否则系统效率反而得不到提高。 
例五:使用命行sar -g t n 
例 如,每30秒采样一次,连续采样5次,报告串口I/O的操作情况,需键入如下命令: 
# sar -g 30 5 

屏幕显示: 
SCO_SV scosysv 3.2v5.0.5 i80386  11/22/2001 
17:07:03  ovsiohw/s  ovsiodma/s  ovclist/s (-g) 
17:07:33   0.00   0.00   0.00 
17:08:03    0.00   0.00   0.00 
17:08:33   0.00   0.00   0.00 
17:09:03    0.00   0.00   0.00 
17:09:33   0.00   0.00   0.00 
Average    0.00   0.00   0.00 

显示内容包括: 
ovsiohw/s:每秒在串口I/O硬件出现的溢出。 
ovsiodma/s: 每秒在串口I/O的直接输入输出通道高速缓存出现的溢出。 
ovclist/s :每秒字符队列出现的溢出。 
在显示的内容中,每一列的 值都是零,表明在采样时间内,系统中没有发生串口I/O溢 
出现象。 

sar命令的用法很多,有时判断一个问题,需要几个sar 命令结合起来使用,比如,怀疑 CPU存在瓶颈,可用sar -u 和sar -q来看,怀疑I/O存在瓶颈,可用sar -b、sar -u和 
sar-d来看 

Sar 
-A 所有的报告总和 
-a 文件读,写报告 
-B 报告附加的buffer cache使用情况 
-b buffer cache使用情况 
-c 系统调用使用报告 
-d 硬盘使用报告 
-g 有关串口I/O情况 
-h 关于buffer使用统计数字 
-m IPC消息和信号灯活动 
-n 命名cache 
-p 调页活动 
-q 运行队列和交换队列的平均长度 
-R 报告进程的活动 
-r 没有使用的内存页面和硬盘块 
-u CPU利用率 
-v 进程,i节点,文件和锁表状态 
-w 系统交换活动 
-y TTY设备活动 

-a 报告文件读,写报告 
sar –a 5 5 
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/07/2002 
11:45:40 iget/s namei/s dirbk/s (-a) 
11:45:45 6 2 2 
11:45:50 91 20 28 
11:45:55 159 20 18 
11:46:00 157 21 19 
11:46:05 177 30 35 
Average 118 18 20 

iget/s 每秒由i节点项定位的文件数量 
namei/s 每秒文件系统路径查询的数量 
dirbk/s 每秒所读目录块的数量 

*这些值 越大,表明核心花在存取用户文件上的时间越多,它反映着一些程序和应用文件系统产生的负荷。一般地,如果iget/s与namei/s的比值大于5,并且 namei/s的值大于30,则说明文件系统是低效的。这时需要检查文件系统的自由空间,看看是否自由空间过少。 

-m 报告进程间的通信活动(IPC消息和信号灯活动)情况 
sar -m 4 3 
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/13/2002 
13:24:28 msg/s sema/s (-m) 
13:24:32 2.24 9.95 
13:24:36 2.24 21.70 
13:24:40 2.00 36.66 
Average 2.16 22.76 

msg/s 每秒消息操作的次数(包括发送消息的接收信息)。 
sema/s 每秒信号灯操作次数。 
*信 号灯和消息作为进程间通信的工具,如果在系统中运行的应用过程中没有使用它们,那么由sar命令报告的msg 和sema的值都将等于0.00。如果使用了这些工具,并且其中或者msg/s大于100,或者sema/s大于100,则表明这样的应用程序效率比较 低。原因是在这样的应用程序中,大量的时间花费在进程之间的沟通上,而对保证进程本身有效的运行时间必然产生不良的影响。 

-n 报告命名缓冲区活动情况 
sar -n 4 3 
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/13/2002 
13:37:31 c_hits cmisses (hit %) (-n) 
13:37:35 1246 71 (94%) 
13:37:39 1853 81 (95%) 
13:37:43 969 56 (94%) 
Average 1356 69 (95%) 

c_hits cache命中的数量。 
cmisses cache未命中的数量。 
(hit %) 命中数量/(命中数理+未命中数量)。 
*不难理解,(hit %)值越大越好,如果它低于90%,则应该调整相应的核心参数。 

-p 报告分页活动 
sar -p 5 3 
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/13/2002 
13:45:26 vflt/s pflt/s pgfil/s rclm/s (-p) 
13:45:31 36.25 50.20 0.00 0.00 
13:45:36 32.14 58.48 0.00 0.00 
13:45:41 79.80 58.40 0.00 0.00 
Average 49.37 55.69 0.00 0.00 

vflt/s 每秒进行页面故障地址转换的数量(由于有效的页面当前不在内存中)。 
pflt/s 每秒来自由于保护错误出现的页面故障数量(由于对页面的非法存,取引起的页面故障)。 
pgfil/s 每秒通过”页—入”满足vflt/s的数量。 
rclm/s 每秒由系统恢复的有效页面的数量。有效页面被增加到自由页面队列上。 
*如 果vflt/s的值高于100,可能预示着对于页面系统来说,应用程序的效率不高,也可能分页参数需要调整,或者内存配置不太合适。 

-q 报告进程队列(运行队列和交换队列的平均长度)情况 
sar -q 2 3 
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/13/2002 
14:25:50 runq-sz %runocc swpq-sz %swpocc (-q) 
14:25:52 4.0 50 
14:25:54 9.0 100 
14:25:56 9.0 100 
Average 7.3 100 
runq-sz 准备运行的进程运行队列。 
%runocc 运行队列被占用的时间(百分比) 
swpq- sz 要被换出的进程交换队列。 
%swpocc 交换队列被占用的时间(百分比)。 
*如果%runocc大于90,并且runq- sz的值大于2,则表明CPU的负载较重。其直接后果,可能使系统的响应速度降低。如果%swpocc大于20,表明交换活动频繁,将严重导致系统效率下 降。解决的办法是加大内存或减少缓存区数量,从而减少交换及页—入,页—出活动。 

-r 报告内存及交换区使用情况(没有使用的内存页面和硬盘块) 
sar -r 2 3 
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/14/2002 
10:14:19 freemem freeswp availrmem availsmem (-r) 
10:14:22 279729 6673824 93160 1106876 
10:14:24 279663 6673824 93160 1106876 
10:14:26 279661 6673824 93160 1106873 
Average 279684 6673824 93160 1106875 

freemem 用户进程可以使用的内存页面数,4KB为一个页面。 
freeswp 用于进程交换可以使用的硬盘盘块,512B为一个盘块。 

-w 系统交换活动 
sar -w 2 3 
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/14/2002 
11:22:05 swpin/s bswin/s swpot/s bswots pswch/s (-w) 
11:22:07 0.00 0.0 0.00 0.0 330 
11:22:09 0.00 0.0 0.00 0.0 892 
11:22:11 0.00 0.0 0.00 0.0 1053 
Average 0.00 0.0 0.00 0.0 757 

swpin/s 每秒从硬盘交换区传送进入内存的次数。 
bswin/s 每秒为换入而传送的块数。 
swpot/s 每秒从内存传送到硬盘交换区的次数。 
bswots 每秒为换出而传送的块数。 
pswch/s 每秒进程交换的数量。 
*swpin/s,bswin/s,swpot/s和bswots描述的是与硬盘交换区相关的交换活动。交换关系到系统 的效率。交换区在硬盘上对硬盘的读,写操作比内存读,写慢得多,因此,为了提高系统效率就应该设法减少交换。通常的作法就是加大内存,使交换区中进行的交 换活动为零,或接近为零。如果swpot/s的值大于1,预示可能需要增加内存或减少缓冲区(减少缓冲区能够释放一部分自由内存空间)。 

-y 报告终端的I/O活动(TTY设备活动)情况 
sar -y 2 3 
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/14/2002 
11:38:03 rawch/s canch/s outch/s rcvin/s xmtin/s mdmin/s (-y) 
11:38:05 5 0 951 0 1 0 
11:38:07 10 0 996 0 0 0 
11:38:09 4 0 2264 0 0 0 
Average 6 0 1404 0 1 0 

rawch/s 每秒输入的字符数(原始队列) 
canch/s 每秒由正则队列(canonical queue)处理的输入字符数。进行正则处理过程中,可以识别出一些有特殊意义的字符。比如,(中断字符),(退出符),(退格键)等。因 此,canch/s中的计数不包括这些有特殊意义的字符。 
outch/s 每秒输出的字符数。 
rcvin/s 每秒接收的硬件中断次数。 
xmtin/s 每秒发出的硬件中断次数。 
mdmin/s 每秒modem中断次数。 
*应该特别 说明,sar命令可以对任意终端活动进行统计,所谓任意终端,是指任意tty设备。它们可以是串行终端,主控台,伪终端等等。 
*在这几个量 中,modem中断次数mdmin/s应该接近0。其它没有特殊要求,但如果每发送一个字符,中断的数量就动态地增加,这表明终端线出了差错,可能是接触 不好。

http://blog.chinaunix.net/u/27852/showart_216753.html
阅读(4793) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~