HPUX性能优化工具的使用 (2) -妙水使-ChinaUnix博客

妙水使的ChinaUnix博客

首页　| 　博文目录　| 　关于我

妙水使

博客访问： 239286
博文数量： 51
博客积分： 0
博客等级：民兵
技术积分： 211
用户组：普通用户
注册时间： 2013-08-05 23:07

文章分类

全部博文（51）

其它（4）
网络/SAN（7）
hpux（27）
linux（10）
未分配的博文（3）

文章存档

2016年（11）

2015年（14）

2014年（4）

2013年（22）

我的朋友

bawwtqmh

性能监测工具

HPUX中很多种不同的性能工具。有些工具提供实时的性能信息，其他还有一些在后台收集信息供后续的分析。还有一些工具允许系统参数被调整优化。

这一章节的目的是简介各个工具是如何工作的，可以作为选择工具的一个快速的参考。

注意：这里不包括如何解释工具的输出

标准的UNIX工具

标准的工具是在UNIX base系统上常见的工具，使用标准工具的优点是可以和其他平台上相应工具的结果进行对比。

HPUX特有工具

HPUX特有工具是由HP开发的。这些工具通常在其他UNIX平台上是没有的。这样的工具包括像Glance,Measureware,PerfView,NNM和ITO。

注意：本文档中不包含对HPUX特有工具的介绍

sar

Sar = System Activity Reporter

Sar工具用来收集一段时间的性能数据（常在cron job中使用），或是实时显示。

当用来采集一段时间的数据时，常用的是sar相关的命令，sa1和sadc. Sadc是真正用来收集数据的程序，sa1实际上是一个前端程序，每隔几秒种，重复n次来调用sadc.

采样性能数据时，sar对kernel中的变量（也叫计数器）进行采样，包括了资源的请求数、资源的IO访问数、队列长度等。

Sar命令的报告通常用于观察系统中在发生什么，瓶颈在哪里。

sar – 采样数据

sar对指定周期内的数据采样，可以在crontab里定期进行，也可以由用户发起。

通过crontab来进行，有助于分析一个长期的系统状态。有两种可能的方式：sadc或是sa1.

sadc每隔t秒，进行n次，来收集数据，并输出到一个二进制的文件(ofile). 如果输出文件名没有指定，就输出到标准输出(也就是终端屏幕上)。如果t和n也没有指定，sadc会写一条特定的记录，用来在系统启动时标记计数器归零的时间。

sa1用t和n参数调用sadc，把输出结果写到/usr/adm/sa/sadd中，其中dd是当时的日期。如果t和n没有指定，sa1会传递t=1,n=1.

sar命令可以按照时间间隔采样，输出到文件中（如果指定了），在标准输出上显示报告。如果n参数没指定，就只采样一次。

sar – 报告数据

数据收集到以后，有不同的方式来生成报告。如果要自动做，可以用sa2在crontab里运行。sa2是一个脚本程序，调用sar命令，通过较早前收集并存放在/var/adm/sa/sardd的二进制文件生成报告。具体是哪一种类型的报告，通过选项来确定(-ubdyswaqvmA). 同样地，时间区域可以通过指定开始时间(-s time)与结束时间(-e time)来确定。时间间隔也可以用(-I seconds)来指定，这个间隔可以与收集数据时的时间间隔不同。

用sar命令可以交互式地完成，与sa2的选项相同，再加上(-f file)来指定输入文件。如果没有指定输入文件，默认采用/var/adm/sa/sadd. 报告会输出到标准输出上。

sar – 命令的调用

Sample crontab entries:

0 * * * 0,6 /usr/lbin/sa/sa1

0 8-17 * * 1-5 /usr/lbin/sa/sa1 1200 3

0 18-7 * * 1-5 /usr/lbin/sa/sa1

User invocation:

# sar -A -o sar.out 1 3600>/dev/null &

# sar -b -f sar.out

上面的crontab条目可以生成供后续分析的二进制文件，例子里列出来的情况会在每个周六与周日的整点，工作日的工作时间内每20分钟，工作日的下班时间内每小时来收集数据。

第一行用户调用的例子会每秒收集数据，时长为1小时，将输出结果写到sar.out中，是二进制的格式。因为命令会同时输出到标准输出上，所以把它重定向到/dev/null，在后台运行。

第二行用户调用的例子会生成一个buffer 活动的报告，数据源是前一个例子里生成的文件。

sar – CPU利用率

? sar -u

? %usr = time spent in user mode

? %sys=time spent in system mode

? %wio=time spent in block, raw, and virtual memory management I/O

? %idle=CPU time not being used

? sar -uM: option for multiprocessor platforms.

sar –u会报告CPU的整体利用率。它报告在用户模式下CPU的时间(%usr),系统模式下(%sys),块设备、裸设备和虚拟内存管理的IO(%wio),还有其他的空闲时间(%idle). 每行显示一个时间间隔内的数据，最后会有一行平均值。

先看%idle是不是接近0. 如果%idle接近0，就看%wio是不是大于7. 如果是的话，就要研究是不是有IO的瓶颈。

如果%wio很低，但是%idle并不是0，就要研究%usr和%sys。如果大部分时间用在%usr,可能是用户应用引起的CPU瓶颈。这些应用要检查一下为什么占这么多CPU时间。如果是%sys占用了大部分时间，就要分析系统为什么占用这么多时间。其他的可能性，比如说太多磁盘swapping操作，可能用很多系统时间。

在多CPU环境加上-M选项。

sar – CPU利用率的例子

07:00:01	%usr	%sys	%wio	%idle
08:00:01	8	5	6	82
09:00:01	7	20	43	31
10:00:01	4	11	19	67
11:00:01	9	10	47	34
12:00:01	1	3	1	95
13:00:01	1	3	2	95
Average	5	9	20	67
Suggested Ratios	60	25	0	15

这个例子中，从07:00AM到01:00PM每小时收集一次数据。输出是通过cron生成的。sar需要大概2%的负载来完成这样的事。

建议的比率是一个粗略的估算，太高的比率通常指示下列性能瓶颈。

%usr: CPU 瓶颈

%sys: 内存瓶颈 (paging and/or swapping is occurring)

%wio I/O 瓶颈 (external disk access, read/write to tape)

所谓’瓶颈’可能是一个暂时的现象，比如说备份到磁带上时%wio比较高。许多时候合理地安排对性能有强需求的事务可以解决性能问题，比如安排在晚上用户数少的时候进行备份。

sar – 磁盘的活动

? sar -d

? %busy=portion of time a device was servicing transfer request(s)

? avque=average number of requests outstanding

? avwait vs. avserv

sar –d报告每个硬盘或磁带驱动器块设备的活动(黄金甲按：原文如此，存疑，裸设备的利用率是可以看到的). 它显示设备文件名，忙于传输请求的时间(%busy),在这个期间outstanding的请求的数目(avque),每秒钟数据传输的数据(r+w/s),传数的数据量的大小,以512字节的块为单位(blks/s),在队列中等待的平均时间，以毫秒为单位(avwait),提供服务的时间，以毫秒为单位（avserv）.

如果一个硬盘设备的%busy>50,就存在硬盘的瓶颈。如果avwait>avserv,也说明有硬盘的瓶颈。 avque指示有多少任务在队列中等待。

在观察sar –d输出时，一个优化的系统应该显示不同硬盘之间的负载比较均衡。

sar – 磁盘的活动的例子

15:31:55	device	%busy	avque	r+w/s	blks/s	avwait	avserv
15:32:00	c0t5d0	85	2.9	31	248	51	27.2
15:32:05	c0t6d0	1	1.2	0	1	5	30
15:32:05	c0t5d0	84	3.4	29	232	71.3	29.3
15:32:10	c0t6d0	0	1	0	1	5	30
15:32:10	c0t5d0	89	3.5	31	245	74.1	29.1
15:32:15	c0t5d0	82	2.7	30	242	47	27.2
15:32:20	c0t5d0	82	2.8	29	235	51.7	28
Average	c0t6d0 c0t5d0	0	1.1	0	0	3.3	23.3
Average	c0t6d0 c0t5d0	85	3.1	30	30	58.9	28.1

这个例子显示的是用-d选项来运行sar命令。每5秒收集一次，共20秒。

例中，第一个硬盘非常繁忙，而第二块硬盘则很空闲。所以第一块硬盘存在瓶颈。这是一个很好的负载不均衡的例子。

IO瓶颈的指示可以归纳为：

%busy >50

avwait > avserv

sar – buffer activity

? sar -b

? %rcache=read cache hit ratio

? %wcache=write cache hit ratio

? pread/s & pwrit/s are generally obsolete due to the lack of dumb terminal use

sar –b报告系统缓冲区的情况。提供了每秒传送的数据块的数量(bread/s,bwrit/s)，每秒对缓冲区读写的数量(lread/s,lwrit/s),cache命中率%rcache=(1-bread/lread)*100, %wcache=(1-bwrit/lwrit)*100),每秒以raw模式传送的数量(pread/s,pwrit/s). pread/s和pwrite/s还可以用来指示裸设备的访问，数据库经常会选择使用裸设备。

主要关注的参数是%rcache和%wcache. 要想获得理想的性能，%rcache要高于90，%wcache高于70。

sar – buffer activity例子

###	bread/s	lread/s	%rcache	bwrit/s	lwrit/s	%wcache
15:31:55	0	286	100	24	93	74
15:32:00	0	114	100	20	57	65
15:32:05	0	467	100	34	129	74
15:32:10	0	114	100	2	22	92
15:32:15	2	430	100	39	148	73
Average	1	282	100	24	90	76

本例中，有很好的cache命中率。对于进行很多随机IO操作，或是buffer cache很少的系统，这些比率可能会比较低。

指示IO瓶颈的一个快速参考是：

? %rcache < 90

? %wcache < 70

sar – swapping activity

? sar -w

? swpin/s & bswin/s= units transferred by swapins per second

? swpot/s & bswot/s= units transferred by swapouts per second

显示以block为单位(512字节)每秒传输的swapin(swpin/s,bswins/s)和swapout（swpot/s,bswot/s），还有每秒钟进程切换的数量(pswch/s).

swpot/s大于0就需要继续分析

sar – swapping activity的例子

	Swpin/s	Bswin/s	Swpot/s	Bswot/s	Pswch/s
###	7.7	90	45	2304.7	1327
###	22	272	23	1190	1307
###	29	483	16	760	1519
###	24	490	15	769	1345
###	27	590	18	990	1681
Average	22	385	24	1202	1436

本例中，平均每秒有22个进程swapin,24个进程swapout，还有很高的进程切换。这说明内存很紧张。内存的使用情况需要被关注，这个例子里是有程序使用了大量数据空间(大形的阵列)造成了瓶颈。

要是主机内存很充沛，上面swpin/s,bswin/s,swpot/s和bswot/s都会是0. 适当的进程切换是可以接受的，比如说小于50.

指示内存瓶颈的指标是：

swpout/s > 0

sar – 队列长度

? sar -q

? runq-sz=length of the run queue

? %swpocc=percentage of time the swap queue was occupied

这个选项给出运行队列的长度(runqsz),运行队列被占用时间的百分比(%runocc),swap队列的长度（在swap设备上准备运行的进程的数量）(swpq-sz),还有swap队列被占用时间的百分比（%swpocc）.

这些数值都是越小越好。如果run-sz大于4或是%swapocc大于5，sar –q的输出就需要和sar –w的输出对照分析

sar – 队列长度的例子

15:00:10	runq-sz	%runocc	swpq-sz	%swpocc
15:01:10	42.6	100	17.8	60
15:02:10	41.5	101	21	101
15:03:10	43.2	99	23.3	99
15:04:10	35.7	100	31.4	100
15:05:10	43.1	103	40.3	102
15:06:10	36.8	99	42.9	99

本例中，有大量进程在运行队列中，队列的占用率接近100%。这说明主机内存紧张，正在进行过度的swapping. 大量的swapping操作也会使得sar –u的输出中%sys偏高。

内存充足的系统中，swpq-sz和%swpocc接近空值。适度的运行队列长度是可以接受的（<5）

指示内存瓶颈的指标：

? runq-sz > 4 (across all CPUs)

? %swpocc > 5 (across all CPUs)

sar – 系统调用 System Call

? sar -c

? scall/s=number of system calls per second

? fork/s=number of fork/vfork system calls per second

? exec/s=number of execs per second

它给出每秒进行的系统调用的次数(scall/s),读系统调用的次数(sread/s),写系统调用的次数(swrit/s),fork与vfork操作的次数(fork/s),exec调用的次数(exec/s),读写调用的字符数量(rchar/s,wchar/s).

如果系统调用的总数很高，需要进行分析，因为这会造成CPU的%sys变高。通过观察fork/s和exec/s可以看到时系统中生成的进程数。

sar – 系统调用的例子

1:29:48	scall/s	sread/s	swrit/s	fork/s	exec/s	rchar/s	wchar/s
1:29:53	116	13	41	0	0	373965	18432
1:29:58	68	10	42	0	0	614	0
1:30:03	69	10	41	0	0	7168	4096
1:30:08	67	10	41	0	0	819	0
1:30:13	67	10	41	0	0	1843	0
Average	77	11	41	0	0	76882	4506

本例中，每25秒收集一次数据。平均的系统调用数为77(scall/s),这是一个中等的数字。另外，没有新的进程生成(fork/s和exec/s).

rchar/s和wchar/s在今天已经基本没用了。这一区域一般是与哑终端相关

指示CPU瓶颈的指标：

? scall/s > 3000

? fork/s

? exec/s

sar – 系统表 System Tables

? sar -v

? The only tool (other than HP GlancePlus/UX that reports on system tables.

? ov = overflows

这是除了Glance之外唯一可以报告系统表的工具，显示主要的系统表的大小和占用的条目。它给出文本表的已占用条目数/大小(text-sz),采样时间内溢出的数目(ov),进程表空间的已占用条目数/大小(proc-sz和ov),还有inode表相关的(inod-sz和ov).

如果存在溢出的情况，控制台上与syslog.log中会有报错信息。用sar工具，可以观察不同时间段内各种表的占用情况。

sar – 系统表 System Tables的例子

0:00:00	text-sz	ov	proc-sz	ov	inod-sz	ov	file-sz	ov
1:00:00	29/76	0	75/276	0	137/356	0	113/590	0
2:00:00	27/76	0	75/276	0	138/356	0	113/590	0
3:00:00	28/76	0	75/276	0	135/356	0	113/590	0
4:00:00	29/76	0	75/276	0	142/356	0	117/590	0
5:00:00	29/76	0	75/276	0	148/356	0	113/590	0
6:00:00	30/76	0	79/276	0	144/356	0	121/590	0

本例中，基本上所有的表都没用到一半。

如果存在溢出overflow,ov会大于0。

sar – 文件访问的报告

? sar -a

? iget/s=number of file system iget() calls per second

? namei/s=number of file system lookuppn() (pathname translation) calls per second

? dirblk/s=number of file system blocks read per second doing directory lookup

给出每秒执行iget例程的数量(iget/s) (这时读了多少inode);vfs_lookup例程被调用的数量(namei/s,就是路径解析的数量)，还有目录块被读取的数量(dirbk/s).

sar – Message与信号量(semaphore)的报告

? sar -mS

? msg/s=Number of System V msgrcv() calls per second.

? sema/s=Number of System V semop() calls per second.

? select/s=Number of System V select() calls per second. Requires "-S" option.

它给出每秒钟通过进程间message机制传送的message数量(msg/s)和进程间通信的semphore的数量(sema/s). sema/s值在semop()例程中被增加，这个例程是用来获取和释放semaphore的。所以，这个值至少是semaphore数量的两倍。

sar – 其他选项

? sar -y: tty device activity

? sar -A: reports ALL data options

sar –y报告tty设备的活动。It reports on the input character rate (rawch/s), the input character rate processed by canon (canch/s), the output character rate (outch/s), the characters presented by mux (rcvin/s), and the number of output characters processed and passed on to the mux (xmtin/s).

sar –A报告所有数据，相当于把其他的所有选项都选上。

阅读(2308) | 评论(0) | 转发(0) |

上一篇：HPUX性能优化工具的使用 (1)

下一篇：HPUX性能优化工具的使用 (3)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6