Solaris内存监控
 
Solaris内存主要用在以下几个方面:核心,进程,文件系统缓存。如下是监控内存使用的方法。

可用系统物理内存 

分配给Solaris核心的内存数量 

文件系统缓存使用的内存数量 

进程使用的内存数量 

系统剩余的内存数量

Total Physical Memory

使用prtconf命令,察看系统物理内存数量。

prtconf | head -2

System Configuration: Sun Microsystems sun4u

Memory size: 49152 Megabytes

Kernel Memory

使用sar –k察看系统核心占用的内存,如下3个内存池之和即是,单位byte

sar -k 1 1

SunOS lonespappb33 5.8 Generic_117350-13 sun4u 11/28/05

05:39:26 sml_mem alloc fail lg_mem alloc fail ovsz_alloc fail

05:39:28 483386752 202156800 0 4400701440 2886180864 0 656105472 0

File System Caching Memory

文件系统缓存使用系统可用的剩余内存缓存文件。在Solaris上,可用的剩余内存(free memory)大部分情况下总是接近0;Solaris8之前,vmstat 显示的free列表示可用的剩余内存,往往在系统启动(booted)的时候很高,随着系统运行慢慢降低为0,这是正常的,因为文件系统缓存的设计目的就是最大化利用系统可用内存来缓存最经常访问的文件。

在Solaris8中,vmstat 显示的free是系统可用的剩余内存(free memory)和可pageable的文件系统缓存(file system cache memory),man的解释:free size of the free list (Kbytes) 。文件系统缓存也挂在内存Free List上。

vmstat 1 5

procs memory page disk faults cpu

r b w swap free re mf pi po fr de sr s0 s1 s2 s3 in sy cs us sy id

0 1 0 62618064 33156520 5220 0 1144 0 0 0 0 0 1 0 0 8093 47291 1895 9 7 85

如上Solaris 8,vmstat 结果表示,文件系统缓存占用了将近33156520k内存。

Free Memory

由于文件系统缓存总是尽量利用可用的剩余内存缓存文件,因此大部分情况下Free memory总是接近0.

Memory Shortage Detection

系统运行时会不断的page in page out;繁忙的paging操作,可导致Page Scaner运行频繁,因此伴随有较高的scan-rage(sr)和page-out(po);这可以作为系统繁忙paging 的表示。

如果有进程被swap(w>0),则通常表示内存短缺,这时候往往swap设备的IO比较繁忙。

Swap Space

Solaris 交换空间(swap space)有2个重要的状态:保留(swap reservation)和分配(physical swap allocation). 

保留(swap reservation)是指Process创建segment的时候,系统分配给Process虚拟的内存地址空间(virtual memory address space),同时为了保证该segment以后可以被page out到swap,分配给Process与该segment同样大小的虚拟交换空间(virtual swap space). 

例如,process创建一个100M的segment,系统会分配给该process100M的virtual memory address space,但不会分配给process物理内存(physical memory);同时在Swap space中预先保留(reservation)100M虚拟交换空间(virtual swap space). 

分配(physical swap allocation)是指segment driver给process segment分配物理内存时,预先为swap reservation区分配同样大小的物理交换空间(physical swap space),用来page-out.

例如,process在已有100M的virtual memory address space基础上,通过trap/page-fault/zero-fill-on-demand分配到10M的物理内存;同时会为预先保留(reservation)的100M虚拟交换空间(virtual swap space)分配10M物理swap space.

Virtual Swap Space

系统虚拟交换空间的数量为物理磁盘交换空间大小(disk swap space)+Solaris在内存中分配的交换空间大小(memory swap space).使用swap –s察看虚拟交换空间信息。

$ swap -s

total: 929688k bytes allocated + 57408k reserved = 987096k used, 17715000k available

Physical Swap Space

系统物理交换空间的数量为/etc/vfstab中配置的磁盘交换空间大小。使用swap –l察看。

$ swap -l

swapfile dev swaplo blocks free

/dev/vx/dsk/swapvol 230,6 16 25165808 25165808

必须确保swap –s和swap –l 的available & free 非0,否则将无法分配虚拟交换内存或者物理交换内存;

此时,Oracle通常会遇见ORA-4030和ORA-12500错误。

可计算memory swap space: 987,096k+17,715,000k-25165808/2k=6,119,192k

Process Memory Usage , ps, and pmap

进程的内存也可分为2种,虚拟内存使用和物理内存使用。进程虚拟内存是指已经分配给进程的虚拟地址空间(virtual address space);物理内存是指分配给进程的真实的物理内存(real physical memory pages)数量。

Ps的vsz表示虚拟内存,rss表示物理内存

$ ps -opid,vsz,rss,args

PID VSZ RSS COMMAND

27495 1912 1016 –ksh
 
 
 
 
=======================================================================
 
solaris查看内存使用情况命令
 
1>ps -efo pmem,uid,pid,ppid,pcpu,comm | sort -r
用PS命令的-o选项来实现,这些选项有:user ruser group rgroup uid ruid gid rgid pid ppid pgid sid taskid ctid pri opri pcpu pmem vsz rss osz nice class time etime stime zone zoneid f s c lwp nlwp psr tty addr wchan fname comm args projid project pset
具体的意思可以man ps来查看。
 
查看solaris内存使用情况,按占用内存大小排序 
ps -efo pmem,uid,pid,ppid,pcpu,comm | sort -r
 
pmem   The ratio of the process's resident  set size  to  the  physical  memory  on 
       the machine, expressed as a percentage.
 
如果你不知道这个命令都带有什么选项, ps help即可。
 
2> # prtconf -vp | grep Mem
prtconf 命令在/usr/sbin下,这个命令可以得到总内存。其实也不用这么麻烦,top命令看到的信息更多。
 
3> echo ::memstat | mdb -k
例如:
# echo ::memstat | mdb -k
Page Summary                Pages                MB  %Tot
------------     ----------------  ----------------  ----
Kernel                      75297               588    7%
Anon                       888409              6940   86%
Exec and libs               28196               220    3%
Page cache                  15958               124    2%
Free (cachelist)            17993               140    2%
Free (freelist)              3162                24    0%
Total                     1029015              8039
Physical                  1026087              8016
 
具体解释:
Kernel: Kernel pages
Anon: anonymous pages (such as stack, heap, shared mem etc)
Exec and libs: executables and libraries 
Page cache:  file cache
Free (cachelist) + Free (freelist) = freemem(vmstat 中的free值)
这个命令运行起来时间比较长。
 
4>prstat -a
 *PID      :进程的进程 ID。
 *USERNAME :真实用户(登录)名称或真实用户 ID。
 *SIZE     :进程的总虚拟内存大小,以 K、M 或 G 为单位。
 *RSS      :进程的驻留集大小 (RSS),以 K、M 或 G 为单位。(RSS是进程驻留内存的大小,SIZE是进
             程总共的大小。一般SIZE要大于RSS,至于SIZE大于RSS的部分就放到了SWAP区里了)
 *STATE    :进程的状态 (cpuN/sleep/wait/run/zombie/stop)。
 *PRI      :进程的优先级。数字更大表示优先级更高。
 *NICE     :优先级计算中使用的 nice 值。只有特定调度类中的进程才有 nice 值。
 *TIME     :进程的累计执行时间。
 *CPU      :进程使用的当前 CPU 时间的百分比。如果在非全局域中执行并且池设备是活动的,百分比将
             zone绑定的池所使用的处理器集合中处理器的百分比。
 *PROCESS  :进程的名称(执行文件的名称)。
 *NLWP     :进程中 lwps 的数量
 
中间还有个参数:系统平均负载(Load average)在Linux系统中,uptime、w、top等命令都会有系统平均负载load average的输出.
命令输出的最后内容表示在过去的1、5、15分钟内运行队列中的平均进程数量。 只要每个CPU的当前活动进程数不大于3那么系统的性能就是良好的,如果每个CPU的任务数大于5,那么就表示这台机器的性能有严重问题。load average/cpu_num< 3 就是性能不错的。
顺便提一下,多个CPU状态查看命令:mpstat
 
5>vmstat 3 4
看vmstat的输出时,从第2行开始看,如果sr列数值比较大,就表明内存紧张。

 
6>top
 
7>sar -r 5 5 
sar -r标示的freemem显示的是空闲的页面数,而不是用k来衡量的,它表示的数值与vmstat差不多。
它们显示的free memory都还包括高速文件缓存占用的的内存,并不是真正没有使用的内存。

比如:vmstat显示的内存有152528k,sar -r显示的是18933个pages,一个page大约8k,用18933乘以8,还是差不多150M.但实际上呢,真正意义上空闲的内存只有6个M(用专门的memtool测量的),而不是152M。

 

 

1.top

使用权限:所有使用者

使用方式:top [-] [d delay] [q] [c] [S] [s] [i] [n] [b]

说明:即时显示process的动态

d :改变显示的更新速度,或是在交谈式指令列( interactive command)s

q :没有任何延迟的显示速度,如果使用者是有superuser的权限,则top将会以最高的优先序执行

c :切换显示模式,共有两种模式,一是只显示执行档的名称,另一种是显示完整的路径与名称S :累积模式,会将己完成或消失的子行程( dead child process )CPU time累积起来

s :安全模式,将交谈式指令取消,避免潜在的危机

i :不显示任何闲置(idle)或无用(zombie)的行程

n :更新的次数,完成后将会退出top

b :批次档模式,搭配"n"参数一起使用,可以用来将top的结果输出到档案内

 

范例:

显示更新十次后退出;

top -n 10

 

使用者将不能利用交谈式指令来对行程下命令:

top -s

 

将更新显示二次的结果输入到名称为top.log的档案里:

top -n 2 -b < top.log   

另附一个命令简介 traceroutewindows tracert两个命令相当,跟踪网络路由

 

2.vmstat

正如我们之前讨论的任何系统的性能比较都是基于基线的,并且监控CPU的性能就是以上3点,运行队列、CPU使用率和上下文切换。以下是一些对于CPU很普遍的性能要求:

1.对于每一个CPU来说运行队列不要超过3,例如,如果是双核CPU就不要超过6

2.如果CPU在满负荷运行,应该符合下列分布,

a) User Time65%70%

b) System Time30%35%

c) Idle0%5%

3. mpstat

对于上下文切换要结合CPU使用率来看,如果CPU使用满足上述分布,大量的上下文切换也是可以接受的。

常用的监视工具有:vmstat, top,dstatmpstat.

# vmstat 1

procs -----------memory---------- ---swap-- -----io---- --system-- ----cpu----

r b swpd free buff cache si so bi bo in cs us sy id wa

0 0 104300 16800 95328 72200 0 0 5 26 7 14 4 1 95 0

0 0 104300 16800 95328 72200 0 0 0 24 1021 64 1 1 98 0

0 0 104300 16800 95328 72200 0 0 0 0 1009 59 1 1 98 0

r表示运行队列的大小,

b表示由于IO等待而block的线程数量,

in表示中断的数量,

cs表示上下文切换的数量,

us表示用户CPU时间,

sys表示系统CPU时间,

wa表示由于IO等待而是CPU处于idle状态的时间,

id表示CPU处于idle状态的总时间。

dstat可以给出每一个设备产生的中断数:

# dstat -cip 1

----total-cpu-usage---- ----interrupts--- ---procs---

usr sys idl wai hiq siq| 15 169 185 |run blk new

6 1 91 2 0 0| 12 0 13  | 0 0 0

1 0 99 0 0 0| 0    0  6 | 0 0 0

0 0 100 0 0 0| 18 0  2 | 0 0 0

0 0 100 0 0 0| 0    0  3 | 0 0 0

我们可以看到这里有3个设备号15169185.设备名和设备号的关系我们可以参考文件/proc/interrupts,这里185代表网卡eth1.

# cat /proc/interrupts

CPU0

0: 1277238713 IO-APIC-edge timer

6: 5 IO-APIC-edge floppy

7: 0 IO-APIC-edge parport0

8: 1 IO-APIC-edge rtc

9: 1 IO-APIC-level acpi

14: 6011913 IO-APIC-edge ide0

15: 15761438 IO-APIC-edge ide1

169: 26 IO-APIC-level Intel 82801BA-ICH2

185: 16785489 IO-APIC-level eth1

193: 0 IO-APIC-level uhci_hcd:usb1

mpstat可以显示每个CPU的运行状况,比如系统有4CPU。我们可以看到:

# mpstat –P ALL 1

Linux 2.4.21-20.ELsmp (localhost.localdomain) 05/23/2006

05:17:31 PM CPU %user %nice %system %idle intr/s

05:17:32 PM all 0.00 0.00 3.19 96.53 13.27

05:17:32 PM 0 0.00 0.00 0.00 100.00 0.00

05:17:32 PM 1 1.12 0.00 12.73 86.15 13.27

05:17:32 PM 2 0.00 0.00 0.00 100.00 0.00

05:17:32 PM 3 0.00 0.00 0.00 100.00 0.00

总结的说,CPU性能监控包含以下方面:

检查系统的运行队列,确保每一个CPU的运行队列不大于3.

确保CPU使用分布满足70/30原则(用户70%,系统30%)。

如果系统时间过长,可能是因为频繁的调度和改变优先级。

CPU Bound进程总是会被惩罚(降低优先级)而IO Bound进程总会被奖励(提高优先级)。

 

4.prstat命令

要显示系统上当前运行的进程和项目的各种统计信息,请使用带有-J选项的prstat命令:

 

%prstat -J

        PID USERNAME SIZE  RSS STATE PRI NICE     TIME CPU PROCESS/NLWP

 21634 jtd     5512K 4848K cpu0   44   0  0:00.00 0.3% prstat/1

  324 root      29M  75M sleep  59   0  0:08.27 0.2% Xsun/1

 15497 jtd       48M  41M sleep  49   0  0:08.26 0.1% adeptedit/1

  328 root    2856K 2600K sleep  58   0  0:00.00 0.0% mibiisa/11

 1979 jtd     1568K 1352K sleep  49   0  0:00.00 0.0% csh/1

 1977 jtd     7256K 5512K sleep  49   0  0:00.00 0.0% dtterm/1

  192 root    3680K 2856K sleep  58   0  0:00.36 0.0% automountd/5

 1845 jtd       24M  22M sleep  49   0  0:00.29 0.0% dtmail/11

 1009 jtd     9864K 8384K sleep  49   0  0:00.59 0.0% dtwm/8

  114 root    1640K 704K sleep  58   0  0:01.16 0.0% in.routed/1

  180 daemon  2704K 1944K sleep  58   0  0:00.00 0.0% statd/4

  145 root    2120K 1520K sleep  58   0  0:00.00 0.0% ypbind/1

  181 root    1864K 1336K sleep  51   0  0:00.00 0.0% lockd/1

  173 root    2584K 2136K sleep  58   0  0:00.00 0.0% inetd/1

  135 root    2960K 1424K sleep   0   0  0:00.00 0.0% keyserv/4

PROJID   NPROC SIZE  RSS MEMORY     TIME CPU PROJECT

   10      52 400M 271M   68%  0:11.45 0.4% booksite

    0      35 113M 129M   32%  0:10.46 0.2% system

 

Total: 87 processes, 205 lwps, load averages: 0.05, 0.02, 0.02

要显示系统上当前运行的进程和任务的各种统计信息,请使用带有-T选项的prstat命令:

 

%prstat -T

  PID USERNAME SIZE  RSS STATE PRI NICE     TIME CPU PROCESS/NLWP

 23023 root      26M  20M sleep  59   0  0:03:18 0.6% Xsun/1

 23476 jtd       51M  45M sleep  49   0  0:04:31 0.5% adeptedit/1

 23432 jtd     6928K 5064K sleep  59   0  0:00:00 0.1% dtterm/1

 28959 jtd       26M  18M sleep  49   0  0:00:18 0.0% .netscape.bin/1

 23116 jtd     9232K 8104K sleep  59   0  0:00:27 0.0% dtwm/5

 29010 jtd     5144K 4664K cpu0   59   0  0:00:00 0.0% prstat/1

  200 root    3096K 1024K sleep  59   0  0:00:00 0.0% lpsched/1

  161 root    2120K 1600K sleep  59   0  0:00:00 0.0% lockd/2

  170 root    5888K 4248K sleep  59   0  0:03:10 0.0% automountd/3

  132 root    2120K 1408K sleep  59   0  0:00:00 0.0% ypbind/1

  162 daemon  2504K 1936K sleep  59   0  0:00:00 0.0% statd/2

  146 root    2560K 2008K sleep  59   0  0:00:00 0.0% inetd/1

  122 root    2336K 1264K sleep  59   0  0:00:00 0.0% keyserv/2

  119 root    2336K 1496K sleep  59   0  0:00:02 0.0% rpcbind/1

  104 root    1664K 672K sleep  59   0  0:00:03 0.0% in.rdisc/1

TASKID   NPROC SIZE  RSS MEMORY     TIME CPU PROJECT                    

  222      30 229M 161M   44%  0:05:54 0.6% group.staff                

  223       1  26M  20M  5.3%  0:03:18 0.6% group.staff                

   12       1  61M  33M  8.9%  0:00:31 0.0% group.staff                

    1      33  85M  53M   14%  0:03:33 0.0% system                     

 

Total: 65 processes, 154 lwps, load averages: 0.04, 0.05, 0.06      


-J-T选项不能一起使用。