通过读proc等方式获取Linux系统状态信息的一些方法-icymoon-ChinaUnix博客

冷月无声icymoon.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

icymoon

博客访问： 1895576
博文数量： 283
博客积分： 10141
博客等级：上将
技术积分： 2931
用户组：普通用户
注册时间： 2005-12-21 14:33

文章分类

全部博文（283）

移动开发（22）

业内新闻与唠叨（0）

Android学习笔记（17）

开发环境（4）

源码分析（0）

练习程序（0）
悦读时光（19）

人月神话（0）

操作系统（17）

技术书籍（2）
行者无疆（7）
读核日记（12）

Co4ing感言（1）

数据结构与函数（3）

内存管理（1）

读核随想（2）
并行机（22）

HPC（0）

HA（3）

管理与维护（12）

体系结构（1）

集群系统（6）
娱乐（6）

业内搞笑（1）

冷月棋缘（1）

弈理棋道（0）

名人对局（1）

古谱（2）

楚河汉界（0）
数据库（4）

简单使用（1）

管理与优化（3）

理论相关（0）
Linux内核编程（15）
其他...（3）
Career（9）

test（2）

Interview（1）
外语学习（1）

日语（1）

英语（0）
文字心情（47）
没有安全吗？（2）

应急响应与取证（0）

入侵技术（1）

系统与网络的安全（0）
Linux的世界（28）

系统维护与优化（1）

编程相关（8）

使用（4）

TIPs（12）
程序人生（69）

编程学习与练习（18）

算法练习（26）

算法分析（2）

软件测试（6）

并行程序（6）
未分配的博文（17）

文章存档

2013年（2）

2012年（2）

2011年（17）

2010年（36）

2009年（17）

2008年（18）

2007年（66）

2006年（105）

2005年（20）

我的朋友

相关文件：/proc/stat的第一行

文件样例&基本计算方法：

a. 2.4.x kernel:

cpu 3156877 522645 1178059 169750391

cpu0 1111979 148713 315873 42075428

cpu1 444227 139960 119846 42947960

cpu2 1113218 155429 480187 41903159

cpu3 487453 78543 262153 42823844

page 1265588 10643253

swap 121 1258

intr 135336914 43651993 84 0 0 1 0 3 0 1 0 0 0 0 0 2 0 0 0 0 0 30 0 0 0 0 0 0 778176 42 60685630 30220952 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

disk_io: (8,0):(788586,178980,2529284,609606,21286496) (8,1):(3,3,24,0,0)

ctxt 171689341

btime 1177119654

processes 3110142

在kernel 2.4.x下，第一行只有五个字段，后四个字段依次是自从系统启动以来，系统运行在user mode, nice, system mode下和idle状态的时间，以1/100秒为单位。(后面的cpu0, cpu1…行是在有多处处理器的机器上，每个处理器运行在不同模式下的值，含义相同。)

则设总CPU运行时间为total，total = usr + nice + sys + idle

在一定时间间隔下两次读取文件，得到前后两次的处理器运行时间为usr1, nice1,sys1,idle1与usr2, nice2, sys2, idle2.

total1 = usr1 + nice1 + sys1 + idle1
total2 = usr2 + nice2 + sys2 + idle2

间隔时间为itv = total2-total1，则有

usr_ratio = (usr2-usr1)/itv
nice_ratio = (nice2-nice1)/itv
sys_ratio = (sys2-sys1)/itv
idle_ratio = (idle2-idle1)/itv

b. 2.6.x kernel:

cpu 620459 1528 3480863 8487506 13767 65592 0

cpu0 620459 1528 3480863 8487506 13767 65592 0

intr 130595795 126276003 445 0 8 8 0 6 0 1 0 0 0 1883 0 0 1694405 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 187958 0 0 0 0 0 0 0 2435078 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

ctxt 15528352

btime 1177387075

processes 101775

procs_running 2

procs_blocked 0

在kernel 2.6.x下，第一行有八个字段，后七个字段依次是自从系统启动以来，系统运行在user mode, nice, system mode下,idle状态,IO等待，响应中断和处理软件中断请求的时间，以1/100秒为单位。(后面的cpu0, cpu1…行是在有多处处理器的机器上，每个处理器运行在不同模式下的值，含义相同。)

则设总CPU运行时间为total = usr + nice + sys + idle + irq +sirq。

在一定时间间隔下两次读取文件，依次得到前后两次的处理器运行时间为usr1, nice1, sys1, idle1, wio1, irq1, sirq1与usr2, nice2, sys2, idle2, wio2, irq2, sirq2，则总时间为：

total1 = usr1 + nice1 + sys1 + idle1 + wio1 + irq1 + sirq1
total2 = usr2 + nice2 + sys2 + idle2 + wio2 + irq2 + sirq2

间隔时间为itv = total2-total1，则有

usr_ratio = (usr2-usr1)/itv (同2.4.x kernel)
nice_ratio = (nice2-nice1)/itv (同2.4.x kernel)
sys_ratio = (sys2-sys1 + irq2-irq1 + sirq2-sirq1)/itv
idle_ratio = (idle2-idle1)/itv (同2.4.x kernel)
wio_ratio = (wio2-wio1)/itv (同2.4.x kernel)

(2) Memory/Swap Usage

相关文件：

2.4.x kernel: /proc/partitions
2.6.x kernel: /proc/diskstats

文件样例&基本计算方法：

a. 2.4.x kernel: /proc/partitions

major minor #blocks name rio rmerge rsect ruse wio wmerge wsect wuse running use aveq

8 0 71687000 sda 178957 149039 2530308 888510 605346 2077193 21538256 31996930 1 7071640 28318295

8 1 265041 sda1 94 1442 3072 520 48 46 188 2140 0 2240 2660

8 2 26218080 sda2 158171 58945 1736930 707710 480208 1963728 19630952 26968300 0 3778470 27676880

8 3 2096482 sda3 20645 88501 789146 179980 125010 111991 1895052 5025510 -1 31137500 19312352

8 4 1 sda4 0 0 0 0 0 0 0 0 0 0 0

8 5 2096451 sda5 43 131 1128 280 80 1428 12064 1020 0 1060 1300

8 16 71687000 sdb 3 17 24 30 0 0 0 0 0 30 30

各字段的含义如第一行所写，解释如下：

major 主设备号
minor 从设备号
#blocks 块数
name 设备名
rio读磁盘的次数，成功完成读的总次数(队列中的不算)
rmerge 合并读的次数(两次相邻的IO读写可能被合成一次做)
rsect 读的扇区数(一般而言，一个sector是512 bytes,但是有些硬盘在初始化的时候支持改扇区大小，这个我未做处理)
ruse读花费的毫秒数
wio 写磁盘的次数，成功完成写的总次数(队列中的不算)
wmerge 合并写的次数
wsect 写的扇区数，参见rsect
wuse 写花费的毫秒数
running I/O的当前进度
use花在I/O操作上的毫秒数
aveq 在队列中总的等待的毫秒数

这里的文件记录的也是从系统启动以来的总时间数，所以也需要两次读取文件计算差值。

b. 2.6.x kernel: /proc/diskstats

1 0 ram0 0 0 0 0 0 0 0 0 0 0 0

1 1 ram1 0 0 0 0 0 0 0 0 0 0 0

1 2 ram2 0 0 0 0 0 0 0 0 0 0 0

1 3 ram3 0 0 0 0 0 0 0 0 0 0 0

1 4 ram4 0 0 0 0 0 0 0 0 0 0 0

1 5 ram5 0 0 0 0 0 0 0 0 0 0 0

1 6 ram6 0 0 0 0 0 0 0 0 0 0 0

1 7 ram7 0 0 0 0 0 0 0 0 0 0 0

1 8 ram8 0 0 0 0 0 0 0 0 0 0 0

1 9 ram9 0 0 0 0 0 0 0 0 0 0 0

1 10 ram10 0 0 0 0 0 0 0 0 0 0 0

1 11 ram11 0 0 0 0 0 0 0 0 0 0 0

1 12 ram12 0 0 0 0 0 0 0 0 0 0 0

1 13 ram13 0 0 0 0 0 0 0 0 0 0 0

1 14 ram14 0 0 0 0 0 0 0 0 0 0 0

1 15 ram15 0 0 0 0 0 0 0 0 0 0 0

22 0 hdc 0 0 0 0 0 0 0 0 0 0 0

8 0 sda 26641 6669 1046164 486853 175040 533622 5669368 685767 0 482953 1172621

8 1 sda1 27434 1001786 661731 5293848

8 2 sda2 5776 43530 46940 375520

2 0 fd0 0 0 0 0 0 0 0 0 0 0 0

9 0 md0 0 0 0 0 0 0 0 0 0 0 0

这个文件中，我们只关心这一行：

8 0 sda 26641 6669 1046164 486853 175040 533622 5669368 685767 0 482953 1172621

除了没有#blocks字段，其他的含义与顺序与2.4.x的/proc/partitions相同。计算方法也一样。

其实，也可以读/proc/sysfs/设备/stat文件中的东西，没有主从设备号与设备名外，字段含义与顺序基本相同。这样的方法更适合查看少量固定的设备。而在需要监控很多设备的时候，还是读/proc/diskstats比较节省文件描述符。:P

(5) Process Information

每个进程在/proc目录下有自己的目录，以进程ID为目录名。

要得到command line,直接读取/proc/PID/cmdline即可，但要注意里面可能有不可打印字符需要处理。

要得到vsz,和thread Count(2.6.x kernel)则需要从/proc/PID/status直接截取。

要得到cpu ratio的话，则需要/proc/PID/stat和系统启动的总时间(计算方法见(6)c.)了。虽然2.4.x与2.6.x的kernel下，此文件中的字段有所不同，但是所需的utime,stime,start_time却是相同的字段(luckily...)。

2086 (crond) S 1 2086 2086 0 -1 4194368 2558 384582 0 101 90 668 2533 20814 16 0 1 0 12431 4788224 266 4294967295 3149824 3186304 3221044688 3221043812 5158818 0 0 0 81923 0 0 0 17 0 0 0

utime: 第14个字段，指此进程被调入user mode执行的时间，以1/100秒为单位
stime: 第15个字段，指此进程被调入system mode执行的时间，以1/100秒为单位
start_time: 第20个字段，指此进程是从系统启动多长时间后后被启动的，以1/100秒为单位
则cpu_ratio = (utime+stime)/(uptime-start_time)