首页　| 　博文目录　| 　关于我

博客访问： 1120347
博文数量： 321
博客积分： 7872
博客等级：少将
技术积分： 2120
用户组：普通用户
注册时间： 2007-05-16 09:06

文章分类

全部博文（321）

监控（3）
JavaScript（0）
BT（0）
redis（5）
架构（1）
sphinx（0）
web安全（1）
cacti（11）
python学习（24）
windows（4）
LVS（4）
错误解决（3）
其它（0）
shell（5）
Perl（2）
版本控制（2）
RSYNC（1）
DNS（7）
CDN（2）
协议（15）
VPN（1）
Squid（24）
网址收集（1）
性能优化（7）

sys（6）

web（1）
Nginx（15）
memcached（6）
NFS（3）
NIS服务器（1）
Web服务器（18）
Ftp（6）
服务器集群（8）
Mail（3）
MYSQL（41）
Linux（13）
系统管理（78）

内核参数优化（13）

内核（1）
未分配的博文（6）

文章存档

2017年（1）

2016年（1）

2015年（12）

2014年（17）

2013年（78）

2012年（15）

2011年（17）

2010年（67）

2009年（102）

2008年（11）

我的朋友

CPU利用率的计算方法

下载busybox的源码，在procps目录下有top.c的源码，查看第293行附近（1.17.1版），可以看到

if (prev_hist_count) do { if (prev_hist[i].pid == pid) { cur-&gt;pcpu = cur-&gt;ticks - prev_hist[i].ticks; total_pcpu += cur-&gt;pcpu; break; } i = (i+1) % prev_hist_count; /* hist_iterations++; */ } while (i != last_i);

这就是计算%CPU的代码，很明显total_pcpu就是累加了每个线程对每个核的使用率，所以%CPU的最大值就是核数*100%。

而CPU利用率又是怎么计算的呢，跟踪代码可以发现，是从系统的/proc/stat这里读取的，这个文件的格式可以参考：，下面是我笔记本上读出来的内容。

plx@plinux-Laptop:~/busybox-1.17.1$ cat /proc/stat
cpu 520529 3525 658608 3500749 210662 6650 29698 0 0
cpu0 249045 1936 466387 1624486 136381 308 17051 0 0
cpu1 271483 1588 192221 1876263 74281 6342 12646 0 0
intr 84067574 42497789 41743 0 0 0 0 0 0 1 57928 0 0 7175 0 0 0 477092 24693 0 5 0 183 0 20 0 0 0 12455 821851 745906 10192555 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
ctxt 142313984
btime 1281403521
processes 6707
procs_running 2
procs_blocked 0
softirq 56932805 0 20168080 9440286 238191 821787 0 10621375 4052209 13257 11577620

cpuN的含义从左到右分别是：user、system、nice、idle、iowait、irq、softirq，具体含义可以看文档。
在下面几行的含义是：
“intr”这行给出中断的信息，第一个为自系统启动以来，发生的所有的中断的次数；然后每个数对应一个特定的中断自系统启动以来所发生的次数。
“ctxt”给出了自系统启动以来CPU发生的上下文交换的次数。
“btime”给出了从系统启动到现在为止的时间，单位为秒。
“processes (total_forks) 自系统启动以来所创建的任务的个数目。
“procs_running”：当前运行队列的任务的数目。
“procs_blocked”：当前被阻塞的任务的数目。
那么CPU利用率可以使用以下方法，先取两个采样点，然后计算其差值：

cpu usage=(idle2-idle1)/(cpu2-cpu1)*100 cpu usage=[(user_2 +sys_2+nice_2) - (user_1 + sys_1+nice_1)]/(total_2 - total_1)*100;

这是一段Bash代码采集利用率的，摘自网络：

#!/bin/sh ##echo user nice system idle iowait irq softirq CPULOG_1=$(cat /proc/stat | grep 'cpu ' | awk '{print $2" "$3" "$4" "$5" "$6" "$7" "$8}') SYS_IDLE_1=$(echo $CPULOG_1 | awk '{print $4}') Total_1=$(echo $CPULOG_1 | awk '{print $1+$2+$3+$4+$5+$6+$7}')   sleep 5   CPULOG_2=$(cat /proc/stat | grep 'cpu ' | awk '{print $2" "$3" "$4" "$5" "$6" "$7" "$8}') SYS_IDLE_2=$(echo $CPULOG_2 | awk '{print $4}') Total_2=$(echo $CPULOG_2 | awk '{print $1+$2+$3+$4+$5+$6+$7}')   SYS_IDLE=`expr $SYS_IDLE_2 - $SYS_IDLE_1`   Total=`expr $Total_2 - $Total_1` SYS_USAGE=`expr $SYS_IDLE/$Total*100 |bc -l`   SYS_Rate=`expr 100-$SYS_USAGE |bc -l`   Disp_SYS_Rate=`expr "scale=3; $SYS_Rate/1" |bc` echo $Disp_SYS_Rate%

还有一段Perl的代码，也是摘自网络：

#!/usr/bin/perl use warnings;   $SLEEPTIME=5;   if (-e "/tmp/stat") {  "/tmp/stat"; }  (JIFF_TMP, ">>/tmp/stat") ||  "Can't open /proc/stat file!\n";  (JIFF, "/proc/stat") ||  "Can't open /proc/stat file!\n"; @jiff_0=;  JIFF_TMP $jiff_0[0] ;  (JIFF);    $SLEEPTIME;    (JIFF, "/proc/stat") ||  "Can't open /proc/stat file!\n"; @jiff_1=;  JIFF_TMP $jiff_1[0];  (JIFF);  (JIFF_TMP);   @USER=`awk '{print \$2}' "/tmp/stat"`; @NICE=`awk '{print \$3}' "/tmp/stat"`; @SYSTEM=`awk '{print \$4}' "/tmp/stat"`; @IDLE=`awk '{print \$5}' "/tmp/stat"`; @IOWAIT=`awk '{print \$6}' "/tmp/stat"`; @IRQ=`awk '{print \$7}' "/tmp/stat"`; @SOFTIRQ=`awk '{print \$8}' "/tmp/stat"`;   $JIFF_0=$USER[0]+$NICE[0]+$SYSTEM[0]+$IDLE[0]+$IOWAIT[0]+$IRQ[0]+$SOFTIRQ[0]; $JIFF_1=$USER[1]+$NICE[1]+$SYSTEM[1]+$IDLE[1]+$IOWAIT[1]+$IRQ[1]+$SOFTIRQ[1]; $SYS_IDLE=($IDLE[0]-$IDLE[1]) / ($JIFF_0-$JIFF_1) * 100; $SYS_USAGE=100 - $SYS_IDLE;    ("The CPU usage is %1.2f%%\n",$SYS_USAGE);

Load的计算方法

跟踪busybox的代码可以知道，load是从/proc/loadavg中读取的。
我本机的一次抓取内容如下：

plx@plinux-Laptop:~/busybox-1.17.1$ cat /proc/loadavg
0.64 0.81 0.86 3/364 6930

每个值的含义依次为：
lavg_1 (0.64) 1-分钟平均负载
lavg_5 (0.81) 5-分钟平均负载
lavg_15(0.86) 15-分钟平均负载
nr_running (3) 在采样时刻，运行队列的任务的数目，与/proc/stat的procs_running表示相同意思
nr_threads (364) 在采样时刻，系统中活跃的任务的个数（不包括运行已经结束的任务）
last_pid(6930) 最大的pid值，包括轻量级进程，即线程。
假设当前有两个CPU，则每个CPU的当前任务数为0.64/2=0.32

我们可以在Linux内核中找到loadavg文件的源码：

tatic int loadavg_read_proc(char *page, char **start, off_t off, int count, int *eof, void *data) { int a, b, c; int len; #  
        a = avenrun[0] + (FIXED_1/200); b = avenrun[1] + (FIXED_1/200); c = avenrun[2] + (FIXED_1/200); len = sprintf(page,"%d.%02d %d.%02d %d.%02d %ld/%d %d\n", LOAD_INT(a), LOAD_FRAC(a), LOAD_INT(b), LOAD_FRAC(b), LOAD_INT(c), LOAD_FRAC(c), nr_running(), nr_threads, last_pid); return proc_calc_metrics(page, start, off, count, eof, len); }

以及计算load的代码：

#define FSHIFT      11          /* nr of bits of precision */ #define FIXED_1     (1< #define LOAD_FREQ   (5*HZ)      /* 5 sec intervals，每隔5秒计算一次平均负载值 */ #define CALC_LOAD(load, exp, n)     \
         load *= exp;               \
         load += n*(FIXED_1 - exp); \
         load >>= FSHIFT;   unsigned long avenrun[3];  
EXPORT_SYMBOL(avenrun);   /*
* calc_load - given tick count, update the avenrun load estimates.
* This is called while holding a write_lock on xtime_lock.
*/ static inline void calc_load(unsigned long ticks) { unsigned long active_tasks; /* fixed-point */ static int count = LOAD_FREQ; count -= ticks; if (count < 0) { count += LOAD_FREQ; active_tasks = count_active_tasks(); CALC_LOAD(avenrun[0], EXP_1, active_tasks); CALC_LOAD(avenrun[1], EXP_5, active_tasks); CALC_LOAD(avenrun[2], EXP_15, active_tasks); } }

看了大师的文章，理解了这些代码。
所以可以明白：Linux的系统负载指运行队列的平均长度，也就是等待CPU的平均进程数。 Linux的系统负载指运行队列的平均长度，也就是等待CPU的平均进程数。因为Linux内禁止浮点运算，因此系统的负载只能通过计算变化的次数这一修正值来计算。Linux内核定义一个长度为3的双字数组avenrun，双字的低11位用于存放负载的小数部分，高21位用于存放整数部分。当进程所耗的 CPU时间片数超过CPU在5秒内能够提供的时间片数时，内核计算上述的三个负载。负载初始化为0，假设最近1、5、15分钟内的平均负载分别为 load1、load5和load15，那么下一个计算时刻到来时，内核通过下面的算式计算负载：
load1 -= load1 -* exp(-5 / 60) -+ n * (1 – exp(-5 / 60 ))
load5 -= load5 -* exp(-5 / 300) + n * (1 – exp(-5 / 300))
load15 = load15 * exp(-5 / 900) + n * (1 – exp(-5 / 900))
其中，exp(x)为e的x次幂，n为当前运行队列的长度。Linux内核认为进程的生存时间服从参数为1的指数分布，指数分布的概率密度为：以内核计算负载load1为例，设相邻两个计算时刻之间系统活动的进程集合为S0。从1分钟前到当前计算时刻这段时间里面活动的load1个进程，设他们的集合是 S1，内核认为的概率密度是:λe-λx，而在当前时刻活动的n个进程，设他们的集合是Sn内核认为的概率密度是1-λe-λx。其中x = 5 / 60，因为相邻两个计算时刻之间进程所耗的CPU时间为5秒，而考虑的时间段是1分钟(60秒)。那么可以求出最近1分钟系统运行队列的长度：
load1 = |S1| -* λe-λx + |Sn| * (1-λe-λx) = load1 * λe-λx + n * (1-λe-λx)
其中λ = 1， x = 5 / 60， |S1|和|Sn|是集合元素的个数，这就是Linux内核源文件shed.c的函数calc_load()计算负载的数学依据。

所以“Load值=CPU核数”，这是最理想的状态，没有任何竞争，一个任务分配一个核。
由于数据是每隔5秒钟检查一次活跃的进程数，然后根据这个数值算出来的。如果这个数除以CPU的核数，结果高于5的时候就表明系统在超负荷运转了。

转自：

阅读(657) | 评论(0) | 转发(0) |

上一篇：理解 Linux 的处理器负载均值（翻译）

下一篇：seo：服务器更换IP后怎么办不会被搜索引擎惩罚

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6