利用shell脚本来监控linux系统的负载与CPU占用情况-qingshanli1988-ChinaUnix博客

qingshanli1988qingshanli1988.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

qingshanli1988

博客访问： 1331891
博文数量： 273
博客积分： 5865
博客等级：准将
技术积分： 3280
用户组：普通用户
注册时间： 2010-11-11 10:01

文章分类

全部博文（273）

大数据（7）
负载均衡高可用（2）
logstash（3）
编译（3）
git（4）
puppet（0）
Centos（6）
php（6）
mysql（1）
shell（21）
vi（7）
程序员（3）
嵌入式（5）
fedora（5）
windows（3）
考研（4）
study（6）
financial（0）
encourage（3）
linux（55）
ubuntu（16）
firefox（7）
未分配的博文（106）

文章存档

2015年（33）

2014年（11）

2013年（11）

2012年（136）

2011年（32）

2010年（50）

我的朋友

相关博文

利用shell脚本来监控linux系统的负载与CPU占用情况

分类： LINUX

2012-07-10 20:07:46

这几天在学习研究shell脚本，写的一些系统负载与CPU监控脚本程序。在没有nagios监控软件的情况下，只要服务器能上互联网，就可通过发邮件的方式来提醒管理员系统负载与CPU占用的使用情况。
一、安装linux下面的一个邮件客户端msmtp软件(类似于一个foxmail的工具)
1、安装：
# tar jxvf msmtp-1.4.16.tar.bz2
# cd msmtp-1.4.16
# ./configure --prefix=/usr/local/msmtp
# make
# make install
2、创建msmtp配置文件和日志文件（host为邮件域名，邮件用户名test，密码123456）
# vim ~/.msmtprc
1.      account default
2.      host 126.com
3.      from test@126.com
4.      auth login
5.      user test
6.      password 123456
7.      logfile ~/.msmtp.log
# chmod 600 ~/.msmtprc
# touch ~/.msmtp.log
3、mutt安装配置：（一般linux下有默认安装mutt）
# vim ~/.muttrc
1.      set sendmail="/usr/local/msmtp/bin/msmtp"
2.      set use_from=yes
3.      set realname="moniter"
4.      set from=test@126.com
5.      set envelope_from=yes
6.      set rfc2047_parameters=yes
7.      set charset="utf-8"

4、邮件发送测试（-s邮件标题，-a表加附件）
# echo "邮件内容123456" | mutt -s "邮件标题测试邮件" -a /scripts/test.txt test@126.com

二、监控服务器系统负载情况：
1、用uptime命令查看当前负载情况（1分钟，5分钟，15分钟平均负载情况）
# uptime
15:43:59 up 186 days, 20:04, 1 user, load average: 0.01, 0.02, 0.00

系统负荷的经验法则：(摘自http://www.ruanyifeng.com/blog/2011/07/linux_load_average_explained.html)
(1) 主要观察"15分钟系统负荷"，将它作为电脑正常运行的指标。
(2) 如果15分钟内，（系统负荷除以CPU核心数目之后的）平均负荷大于1.0，表明问题持续存在，不是暂时现象。
(3) 当系统负荷持续大于0.7，你必须开始调查了，问题出在哪里，防止情况恶化。
(4) 当系统负荷持续大于1.0，你必须动手寻找解决办法，把这个值降下来。
(5) 当系统负荷达到5.0，就表明你的系统有很严重的问题，长时间没有响应，或者接近死机了。

2、查看服务器cpu的总核数
# grep -c 'model name' /proc/cpuinfo

3、截取服务器1分钟、5分钟、15分钟的负载情况
# uptime | awk '{print $8,$9,$10,$11,$12}'
load average: 0.01, 0.02, 0.00

4、查看截取15分钟的平均负载
# uptime | awk '{print $12}'
5、编写系统负载监控的脚本文件：
# vim /scripts/load-check.sh
1.      #!/bin/bash
2.      #使用uptime命令监控linux系统负载变化
3.
4.      #取系统当前时间（以追加的方式写入文件>>）
5.      date >> /scripts/datetime-load.txt
6.
7.      #提取服务器1分钟、5分钟、15分钟的负载情况
8.      uptime | awk '{print $8,$9,$10,$11,$12}' >> /scripts/load.txt
9.
10.   #逐行连接上面的时间和负载相关行数据（每次重新写入文件>）
11.   paste /scripts/datetime-load.txt /scripts/load.txt   > /scripts/load_day.txt
# chmod a+x /scripts/load-check.sh
6、编写系统负载结果文件邮件发送脚本：
# vim /scripts/sendmail-load.sh
1.      #!/bin/bash
2.      #把系统负载监控生成的load_day.txt文件通过邮件发送给用户
3.
4.      #提取本服务器的IP地址信息
5.      IP=`ifconfig eth0 | grep "inet addr" | cut -f 2 -d ":" | cut -f 1 -d " "`
6.
7.      #提取当前日期
8.      today=`date -d "0 day" +%Y年%m月%d日`
9.
10.   #发送系统负载监控结果邮件
11.   echo "这是$IP服务器$today的系统负载监控报告，请下载附件。" | mutt -s "$IP服务器$today的系统负载监控报告" -a /scripts/load_day.txt test@126.com
# chmod a+x /scripts/sendmail-load.sh
7、编写系统负载监控的脚本文件：
# vim /scripts/load-warning.sh
1.      #!/bin/bash
2.      #使用uptime命令监控linux系统负载变化
3.
4.      #提取本服务器的IP地址信息
5.      IP=`ifconfig eth0 | grep "inet addr" | cut -f 2 -d ":" | cut -f 1 -d " "`
6.
7.      #抓取cpu的总核数
8.      cpu_num=`grep -c 'model name' /proc/cpuinfo`
9.
10.   #抓取当前系统15分钟的平均负载值
11.   load_15=`uptime | awk '{print $12}'`
12.
13.   #计算当前系统单个核心15分钟的平均负载值，结果小于1.0时前面个位数补0。
14.   average_load=`echo "scale=2;a=$load_15/$cpu_num;if(length(a)==scale(a)) print 0;print a" | bc`
15.
#取上面平均负载值的个位整数
16.   average_int=`echo $average_load | cut -f 1 -d "."`
17.
18.   #设置系统单个核心15分钟的平均负载的告警值为0.70(即使用超过70%的时候告警)。
19.   load_warn=0.70
20.
21.   #当单个核心15分钟的平均负载值大于等于1.0（即个位整数大于0），直接发邮件告警；如果小于1.0则进行二次比较
22.   if (($average_int > 0)); then
23.         echo "$IP服务器15分钟的系统平均负载为$average_load，超过警戒值1.0，请立即处理！！！" | mutt -s "$IP 服务器系统负载严重告警！！！" test@126.com
24.   else
25.   #当前系统15分钟平均负载值与告警值进行比较（当大于告警值0.70时会返回1，小于时会返回0 ）
26.   load_now=`expr $average_load \> $load_warn`
27.
28.   #如果系统单个核心15分钟的平均负载值大于告警值0.70（返回值为1），则发邮件给管理员
29.   if (($load_now == 1)); then
30.       echo "$IP服务器15分钟的系统平均负载达到$average_load，超过警戒值0.70，请及时处理。" | mutt -s "$IP 服务器系统负载告警" test@126.com
31.   fi
32.   fi
# chmod a+x /scripts/load-warning.sh
三、监控服务器系统cpu占用情况：
1、使用top命令查看linux系统cpu使用情况：
# top -b -n 1 | grep Cpu （-b -n 1 表只需要1次的输出结果）
Cpu(s): 0.0%us, 0.0%sy, 0.0%ni, 99.9%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
(空闲值)
2、查看截取空闲cpu的百分比数值命令（只取整数部分）：
# top -b -n 1 | grep Cpu | awk '{print $5}' | cut -f 1 -d "."
3、编写cpu监控的脚本文件：
# vim /scripts/cpu-check.sh
1.      #!/bin/bash
2.      #使用top命令监控linux系统cpu变化
3.
4.      #取系统当前时间（以追加的方式写入文件>>）
5.      date >> /scripts/datetime-cpu.txt
6.
7.      #抓取当前cpu的值（以追加的方式写入文件>>）
8.      top -b -n 1 | grep Cpu >> /scripts/cpu-now.txt
9.
10.   #逐行连接上面的时间和cpu相关行数据（每次重新写入文件>）
11.   paste /scripts/datetime-cpu.txt   /scripts/cpu-now.txt >> /scripts/cpu.txt
# chmod a+x /scripts/cpu-check.sh

4、查看CPU监控的结果文件：
# cat /scripts/cpu.txt

5、编写cpu结果文件邮件发送脚本：
# vim /scripts/sendmail-cpu.sh
1.      #!/bin/bash
2.      #把生成的cpu.txt文件通过邮件发送给用户
3.
4.      #提取本服务器的IP地址信息
5.      IP=`ifconfig eth0 | grep "inet addr" | cut -f 2 -d ":" | cut -f 1 -d " "`
6.
7.      #提取当前日期
8.      today=`date -d "0 day" +%Y年%m月%d日`
9.
10.   #发送cpu监控结果邮件
11.   echo "这是$IP服务器$today的cpu监控报告，请下载附件。" | mutt -s "$IP服务器$today的CPU监控报告" -a /scripts/cpu.txt test@126.com
# chmod a+x /scripts/sendmail-cpu.sh
四、监控系统cpu的情况，当使用超过80%的时候发告警邮件：
# vim /scripts/cpu-warning.sh
1.      #!/bin/bash
2.      #监控系统cpu的情况脚本程序
3.
4.      #提取本服务器的IP地址信息
5.      IP=`ifconfig eth0 | grep "inet addr" | cut -f 2 -d ":" | cut -f 1 -d " "`
6.
7.      #取当前空闲cpu百份比值（只取整数部分）
8.      cpu_idle=`top -b -n 1 | grep Cpu | awk '{print $5}' | cut -f 1 -d "."`
9.
10.   #设置空闲cpu的告警值为20%，如果当前cpu使用超过80%（即剩余小于20%），立即发邮件告警
11.   if (($cpu_idle < 20)); then
12.         echo "$IP服务器cpu剩余$cpu_idle%，使用率已经超过80%，请及时处理。" | mutt -s "$IP 服务器CPU告警" test@126.com
13.   fi
# chmod a+x /scripts/cpu-warning.sh
五、加入任务计划：系统负载与CPU占用率每十分钟检测一次，有告警则立即发邮件(十分钟发一次)，负载与CPU检测结果邮件每天早上8点发一次

# crontab -e
1.      */10 * * * * /scripts/load-check.sh
2.      */10 * * * * /scripts/load-warning.sh
3.      0 8 * * * /scripts/sendmail-load.sh
4.
5.      */10 * * * * /scripts/cpu-check.sh
6.      */10 * * * * /scripts/cpu-warning.sh
7.      0 8 * * * /scripts/sendmail-cpu.sh
# service crond restart

阅读(2267) | 评论(0) | 转发(4) |

上一篇：【讨论】手抖的后果：误执行"rm -rf"命令之后

下一篇：vim常用操作入门

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6