IT运维之Linux服务器-gron-ChinaUnix博客

黑小子博客gron.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

gron

博客访问： 2195287
博文数量： 317
博客积分： 5670
博客等级：大校
技术积分： 3677
用户组：普通用户
注册时间： 2008-08-10 17:51

文章分类

全部博文（317）

mcat（2）
日志系统（2）

awstats（1）
工具（1）
代理服务（0）
SVN（11）
FTP（1）
python（2）
tomcat（0）
存储（6）
SEO技术（0）
proxy（0）
Cache（5）

redis（1）
DNS（2）
自动化管理（3）
redis（4）
素质培养（2）
压力测试（3）
监控报警（12）

zabbix（1）
报错问题（19）

系统（2）
性能测试与优化（27）
DB（42）

MongoDB（1）

MySql（40）
Web（48）

php（4）

IIS（1）

nginx（15）

apache（16）
技术常识（5）
shell（10）
Iptables（5）
集群HA（8）
Nagios（6）
Safety +&nb（12）
System（29）
Command（37）
Mail（5）

iredmail（0）

Postfix（2）

Qmail（3）
Cacti（3）
安装配置（5）
未分配的博文（0）

文章存档

2016年（2）

2015年（44）

2014年（68）

2013年（42）

2012年（23）

2011年（51）

2010年（67）

2009年（17）

2008年（3）

我的朋友

相关博文

IT运维之Linux服务器

分类： LINUX

2013-05-19 00:05:01

本贴转自：  感谢博主共享!

    随着Linux应用日益广泛，绝大部分的网络服务器都使用Linux操作系统。为了全面掌握网络服务器的运行状况和趋势，需要对服务器进行全面的监控。
利用Linux发行版搭建一个网络服务器可能对于许多人都是一件很容易的事情，但网络服务器正式上线后，服务器数据流动、连接数、网络流量、系统负荷等各方面都会增加，安全问题也随之而来，再考虑到日志、数据库的重要性，我想无论是哪一位系统管理员，都应该迫不及待地想把服务器上线的前期工作做好吧。
那我们究竟需要做好哪些工作准备呢？之前有看过一篇文章说到系统管理员应该定期完成的九件事情，我分析过后，认为有几件事情是必须得做的。首先是备份，做好定时备份策略，备份所有你认为重要的数据，并且定期检查你的备份是否有效、全面；日志轮换，无论你想用哪种轮换方式，控制日志增长避免驱动器已满是你的目的；做一定的安全措施，如防火墙iptables的访问控制，用denyhosts防止黑客远程暴力破解，mysql远程登录权限等等；最后就是服务器监控，也是我主要想讲述的内容。
对于服务器的硬件资源、性能、带宽、端口、进程、服务等都必须有一个可靠和持续的监测，统计分析每天的各种数据，从而能及时反映出服务器哪里存在性能瓶颈、安全隐患等。另外是要有危机意识，就是了解服务器有可能出现哪些严重的问题，出现这些问题后该如何去迅速处理。比如数据库的数据丢失，日志容量过大，被黑客入侵等等。说到底，预防是关键。
监控，是预防的其中的一项重要工作。这里先说说我需要监控的内容。系统负载、cpu使用率、内存占用、磁盘空间、网络流量、端口、进程、apache或tomcat的连接数、mysql的运行状态这些都是我想要监控的东西，但又能做到多少呢，我只能尽力而为了。要了解服务器每时每刻的整体运行状态，单靠几个Linux自带的性能监测命令是很难实现的。所以，利用shell脚本和开源监控工具进行服务器监控成为了我的两个主要的选择。
利用shell脚本监控能够很好把握的监控的内容，时间，警告峰值，以及方便地进行告警通知，自定义监控日志内容等等；而许多开源的监控工具都十分方便和实用，比如有zabbix、cacti、nagios等，而且能够针对不同的监控内容，生成好看的便于观察的曲线图，多数的开源监控工具都比较成熟，至于哪个好用就得用过才知道。由于这些监控工具都有许多热血人士写了安装和使用的文档，我这里就不写进来了。想了解下的朋友也可以到我的博客上走走，在这里我主要是把自己写的一些shell监控脚本分享一下，希望大家能给点意见。
我这里写了四个脚本（performance.sh 性能监控，process.sh 进程监控，network.sh 流量监控，tongji.sh流量分析统计），并使用crontab定时执行脚本进行监控数据的记录，形成每天的监控日志放在如下相应的文件夹，并且超过自己设定的告警值后发邮件通知，如果是腾讯企业邮箱，163邮箱那些有免费短信通知功能的可以尝试一下，收到邮件告警后很快就能收到短信了，十分方便。

性能监控脚本
##############################################################################
#!/bin/bash

#监控cpu系统负载
IP=`ifconfig eth0 | grep "inet addr" | cut -f 2 -d ":" | cut -f 1 -d " "`
cpu_num=`grep -c 'model name' /proc/cpuinfo`
count_uptime=`uptime |wc -w`
load_15=`uptime | awk '{print $'$count_uptime'}'`
average_load=`echo "scale=2;a=$load_15/$cpu_num;if(length(a)==scale(a)) print 0;print a" | bc`
average_int=`echo $average_load | cut -f 1 -d "."`
load_warn=0.70
if [ $average_int -gt 0
]
then
echo "$IP服务器单个核心15分钟的平均负载为$average_load，超过警戒值1.0，请立即处理！！！$(date +%Y%m%d/%H:%M:%S)" >>/usr/monitor/performance/performance_$(date +%Y%m%d).log
echo "$IP服务器单个核心15分钟的平均负载为$average_load，超过警戒值1.0，请立即处理！！！$(date +%Y%m%d/%H:%M:%S)" | mail -s "$IP服务器系统负载严重告警"
else
echo "$IP服务器单个核心15分钟的平均负载值为$average_load,负载正常 $(date +%Y%m%d/%H:%M:%S)">>/usr/monitor/performance/performance_$(date +%Y%m%d).log
fi

#监控cpu使用率
cpu_idle=`top -b -n 1 | grep Cpu | awk '{print $5}' | cut -f 1 -d "."`
if [ $cpu_idle -lt 20 ]
then

echo "$IP服务器cpu剩余$cpu_idle%,使用率已经超过80%,请及时处理。">>/usr/monitor/performance/performance_$(date +%Y%m%d).log

echo "$IP服务器cpu剩余$cpu_idle%,使用率已经超过80%,请及时处理！！！" | mail -s "$IP服务器cpu告警"
else

echo
"$IP服务器cpu剩余$cpu_idle%,使用率正常">>/usr/monitor/performance/performance_$(date +%Y%m%d).log
fi

#监控交换分区
swap_total=`free -m | grep Swap | awk '{print  $2}'`
swap_free=`free -m | grep Swap | awk '{print  $4}'`

swap_used=`free -m | grep Swap | awk '{print  $3}'`

if [ $swap_used -ne 0 ]
then
swap_per=0`echo "scale=2;$swap_free/$swap_total" | bc`
swap_warn=0.20
swap_now=`expr $swap_per \> $swap_warn`
if [ $swap_now -eq 0 ]
then
echo "$IP服务器swap交换分区只剩下 $swap_free M 未使用，剩余不足20%，使用率已经超过80%，请及时处理。">>/usr/monitor/performance/performance_$(date +%Y%m%d).log

echo "$IP服务器swap交换分区只剩下 $swap_free M 未使用，剩余不足20%, 使用率已经超过80%, 请及时处理。" | mail -s "$IP服务器内存告警"
else
echo "$IP服务器swap交换分区剩下 $swap_free M未使用，使用率正常">>/usr/monitor/performance/performance_$(date +%Y%m%d).log
  fi

else
   echo "$IP服务器交换分区未使用"  >>/usr/monitor/performance/performance_$(date +%Y%m%d).log
fi

#监控磁盘空间
disk_sda1=`df -h | grep /dev/sda1 | awk '{print $5}' | cut -f 1 -d "%"`
if [ $disk_sda1 -gt 80 ]
then
echo "$IP服务器 /根分区使用率已经超过80%,请及时处理。">>/usr/monitor/performance/performance_$(date +%Y%m%d).log

echo "$IP服务器 /根分区使用率已经超过80%,请及时处理。 " | mail -s "$IP服务器硬盘告警"
else
   echo "$IP服务器 /根分区使用率为$disk_sda1%,使用率正常">>/usr/monitor/performance/performance_$(date +%Y%m%d).log
fi

#监控登录用户数
users=`uptime |awk '{print $6}'`
if [ $users -gt 2 ]
then

echo "$IP服务器用户数已经达到$users个，请及时处理。">>/usr/monitor/performance/performance_$(date +%Y%m%d).log

echo "$IP服务器用户数已经达到$users个，请及时处理。" | mail -s "$IP服务器用户登录数告警"
else

echo "$IP服务器当前登录用户为$users个，情况正常">>/usr/monitor/performance/performance_$(date +%Y%m%d).log
fi
###############################################################################

性能监控日志 /usr/monitor/performance/performance_%Y%m%d.log

进程监控脚本
###############################################################################
#!/bin/bash
IP=`ifconfig eth0 | grep "inet addr" | cut -f 2 -d ":" | cut -f 1 -d " "`

tomcat_dir="/opt/apache-tomcat-7.0.8"
mysql_dir="/usr/local/mysql/bin/mysqld_safe"
vsftp_dir="/usr/sbin/vsftpd"
ssh_dir="/usr/sbin/sshd"

for dir in $tomcat_dir $mysql_dir $vsftp_dir  $ssh_dir
do
process_count=$(ps -ef | grep "$dir" | grep -v grep | wc -l)

      for service in tomcat mysql vsftp ssh
      do
            echo "$dir" |grep -q "$service"
            if [ $? -eq 0 ]
            then
                     if [ $process_count -eq 0 ]
                     then
                        echo "$service is down at $(date +%Y%m%d%H:%M:%S)" >>/usr/monitor/process/process_$(date +%Y%m%d).log
                        echo "$service is down at $(date +%Y%m%d%H:%M:%S)" | mail -s "$IP服务器 $service服务关闭告警"
                     else
                        echo "$service is running at $(date +%Y%m%d%H:%M:%S)" >>/usr/monitor/process/process_$(date +%Y%m%d).log
                     fi
            else
                     continue
            fi
      done
done
###############################################################################

进程监控日志 /usr/monitor//process/process_%Y%m%d.log

流量监控脚本
###############################################################################
#!/bin/bash
#
R1=`cat /sys/class/net/eth0/statistics/rx_bytes`
T1=`cat /sys/class/net/eth0/statistics/tx_bytes`
sleep 1
R2=`cat /sys/class/net/eth0/statistics/rx_bytes`
T2=`cat /sys/class/net/eth0/statistics/tx_bytes`
TBPS=`expr $T2 - $T1`
RBPS=`expr $R2 - $R1`
TKBPS=`expr $TBPS / 1024`
RKBPS=`expr $RBPS / 1024`
echo "上传速率 eth0: $TKBPS kb/s 下载速率 eth0: $RKBPS kb/s at $(date +%Y%m%d%H:%M:%S)" >>/usr/monitor/network/network_$(date +%Y%m%d).log
###############################################################################

流量监控日志 /usr/monitor/network/network_$(date +%Y%m%d).log

流量分析脚本
###############################################################################
#!/bin/bash
#
TX=0;
RX=0;
MAX_TX=0;
MAX_RX=0;
while read line
do
      a=`echo $line | grep "eth0" |awk '{print $3}'`
if [ $a -ge 0 ]
then
      TX=$a
      if [ $TX -ge $MAX_TX ]
      then
            MAX_TX=$TX
      fi
fi
      b=`echo $line | grep "eth0" |awk '{print $7}'`
if [ $b -ge 0 ]
then
      RX=$b
      if [ $RX -ge $MAX_RX ]
      then
            MAX_RX=$RX
      fi
fi
done < /usr/monitor/network/network_$(date +%Y%m%d).log
                                    echo "最高上传速度为 $MAX_TX kb/s at $(date +%Y%m%d)">>/usr/monitor/network/tongji.log

                                    echo "最高下载速度为 $MAX_RX kb/s at $(date +%Y%m%d)">>/usr/monitor/network/tongji.log
###############################################################################
流量分析日志 /usr/monitor/network/tongji.log

利用脚本进行系统监控是一个不错的选择，简单实用。之后我还想到用shell脚本进行对myqsl的监控，对日志增长的监控，对apache连接数监控等等，这个有待后面的研究了。
   利用shell脚本进行监控当然是方便，可靠，但单靠一堆数据日志，很难发现什么趋势变化，再加上当你维护的服务器量较多的时候，更是手忙脚乱的。这里我推荐一些开源的监控工具来帮助大家更好地去做好系统监控。
   Cacti，是一套基于PHP,MySQL,SNMP及RRDTool开发的网络流量监测图形分析工具。它通过snmpget来获取数据，使用 RRDtool绘画图形。在众多监测图形分析工具中，RRDTool所画的图是最好看的，而且Cacti还能定制模板，按需增加插件，功能十分强大。想要实现异常通知功能的话，可以整合Nagios来一起使用。Nagios是一个监视系统运行状态和网络信息的监视系统。能监视所指定的本地或远程主机以及服务，同时提供异常通知功能等。同时提供一个WEB界面以方便系统管理人员查看网络状态，各种系统问题，以及日志等等。Cacti+Nagios这个组合很好用，但配置过程比较复杂，大家可以尝试去搭建一个这样的实用而方便的分布式监控系统。
另外一个要介绍的监控工具叫Zabbix,除了能监视各种网络参数，保证服务器系统的安全运营之外，还能提供如短信、邮件、jabber等通知机制以让系统管理员快速定位/解决存在的各种问题。基本上能实现cacti+nagios的功能。安装配置过程也比较简单，我的博客上有在ubuntu环境和centos环境下搭建zabbix监控系统的文章，大家有空可以参考一下。

zabbix的性能监控分析图

其实除了以上提到的shell脚本和监控方案，要使服务器监控的效果更好，还有一项工作是必须做的，就是监控数据及运维操作的记录，我这里把它叫做运维日志吧。每天有写运维日志的习惯是很重要的，这可以有利于我们分析服务器的趋势，比如增加哪些服务后，服务器的cpu占用会有上升的趋势；哪个时段是流量的高峰期；哪个时段服务器比较空闲，可以进行数据库备份的操作等等。更有好处的是，把我们日常的操作行为通过日志形式记录下来，万一除了什么问题，可以通过查询操作日志，了解是否人为操作而引起的。最后一点，有几个重要的性能监测工具可别忘记了，top、vmstat、w、uptime、ps、free、iostat、netstat、/proc等，这些是Linux系统内置或附件的工具，记住每个命令的详细用法，有时候就可以直接找出造成性能问题的原因了。
关于服务器监控这个话题，很多专家给出了不同的意见，但无可否认的，监控工作必须做，至于监控什么是重点，用怎样的监控方式去实现，通过监控能达到多大的效果，这个就视乎服务器应用需求及个人需求了，本文只是提出一些个人的见解，供大家参考。最后简单总结一下本文的主要内容：监控的重要性；shell监控脚本；开源监控方案；记住写运维日志和常用Linux监控工具。希望大家都能够找出适合自己的、适合企业的服务器监控方案。

阅读(2030) | 评论(0) | 转发(0) |

上一篇：职业生涯规划

下一篇：CentOS Device does not seem to be present

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6