使用process_monitor.sh监控服务器进程的crontab的配置-hanye韩也-ChinaUnix博客

OPS

首页　| 　博文目录　| 　关于我

hanye韩也

博客访问： 517100
博文数量： 117
博客积分： 0
博客等级：民兵
技术积分： 1210
用户组：普通用户
注册时间： 2015-05-05 14:50

个人简介

hellow 运维

文章分类

全部博文（117）

mysql（19）
杂谈（2）
docker（6）
docker（0）
debian环境配置（2）
jenkins（10）
运维自动化（3）
学习链接（1）
oracle（2）
分布式文件系统（1）
ELK Stack（2）
虚拟化（1）
linux（68）

svn/gitolite代码（4）

nginx（7）

redis的集群管理（3）

高可用（3）

监控（15）

工具（9）
未分配的博文（0）

文章存档

2019年（1）

2018年（1）

2017年（45）

2016年（38）

2015年（32）

我的朋友

相关博文

使用process_monitor.sh监控服务器进程的crontab的配置

分类：系统运维

2016-11-17 15:48:15

可以从下列链接找到process_monitor.sh：

假设：
1) java安装目录为/data/jdk
2) 监控脚本process_monitor监控脚本process_monitor.sh安装目录为/usr/local/bin
3) hadoop安装目录为/data/hadoop
4) hbase安装目录为/data/hbase
5) zookeeper安装目录为/data/zookeeper

可以通过jps查看到进程ID，然后使用kill命令杀死进程，查看监控重拉起效果。
process_monitor.sh每隔2秒（由变量monitor_interval指定）检查一次，发现进程不存在时，立即启动。
假设运行用户为root，则process_monitor.sh的日志文件为/tmp/process_monitor-root.log，
假设运行用户为test，则process_monitor.sh的日志文件为/tmp/process_monitor-test.log，以此类推。
可以通过tail -f观察process_monitor.sh的日志，来了解process_monitor.sh的运行。

process_monitor.sh带两个参数，第一个参数是被监控的进程对象，process_monitor.sh依靠第二个参数重启被监控对象。
第一个参数又分两部分，第一个空格前的部分，和空格之后的部分。
第一部分为被监控对象的进程名称，对于java程序，进程名是java，而不是jar包的名称。
第二部分为参数部分，可有可无，但正是通过它来区分不同的被监控对象，对于java、shell程序等是必须的。
另外，process_monitor.sh对参数部分是采取模糊部分匹配方式。
可以通过ps aux命令来确定进程名称和参数。

二：脚本
#!/bin/sh
#
# Created by yijian on 2012/7/23
#
# 运行日志：/tmp/process_monitor.log，由于多进程同时写，不一定完整，仅供参考。
# 请放到crontab中运行，如（注意要以后台方式运行，因为脚本是常驻不退出的）：
# * * * * * /usr/local/bin/process_monitor.sh /usr/sbin/rinetd /usr/sbin/rinetd > /dev/null 2>&1 &
#
# 进程监控脚本，当指定进程不存在时，执行重启脚本将它拉起
# 特色：
# 1.本监控脚本可重复执行，它会自动做互斥
# 2.互斥不仅依据监控脚本文件名，而且包含了它的命令行参数，只有整体相同时互斥才生效
# 3.对于被监控的进程，可以只指定进程名，也可以包含命令行参数
# 4.不管是监控脚本还是被监控进程，总是只针对属于当前用户下的进程
#
# 如果本脚本手工运行正常，但在crontab中运行不正常，则可考虑检查下ps等命令是否可在crontab中正常运行

# 实际中，遇到脚本在crontab中运行时，找不到ls和ps等命令
# 原来是有些环境ls和ps位于/usr/bin目录下，而不是常规的/bin目录
export PATH=/sbin:/usr/sbin:/bin:/usr/bin:/usr/local/bin:$PATH

# 需要指定个数的命令行参数
# 参数1：被监控的进程名（可以包含命令行参数）
# 参数2：重启被监控进程的脚本
if test $# -ne 2; then
printf "\033[1;33musage: $0 process_cmdline restart_script\033[m\n"
printf "\033[1;33mexample: /usr/local/bin/process_monitor.sh \"/usr/sbin/rinetd\" \"/usr/sbin/rinetd\"\033[m\n"
printf "\033[1;33mplease install process_monitor.sh into crontab by \"* * * * *\"\033[m\n"
exit 1
fi

process_cmdline="$1" # 需要监控的进程名，或完整的命令行，也可以为部分命令行
restart_script="$2" # 用来重启进程的脚本，要求具有可执行权限
monitor_interval=2 # 定时检测时间间隔，单位为秒
start_seconds=5 # 被监控进程启动需要花费多少秒
cur_user=`whoami` # 执行本监控脚本的用户名

# 取指定网卡上的IP地址
#eth=1&&netstat -ie|awk -F'[: ]' 'begin{found=0;} { if (match($0,"eth'"$eth"'")) found=1; else if ((1==found) && match($0,"eth")) found=0; if ((1==found) && match($0,"inet addr:") && match($0,"Bcast:")) print $13; }'

# 下面这段脚本，用来阻止多个监控脚本进程出现
uid=`id -u $cur_user`
self_name=`basename $0`
self_cmdline="$0 $*"
process_name=$(basename `echo "$process_cmdline"|cut -d" " -f1`)
process_match="${process_cmdline#* }" # 只保留用来匹配的参数部分
process_match=$(echo $process_match) # 去掉前后的空格

# 用来做互斥，
# 以保证只有最先启动的能运行，
# 但若不同参数的彼此不相互影响，
# 这样保证了可同时对不同对象进行监控。
# 因为trap命令对KILL命令无效，所以不能通过创建文件的方式来互斥！
active=0

# 日志文件，可能多个用户都在运行，
# 所以日志文件名需要加上用户名，否则其它用户可能无权限写
log_filepath=/tmp/process_monitor-$cur_user.log
# 日志文件大小（10M）
log_filesize=10485760

# 写日志函数，带1个参数：
# 1) 需要写入的日志
log()
{
# 创建日志文件，如果不存在的话
if test ! -f $log_filepath; then
touch $log_filepath
fi

record=$1
# 得到日志文件大小
file_size=`ls --time-style=long-iso -l $log_filepath 2>/dev/null|cut -d" " -f5`

# 处理日志文件过大
# 日志加上头[$process_cmdline]，用来区分对不同对象的监控
if test ! -z $file_size; then
if test $file_size -lt $log_filesize; then
printf "[$process_cmdline]$record"
printf "[$process_cmdline]$record" >> $log_filepath
else
printf "[$process_cmdline]$record" >> $log_filepath
mv $log_filepath $log_filepath.bak # 备份

printf "[$process_cmdline][`date +'%Y-%m-%d %H:%M:%S'`]truncated\n"
printf "[$process_cmdline][`date +'%Y-%m-%d %H:%M:%S'`]truncated\n" > $log_filepath

printf "[$process_cmdline]$record"
printf "[$process_cmdline]$record" >> $log_filepath
fi
fi
}

# 以死循环方式，定时检测指定的进程是否存在
# 一个重要原因是crontab最高频率为1分钟，不满足秒级的监控要求
while true; do
self_count=`ps -C $self_name h -o euser,args| awk 'BEGIN { num=0; } { if (($1==uid || $1==cur_user) && match($0, self_cmdline)) {++num;}} END { printf("%d",num); }' uid=$uid cur_user=$cur_user self_cmdline="$self_cmdline"`
if test $self_count -gt 2; then
log "\033[0;32;31m[`date +'%Y-%m-%d %H:%M:%S'`]$0 is running[$self_count/active:$active], current user is $cur_user.\033[m\n"
# 经测试，正常情况下一般为2，
# 但运行一段时间后，会出现值为3，因此放在crontab中非常必要
# 如果监控脚本已经运行，则退出不重复运行
if test $active -eq 0; then
exit 1
fi
fi

# 检查被监控的进程是否存在，如果不存在则重启
if test -z $process_match; then
process_count=`ps -C $process_name h -o euser,args| awk 'BEGIN { num=0; } { if (($1==uid || $1==cur_user)) {++num;}} END { printf("%d",num); }' uid=$uid cur_user=$cur_user`
else
process_count=`ps -C $process_name h -o euser,args| awk 'BEGIN { num=0; } { if (($1==uid || $1==cur_user) && match($0, process_match)) {++num;}} END { printf("%d",num); }' uid=$uid cur_user=$cur_user process_match="$process_match"`
fi
if test $process_count -lt 1; then
# 执行重启脚本，要求这个脚本能够将指定的进程拉起来
log "\033[0;32;34m[`date +'%Y-%m-%d %H:%M:%S'`]restart \"$process_cmdline\"\033[m\n"
sh -c "$restart_script" >> $log_filepath 2>&1 # 注意一定要以“sh -c”方式执行
fi

active=1
# sleep时间得长一点，原因是启动可能没那么快，以防止启动多个进程
sleep $start_seconds
done
exit 0

配置crontab
监控redis

* * * * * /usr/local/bin/process_

monitor.sh "/data/redis/bin/redis-server 6379" "/data/redis/bin/redis-server /data/redis/conf/redis-6379.conf"
* * * * * /usr/local/bin/process_

monitor.sh "/data/redis/bin/redis-server 6380" "/data/redis/bin/redis-server /data/redis/conf/redis-6380.conf"
* * * * * /usr/local/bin/process_

monitor.sh "/data/redis/bin/redis-server 6381" "/data/redis/bin/redis-server /data/redis/conf/redis-6381.conf"

可以考虑这样，放在crontab中，机器重启会自动拉起，而且进程kill后，在两三秒时间也会被得拉起。
/data/redis为redis安装目录，也可以为其它目录

监控nginx，mysql

* *　* * * process_monitor.sh "nginx" "/etc/init.d/mysqld start"
* * * * * process_monitor.sh "nginx" "/etc/init.d/nginx restart"
监控其他进程就需要自己试验和修改了

阅读(1120) | 评论(0) | 转发(0) |

上一篇：mongdb的启动脚本

下一篇：centos上安装python2.7和ipthon3.0 或者 python3.5和ipthon5,0

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6