# vmstat_alert.sql
REM ----------------------------------------
REM 该SQL用于报告Oracle环境中每个服务器的异常情况。
REM 根据get_vmstat.ksh脚本得到的信息,报告每个小时的平均值。
REM DBA发现异常时间段,则可以深入检查每5分钟的详细数据。
REM 在这个脚本中接受一个参数,表示需要报告的时间跨度。
REM 对于runing queue的门限值应该设置为CPU数,
REM 表示如果出现大量等待执行的任务就报警,这通常表示CPU负载过重。
REM 对于page scan(sr)的门限值设置为1,
REM 表示只要出现page daemon扫描页就报警,这通常表示内存不足。
REM 对于CPU利用率,设置为70,表示超过70%以上的利用率才报警。
REM 比如运行vmstat_alert 7
REM 表示输出当前日期之前7天之内的执行队列大于4,
REM sr大于1,CPU利用率超过70%的按照小时统计的报告。
REM ----------------------------------------
set lines 80; set pages 999; set feedback off; set verify off;
column my_date heading 'date hour' format a20 column c2 heading waitq format 9999 column c3 heading pg_in format 9999 column c4 heading pg_ot format 9999 column c5 heading usr format 9999 column c6 heading sys format 9999 column c7 heading idl format 9999 column c8 heading wt format 9999
ttitle 'run queue > CPUs|May indicate an overloaded CPU| When runqueue exceeds the number of CPUs| on the server, tasks are waiting for service.';
select server_name, to_char(start_date,'YY/MM/DD HH24') my_date, avg(running_queue) c2, avg(kbytes_page_in) c3, avg(kbytes_page_out) c4, avg(user_cpu) c5, avg(system_cpu) c6, avg(idle_cpu) c7 from perfstat.stats$vmstat WHERE running_queue > 4 and start_date > sysdate-&1 group by server_name, to_char(start_date,'YY/MM/DD HH24') ORDER BY server_name, to_char(start_date,'YY/MM/DD HH24') ;
ttitle 'page_scan > 1|May indicate overloaded memory| Whenever Unix performs a page-in, the RAM memory | on the server has been exhausted and swap pages are being used.';
select server_name, to_char(start_date,'YY/MM/DD HH24') my_date, avg(running_queue) c2, avg(kbytes_page_in) c3, avg(kbytes_page_out) c4, avg(user_cpu) c5, avg(system_cpu) c6, avg(idle_cpu) c7 from perfstat.stats$vmstat WHERE page_scan > 1 and start_date > sysdate-&1 group by server_name, to_char(start_date,'YY/MM/DD HH24') ORDER BY server_name, to_char(start_date,'YY/MM/DD HH24') ;
ttitle 'user+system CPU > 70%|Indicates periods with a fully-loaded CPU subssystem.|Periods of 100% utilization are only a | concern when runqueue values exceeds the number of CPs on the server.';
select server_name, to_char(start_date,'YY/MM/DD HH24') my_date, avg(running_queue) c2, avg(kbytes_page_in) c3, avg(kbytes_page_out) c4, avg(user_cpu) c5, avg(system_cpu) c6, avg(idle_cpu) c7 from perfstat.stats$vmstat WHERE (user_cpu + system_cpu) > 70 and start_date > sysdate-&1 group by server_name, to_char(start_date,'YY/MM/DD HH24') ORDER BY server_name, to_char(start_date,'YY/MM/DD HH24') ;
# vmstat_alert.ksh
#----------------------------------------
# 可以将此shell加入cron中,每天7点运行
#----------------------------------------
#!/bin/ksh
#----------------------------------------
# 首先设定环境变量,根据实际环境修改. . . .
# 接受一个参数输入,表示当前要报告的数据库SID
#----------------------------------------
ORACLE_SID=$1
export ORACLE_SID
ORACLE_HOME=`cat /var/opt/oracle/oratab|grep $ORACLE_SID:|cut -f2 -d':'`
export ORACLE_HOME
PATH=$ORACLE_HOME/bin:$PATH
export PATH
SCRIPT_PATH=`echo ~oracle/vmstat`
export SCRIPT_PATH
sqlplus perfstat/perfstat< spool /tmp/vmstat_$ORACLE_SID.lst
@$SCRIPT_PATH/vmstat_alert 7 4
spool off;
exit;
!
#----------------------------------------
# 检查vmstat_alert.sql的输出结果
# 正常情况应该只包含下面2行
# SQL> @/export/home/oracle/vmstat/vmstat_alert 7
# SQL> spool off;
# 如果超过3行则表示有异常值,那么直接邮件给DBA
#----------------------------------------
check_stat=`cat /tmp/vmstat_$ORACLE_SID.lst|wc -l`;
oracle_num=`expr $check_stat`
if [ $oracle_num -gt 3 ]
then
cat /tmp/vmstat_$ORACLE_SID.lst|mailx -s "System vmstat alert" kamus@itpub.net some_other_dba@mail.address.net
fi |