Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1838749
  • 博文数量: 293
  • 博客积分: 10127
  • 博客等级: 上将
  • 技术积分: 3029
  • 用 户 组: 普通用户
  • 注册时间: 2010-08-12 19:05
文章分类

全部博文(293)

文章存档

2011年(11)

2010年(282)

我的朋友

分类:

2010-12-22 00:18:08

概述
概述 随着IBM主机系统的大规模应用,IBM主机的巡检工作显得十分重要。以下操作文档可以指导相关人员进行巡检。
检查前注意事项
工程师在进行检查前请注意以下几点:
1. IBM主机系统的检查工作必须在所有的IBM系统上做。
2. 本文中所述的任一检查不符合要求,即表明主机系统存在安全隐患。
3. 本文只列出了检查的主要步骤,若实际检查结果与本文中的结果不一致时,本文中并没有提出可行的解决方案。若有这样的情况发生请报IBM Call center(800-8101818)系统。
警告
以下操作应在业务相对比较空闲的时候执行,否则有影响系统性能的可能性。
IBM系统基本状况的检查
在本节中主要对IBM主机系统的基本状况进行检查,其中包含:检查机房环境、检查主机外观、检查主机状态灯,液晶板状态、检查操作系统版本、检查操作系统日志、检查root用户的mail、检查文件系统、检查卷组状态、检查交换区、检查网络状况、检查系统DUMP状态、检查NTP状态、检查errdemon进程状态、检查srcmstr进程状态、检查主机端HBA卡通路状态,检查根卷组状态,共十六个部分。

检查机房环境
IBM P系列主机最佳的工作环境是:
温度:10℃–40℃
湿度:8%–80%
电源:200-240V,50~60Hz(P670除外)
接地线电阻:<1欧姆
零地电压值:<1V
注意
1. P670为380V三相电, 所以上述关于电源的环境要求不适用于P670

检查主机外观
检查主机有无异常的声音,有无破损的电线,主机的防尘罩是否存在太多的灰尘。如果存在请仔细解决相关的问题。
检查主机状态灯、液晶板状态
IBM主机在正常的情况下,液晶板应该没有任何显示。设备的故障灯也应该没有点亮。相反如果液晶板有字符显示,或者故障灯亮为橙色,表示主机系统存在告警或者主机系统存在问题。这时需要立即分析和解决这些问题。
检查操作系统版本
#oslevel –r
5100-05
在我们系统中AIX的版本为5100-05,如果检查结果不一致说明存在问题。
检查操作系统日志
#errpt –d H –T PERM
上面这个命令应该没有输出,如果存在输出表明系统出现过硬件故障,需要查明原因。
#errpt –d S –T PERM

上面这个命令应该没有输出,如果存在输出表明系统出现过软件故障,需要查明原因。
检查root用户的email
#mail
仔细观察这个命令的输出,查看是否存在“Error”、“Fail”、“Waring”等相关错误信息,如存在需要查明原因。
检查文件系统
#df –k
Filesystem 1024-blocks Free %Used Iused %Iused Mounted on
/dev/hd4 8388608 5589352 34% 6481 1% /
/dev/hd2 2097152 639804 70% 26032 5% /usr
/dev/hd9var 2097152 1996544 5% 687 1% /var
/dev/hd3 2097152 1694844 20% 367 1% /tmp
/dev/hd1 131072 126848 4% 24 1% /home
/proc – - – - – /proc
/dev/hd10opt 16777216 10229144 40% 80206 2% /opt
/dev/arch_vol 807927808 779584644 4% 108 1% /opt/oracle/arch
/dev/backup_vol 807927808 685401920 16% 60 1% /opt/oracle/backup
/dev/app2_idx_vol 210763776 202153816 5% 21 1% /opt/oracle/app2idx
/dev/app2_data_vol 210763776 183327208 14% 27 1% /opt/oracle/app2data
/dev/db04_vol 34603008 32717228 6% 26 1% /opt/oracle/db04
/dev/db03_vol 34603008 32717228 6% 26 1% /opt/oracle/db03
/dev/db02_vol 419430400 409113268 3% 37 1% /opt/oracle/db02
/dev/app1_data_vol 843055104 647893736 24% 57 1% /opt/oracle/app1data
/dev/app1_idx_vol 843055104 696455008 18% 52 1% /opt/oracle/app1idx
请注意上面输出中的%Used列,这个表示文件系统使用率;%Iused列,这个表示I-node的使用率。它们都必须低于85%。如果超过这个值表示文件系统存在问题,需要对文件系统进行扩充或者修改。
检查卷组状态
#lsvg|lsvg –il
rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 1 2 2 closed/syncd N/A
hd6 paging 48 48 1 open/syncd N/A
hd8 jfslog 1 2 2 open/syncd N/A
hd4 jfs 64 128 2 open/syncd /
hd2 jfs 16 32 2 open/syncd /usr
hd9var jfs 16 32 2 open/syncd /var
hd3 jfs 16 32 2 open/syncd /tmp
hd1 jfs 1 2 2 open/syncd /home
hd10opt jfs 126 252 2 open/syncd /opt
lg_dumplv sysdump 16 16 1 open/syncd N/A
paging00 paging 48 48 1 open/syncd N/A
oravg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
backup jfs 640 640 1 open/syncd /backup
app1data jfs 360 360 1 open/syncd /opt/oracle/app1data
app1ind jfs 320 320 1 open/syncd /opt/oracle/app1ind
db02 jfs 79 79 1 open/syncd /opt/oracle/db02
db03 jfs 4 4 1 open/syncd /opt/oracle/db03
db04 jfs 4 4 1 open/syncd /opt/oracle/db04
arch jfs 280 280 1 open/syncd /opt/oracle/arch
app2data jfs 120 120 1 open/syncd /opt/oracle/app2data
app2ind jfs 80 80 1 open/syncd /opt/oracle/app2ind
loglv00 jfslog 1 1 1 open/syncd N/A
datavg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
datalv jfs 544 544 2 open/syncd /data
loglv01 jfslog 1 1 1 open/syncd N/A
请注意上面输出的LV STATE列,这个表示逻辑卷的状态,不能存在STALE的逻辑卷。如果存在STALE的逻辑卷,则说明系统存在严重的问题,必须立即解决。

注意
1. 具体逻辑卷的名字各地可能不同。
检查交换区
#lsps –a
Page Space Physical Volume Volume Group Size %Used Active Auto Type
paging00 hdisk1 rootvg 16384MB 1 yes yes lv
hd6 hdisk0 rootvg 16384MB 1 yes yes lv
请注意上面输出中的%Used和Active列。%Used表示交换区的使用率,不能超过50%。如果超过说明系统内存严重不足,需要查找原因;Active表示交换区的状态,必须为Yes。
检查网络状况
#netstat –i
Name Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll
en1 1500 link#2 0.2.55.33.df.6 641149290 0 497792381 2 0
en1 1500 10.90.1 sz_db1 641149290 0 497792381 2 0
en1 1500 10.90.1 vcs_admin 641149290 0 497792381 2 0
en1 1500 10.90.1 ipasdb 641149290 0 497792381 2 0
en2 1500 link#3 0.2.55.33.c8.5d 300403423 0 43651770 2 0
en2 1500 10.90.4 sz_db1_bak 300403423 0 43651770 2 0
en2 1500 10.90.4 ipasdb_backup 300403423 0 43651770 2 0
lo0 16896 link#1 469268 0 470577 0 0
lo0 16896 127 loopback 469268 0 470577 0 0
lo0 16896 ::1 469268 0 470577 0 0
请注意上面输出中的Ierrs和Oerrs列,分别表示网络输入错误和网络输出错误。Ierrs/Ipkts和Oerrs/Opkts必须<1%。如果不满足表示系统网络存在问题,需要继续查明。
检查系统DUMP状态
#ls –l /var/adm/ras/vmcore.*
ls: 0653-341 The file /var/adm/ras/vmcore.* does not exist.
如果在/var/adm/ras下存在vmcore文件说明系统曾经出现过dump。需要将dump包发送到IBM的800热线进行分析。
检查NTP状态
#ntpq –p
remote refid st t when poll reach delay offset disp
==============================================================================
*10.90.1.110 132.232.5.41 3 u 62 64 377 0.31 -0.350 0.14
应该存在类似于上面的输出,其中10.90.1.11为NTP server,如果输出其它的内容表示NTP进程存在问题。
检查errdemon进程状态
#ps -ef|grep errdemon|grep -v grep

root 1171532 1 0 Dec 14 – 0:00 /usr/lib/errdemon
应该存在类似于上面的输出,如果没有上面的输出表示这个进程存在问题,需要重新启动。
检查srcmstr进程状态
#ps -ef|grep srcmstr|grep -v grep
root 327856 1 0 Dec 14 – 0:00 /usr/sbin/srcmstr
应该存在类似于上面的输出,如果没有上面的输出表示这个进程存在问题,需要重新启动。
检查主机端HBA卡通路状态
#dlnkmgr view –path
Paths:000010 OnlinePaths:000010
PathStatus IO-Count IO-Errors
Online 307248273 0
PathID PathName DskName iLU ChaPort Status Type IO-Count IO-Errors DNum HDevName
000000 08.1D.00000000000000E8.0000 HITACHI .DF600F .5436 0000 0B Online Own 77948474 0 0 dlmfdrv0
000001 08.1A.00000000000000E0.0000 HITACHI .DF600F .5436 0000 1B Online Non 0 0 0 dlmfdrv0
000002 08.1D.00000000000000E8.0001 HITACHI .DF600F .5436 0001 0B Online Non 0 0 0 dlmfdrv1
000003 08.1A.00000000000000E0.0001 HITACHI .DF600F .5436 0001 1B Online Own 98646354 0 0 dlmfdrv1
000004 08.1D.00000000000000E8.0002 HITACHI .DF600F .5436 0002 0B Online Own 59536407 0 0 dlmfdrv2
000005 08.1A.00000000000000E0.0002 HITACHI .DF600F .5436 0002 1B Online Non 0 0 0 dlmfdrv2
000006 08.1A.00000000000000E0.0003 HITACHI .DF600F .5436 0003 1B Online Non 0 0 0 dlmfdrv3
000007 08.1D.00000000000000E8.0003 HITACHI .DF600F .5436 0003 0B Online Own 35558506 0 0 dlmfdrv3
000008 08.1A.00000000000000E0.0004 HITACHI .DF600F .5436 0004 1B Online Own 35558532 0 0 dlmfdrv4
000009 08.1D.00000000000000E8.0004 HITACHI .DF600F .5436 0004 0B Online Non 0 0 0 dlmfdrv4
应该存在类似于上面的输出,请注意Status和Type两个列。每一个LUN都应该存在两个通路。两个通路一个为Own,一个为Non,但两个通路都必须为online。如果某个LUN的显示结果不是这样,表示IBM主机的某个HBA卡或者某路光纤或者存储器相关的某个控制器损坏。

注意
1. 具体的LUN输出各地可能不同。
2. 对于HDS9970或者SE9970,每个LUN的两个通路都应该为Own,否则视为错误。

检查根卷组镜像状态
#lsvg -l rootvg
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 1 2 2 closed/syncd N/A
hd6 paging 128 128 1 open/syncd N/A
hd8 jfslog 1 2 2 open/syncd N/A
hd4 jfs 64 128 2 open/syncd /
hd2 jfs 16 32 2 open/syncd /usr
hd9var jfs 16 32 2 open/syncd /var
hd3 jfs 16 32 2 open/syncd /tmp
hd1 jfs 1 2 2 open/syncd /home
hd10opt jfs 128 256 2 open/syncd /opt
lg_dumplv sysdump 24 24 1 open/syncd N/A
paging00 paging 128 128 1 open/syncd N/A
请注意LPs、PPs、PVs各列的值,对于每个LV它们应该满足LPs*2=PPs,同时PVs应该等于2(除了hd6、dump lv以及pageing space除外)。
IBM系统参数的检查
注意
1. 以下的检查结果如果存在问题,会严重影响系统的性能。
系统资源配置参数
#vi /etc/security/limits
请核对文件中default段各参数与下面一致:
fsize = -1
core = 2097151
cpu = -1 data = -1
rss = -1 stack = -1
nofiles = 2000
最大并发进程数检查
#lsattr -El sys0|grep maxuproc
maxuproc 1024 Maximum number of PROCESSES allowed per user True

异步I/O参数的检查
#lsattr -El aio0|grep minservers
minservers 100 MINIMUM number of servers True
#lsattr -El aio0|grep maxservers
maxservers 200 MAXIMUM number of servers True
#lsattr -El aio0|grep maxreqs
maxreqs 8192 Maximum number of REQUESTS True
#lsattr -El aio0|grep kprocprio

kprocprio 39 Server PRIORITY True
网络参数的检查
#cat /etc/rc.net|grep tcp_sendspace
/usr/sbin/no -o tcp_sendspace=65536
#cat /etc/rc.net|grep tcp_recvspace
/usr/sbin/no -o tcp_recvspace=65536
内存参数的检查
# cat /etc/inittab|grep vmtune
vmtune:2:once:/usr/samples/kernel/vmtune -P 20 -p 5

IBM系统性能的监测
CPU性能
# sar -P ALL 1 4000
IX sz_db1 1 5 0033B15E4C00 03/04/05
16:19:45 cpu %usr %sys %wio %idle
16:19:47 0 0 1 0 99
1 0 1 0 99
2 0 0 0 100
3 0 0 3 97
4 16 1 0 83
5 0 1 0 99
6 0 0 0 100
7 33 1 0 66
8 0 1 0 99
9 1 1 0 98
10 0 0 16 84
11 0 0 0 100
12 0 1 0 99
13 0 0 0 100
14 8 0 0 92
15 1 2 0 97
……

主机系统的idle应该在60%以上,否则应该再仔细查找原因。
内存性能
# vmstat 1 4000
kthr memory page faults cpu
—– ———– ———————— ———— ———–
r b avm fre re pi po fr sr cy in sy cs us sy id wa
2 1 3883441 253 0 0 0 439 299 0 2899 28048 4389 12 2 81 5
1 2 3883447 244 0 0 0 221 314 0 2708 26996 2507 5 7 80 8
0 1 3883447 250 0 0 0 345 586 0 4155 31983 5289 6 3 85 6
0 0 3883447 244 0 0 0 125 257 0 3108 6518 3530 3 0 94 2
请注意pi、po、sr这三项都应该在0左右,否则应该再仔细查找原因。
I/O性能
# sar -P ALL 1 4000
IX sz_db1 1 5 0033B15E4C00 03/04/05
16:19:45 cpu %usr %sys %wio %idle
16:19:47 0 0 1 0 99

1 0 1 0 99
2 0 0 0 100
3 0 0 3 97
4 16 1 0 83
5 0 1 0 99
6 0 0 0 100
7 33 1 0 66
8 0 1 0 99
9 1 1 0 98
10 0 0 16 84
11 0 0 0 100
12 0 1 0 99
13 0 0 0 100
14 8 0 0 92
15 1 2 0 97
……
主机系统的%wio应该在30%以上,否则应该再仔细查找原因。

阅读(2171) | 评论(0) | 转发(1) |
给主人留下些什么吧!~~