IBM主机巡检操作文档-zhang288-ChinaUnix博客

zhang288的ChinaUnix博客

首页　| 　博文目录　| 　关于我

zhang288

博客访问： 87648
博文数量： 46
博客积分： 10
博客等级：民兵
技术积分： 240
用户组：普通用户
注册时间： 2012-02-22 14:29

文章分类

全部博文（46）

未分配的博文（46）

文章存档

2012年（46）

我的朋友

最近访客

推荐博文

IBM主机巡检操作文档

分类：

2012-02-22 15:37:50

原文地址：IBM主机巡检操作文档作者：kennychang05

概述
概述随着IBM主机系统的大规模应用，IBM主机的巡检工作显得十分重要。以下操作文档可以指导相关人员进行巡检。
检查前注意事项
工程师在进行检查前请注意以下几点：
1. IBM主机系统的检查工作必须在所有的IBM系统上做。
2. 本文中所述的任一检查不符合要求，即表明主机系统存在安全隐患。
3. 本文只列出了检查的主要步骤，若实际检查结果与本文中的结果不一致时，本文中并没有提出可行的解决方案。若有这样的情况发生请报IBM Call center（800-8101818）系统。
警告
以下操作应在业务相对比较空闲的时候执行，否则有影响系统性能的可能性。
IBM系统基本状况的检查
在本节中主要对IBM主机系统的基本状况进行检查，其中包含：检查机房环境、检查主机外观、检查主机状态灯，液晶板状态、检查操作系统版本、检查操作系统日志、检查root用户的mail、检查文件系统、检查卷组状态、检查交换区、检查网络状况、检查系统DUMP状态、检查NTP状态、检查errdemon进程状态、检查srcmstr进程状态、检查主机端HBA卡通路状态，检查根卷组状态，共十六个部分。

检查机房环境
IBM P系列主机最佳的工作环境是：
温度：10℃–40℃
湿度：8%–80%
电源：200-240V,50~60Hz（P670除外）
接地线电阻：<1欧姆
零地电压值：<1V
注意
1. P670为380V三相电，所以上述关于电源的环境要求不适用于P670

检查主机外观
检查主机有无异常的声音，有无破损的电线，主机的防尘罩是否存在太多的灰尘。如果存在请仔细解决相关的问题。
检查主机状态灯、液晶板状态
IBM主机在正常的情况下，液晶板应该没有任何显示。设备的故障灯也应该没有点亮。相反如果液晶板有字符显示，或者故障灯亮为橙色，表示主机系统存在告警或者主机系统存在问题。这时需要立即分析和解决这些问题。
检查操作系统版本
#oslevel –r
5100-05
在我们系统中AIX的版本为5100-05，如果检查结果不一致说明存在问题。
检查操作系统日志
#errpt –d H –T PERM
上面这个命令应该没有输出，如果存在输出表明系统出现过硬件故障，需要查明原因。
#errpt –d S –T PERM

上面这个命令应该没有输出，如果存在输出表明系统出现过软件故障，需要查明原因。
检查root用户的email
#mail
仔细观察这个命令的输出，查看是否存在“Error”、“Fail”、“Waring”等相关错误信息，如存在需要查明原因。
检查文件系统
#df –k
Filesystem 1024-blocks Free %Used Iused %Iused Mounted on
/dev/hd4 8388608 5589352 34% 6481 1% /
/dev/hd2 2097152 639804 70% 26032 5% /usr
/dev/hd9var 2097152 1996544 5% 687 1% /var
/dev/hd3 2097152 1694844 20% 367 1% /tmp
/dev/hd1 131072 126848 4% 24 1% /home
/proc – - – - – /proc
/dev/hd10opt 16777216 10229144 40% 80206 2% /opt
/dev/arch_vol 807927808 779584644 4% 108 1% /opt/oracle/arch
/dev/backup_vol 807927808 685401920 16% 60 1% /opt/oracle/backup
/dev/app2_idx_vol 210763776 202153816 5% 21 1% /opt/oracle/app2idx
/dev/app2_data_vol 210763776 183327208 14% 27 1% /opt/oracle/app2data
/dev/db04_vol 34603008 32717228 6% 26 1% /opt/oracle/db04
/dev/db03_vol 34603008 32717228 6% 26 1% /opt/oracle/db03
/dev/db02_vol 419430400 409113268 3% 37 1% /opt/oracle/db02
/dev/app1_data_vol 843055104 647893736 24% 57 1% /opt/oracle/app1data
/dev/app1_idx_vol 843055104 696455008 18% 52 1% /opt/oracle/app1idx
请注意上面输出中的%Used列，这个表示文件系统使用率；%Iused列，这个表示I-node的使用率。它们都必须低于85%。如果超过这个值表示文件系统存在问题，需要对文件系统进行扩充或者修改。
检查卷组状态
#lsvg|lsvg –il
rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 1 2 2 closed/syncd N/A
hd6 paging 48 48 1 open/syncd N/A
hd8 jfslog 1 2 2 open/syncd N/A
hd4 jfs 64 128 2 open/syncd /
hd2 jfs 16 32 2 open/syncd /usr
hd9var jfs 16 32 2 open/syncd /var
hd3 jfs 16 32 2 open/syncd /tmp
hd1 jfs 1 2 2 open/syncd /home
hd10opt jfs 126 252 2 open/syncd /opt
lg_dumplv sysdump 16 16 1 open/syncd N/A
paging00 paging 48 48 1 open/syncd N/A
oravg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
backup jfs 640 640 1 open/syncd /backup
app1data jfs 360 360 1 open/syncd /opt/oracle/app1data
app1ind jfs 320 320 1 open/syncd /opt/oracle/app1ind
db02 jfs 79 79 1 open/syncd /opt/oracle/db02
db03 jfs 4 4 1 open/syncd /opt/oracle/db03
db04 jfs 4 4 1 open/syncd /opt/oracle/db04
arch jfs 280 280 1 open/syncd /opt/oracle/arch
app2data jfs 120 120 1 open/syncd /opt/oracle/app2data
app2ind jfs 80 80 1 open/syncd /opt/oracle/app2ind
loglv00 jfslog 1 1 1 open/syncd N/A
datavg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
datalv jfs 544 544 2 open/syncd /data
loglv01 jfslog 1 1 1 open/syncd N/A
请注意上面输出的LV STATE列，这个表示逻辑卷的状态，不能存在STALE的逻辑卷。如果存在STALE的逻辑卷，则说明系统存在严重的问题，必须立即解决。

注意
1. 具体逻辑卷的名字各地可能不同。
检查交换区
#lsps –a
Page Space Physical Volume Volume Group Size %Used Active Auto Type
paging00 hdisk1 rootvg 16384MB 1 yes yes lv
hd6 hdisk0 rootvg 16384MB 1 yes yes lv
请注意上面输出中的%Used和Active列。%Used表示交换区的使用率，不能超过50%。如果超过说明系统内存严重不足，需要查找原因；Active表示交换区的状态，必须为Yes。
检查网络状况
#netstat –i
Name Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll
en1 1500 link#2 0.2.55.33.df.6 641149290 0 497792381 2 0
en1 1500 10.90.1 sz_db1 641149290 0 497792381 2 0
en1 1500 10.90.1 vcs_admin 641149290 0 497792381 2 0
en1 1500 10.90.1 ipasdb 641149290 0 497792381 2 0
en2 1500 link#3 0.2.55.33.c8.5d 300403423 0 43651770 2 0
en2 1500 10.90.4 sz_db1_bak 300403423 0 43651770 2 0
en2 1500 10.90.4 ipasdb_backup 300403423 0 43651770 2 0
lo0 16896 link#1 469268 0 470577 0 0
lo0 16896 127 loopback 469268 0 470577 0 0
lo0 16896 ::1 469268 0 470577 0 0
请注意上面输出中的Ierrs和Oerrs列，分别表示网络输入错误和网络输出错误。Ierrs/Ipkts和Oerrs/Opkts必须<1%。如果不满足表示系统网络存在问题，需要继续查明。
检查系统DUMP状态
#ls –l /var/adm/ras/vmcore.*
ls: 0653-341 The file /var/adm/ras/vmcore.* does not exist.
如果在/var/adm/ras下存在vmcore文件说明系统曾经出现过dump。需要将dump包发送到IBM的800热线进行分析。
检查NTP状态
#ntpq –p
remote refid st t when poll reach delay offset disp
==============================================================================
*10.90.1.110 132.232.5.41 3 u 62 64 377 0.31 -0.350 0.14
应该存在类似于上面的输出，其中10.90.1.11为NTP server，如果输出其它的内容表示NTP进程存在问题。
检查errdemon进程状态
#ps -ef|grep errdemon|grep -v grep

root 1171532 1 0 Dec 14 – 0:00 /usr/lib/errdemon
应该存在类似于上面的输出，如果没有上面的输出表示这个进程存在问题，需要重新启动。
检查srcmstr进程状态
#ps -ef|grep srcmstr|grep -v grep
root 327856 1 0 Dec 14 – 0:00 /usr/sbin/srcmstr
应该存在类似于上面的输出，如果没有上面的输出表示这个进程存在问题，需要重新启动。
检查主机端HBA卡通路状态
#dlnkmgr view –path
Paths:000010 OnlinePaths:000010
PathStatus IO-Count IO-Errors
Online 307248273 0
PathID PathName DskName iLU ChaPort Status Type IO-Count IO-Errors DNum HDevName
000000 08.1D.00000000000000E8.0000 HITACHI .DF600F .5436 0000 0B Online Own 77948474 0 0 dlmfdrv0
000001 08.1A.00000000000000E0.0000 HITACHI .DF600F .5436 0000 1B Online Non 0 0 0 dlmfdrv0
000002 08.1D.00000000000000E8.0001 HITACHI .DF600F .5436 0001 0B Online Non 0 0 0 dlmfdrv1
000003 08.1A.00000000000000E0.0001 HITACHI .DF600F .5436 0001 1B Online Own 98646354 0 0 dlmfdrv1
000004 08.1D.00000000000000E8.0002 HITACHI .DF600F .5436 0002 0B Online Own 59536407 0 0 dlmfdrv2
000005 08.1A.00000000000000E0.0002 HITACHI .DF600F .5436 0002 1B Online Non 0 0 0 dlmfdrv2
000006 08.1A.00000000000000E0.0003 HITACHI .DF600F .5436 0003 1B Online Non 0 0 0 dlmfdrv3
000007 08.1D.00000000000000E8.0003 HITACHI .DF600F .5436 0003 0B Online Own 35558506 0 0 dlmfdrv3
000008 08.1A.00000000000000E0.0004 HITACHI .DF600F .5436 0004 1B Online Own 35558532 0 0 dlmfdrv4
000009 08.1D.00000000000000E8.0004 HITACHI .DF600F .5436 0004 0B Online Non 0 0 0 dlmfdrv4
应该存在类似于上面的输出，请注意Status和Type两个列。每一个LUN都应该存在两个通路。两个通路一个为Own，一个为Non，但两个通路都必须为online。如果某个LUN的显示结果不是这样，表示IBM主机的某个HBA卡或者某路光纤或者存储器相关的某个控制器损坏。

注意
1. 具体的LUN输出各地可能不同。
2. 对于HDS9970或者SE9970，每个LUN的两个通路都应该为Own，否则视为错误。

检查根卷组镜像状态
#lsvg -l rootvg
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 1 2 2 closed/syncd N/A
hd6 paging 128 128 1 open/syncd N/A
hd8 jfslog 1 2 2 open/syncd N/A
hd4 jfs 64 128 2 open/syncd /
hd2 jfs 16 32 2 open/syncd /usr
hd9var jfs 16 32 2 open/syncd /var
hd3 jfs 16 32 2 open/syncd /tmp
hd1 jfs 1 2 2 open/syncd /home
hd10opt jfs 128 256 2 open/syncd /opt
lg_dumplv sysdump 24 24 1 open/syncd N/A
paging00 paging 128 128 1 open/syncd N/A
请注意LPs、PPs、PVs各列的值，对于每个LV它们应该满足LPs*2=PPs，同时PVs应该等于2（除了hd6、dump lv以及pageing space除外）。
IBM系统参数的检查
注意
1. 以下的检查结果如果存在问题，会严重影响系统的性能。
系统资源配置参数
#vi /etc/security/limits
请核对文件中default段各参数与下面一致：
fsize = -1
core = 2097151
cpu = -1 data = -1
rss = -1 stack = -1
nofiles = 2000
最大并发进程数检查
#lsattr -El sys0|grep maxuproc
maxuproc 1024 Maximum number of PROCESSES allowed per user True

异步I/O参数的检查
#lsattr -El aio0|grep minservers
minservers 100 MINIMUM number of servers True
#lsattr -El aio0|grep maxservers
maxservers 200 MAXIMUM number of servers True
#lsattr -El aio0|grep maxreqs
maxreqs 8192 Maximum number of REQUESTS True
#lsattr -El aio0|grep kprocprio

kprocprio 39 Server PRIORITY True
网络参数的检查
#cat /etc/rc.net|grep tcp_sendspace
/usr/sbin/no -o tcp_sendspace=65536
#cat /etc/rc.net|grep tcp_recvspace
/usr/sbin/no -o tcp_recvspace=65536
内存参数的检查
# cat /etc/inittab|grep vmtune
vmtune:2:once:/usr/samples/kernel/vmtune -P 20 -p 5

IBM系统性能的监测
CPU性能
# sar -P ALL 1 4000
IX sz_db1 1 5 0033B15E4C00 03/04/05
16:19:45 cpu %usr %sys %wio %idle
16:19:47 0 0 1 0 99
1 0 1 0 99
2 0 0 0 100
3 0 0 3 97
4 16 1 0 83
5 0 1 0 99
6 0 0 0 100
7 33 1 0 66
8 0 1 0 99
9 1 1 0 98
10 0 0 16 84
11 0 0 0 100
12 0 1 0 99
13 0 0 0 100
14 8 0 0 92
15 1 2 0 97
……

主机系统的idle应该在60%以上，否则应该再仔细查找原因。
内存性能
# vmstat 1 4000
kthr memory page faults cpu
—– ———– ———————— ———— ———–
r b avm fre re pi po fr sr cy in sy cs us sy id wa
2 1 3883441 253 0 0 0 439 299 0 2899 28048 4389 12 2 81 5
1 2 3883447 244 0 0 0 221 314 0 2708 26996 2507 5 7 80 8
0 1 3883447 250 0 0 0 345 586 0 4155 31983 5289 6 3 85 6
0 0 3883447 244 0 0 0 125 257 0 3108 6518 3530 3 0 94 2
请注意pi、po、sr这三项都应该在0左右，否则应该再仔细查找原因。
I/O性能
# sar -P ALL 1 4000
IX sz_db1 1 5 0033B15E4C00 03/04/05
16:19:45 cpu %usr %sys %wio %idle
16:19:47 0 0 1 0 99

1 0 1 0 99
2 0 0 0 100
3 0 0 3 97
4 16 1 0 83
5 0 1 0 99
6 0 0 0 100
7 33 1 0 66
8 0 1 0 99
9 1 1 0 98
10 0 0 16 84
11 0 0 0 100
12 0 1 0 99
13 0 0 0 100
14 8 0 0 92
15 1 2 0 97
……
主机系统的%wio应该在30%以上，否则应该再仔细查找原因。

阅读(790) | 评论(0) | 转发(0) |

上一篇：在AIX中如何升级光纤卡6239的微码

下一篇：AIX安全加固点滴

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6