2012年(46)
分类:
2012-02-22 16:15:00
原文地址:详细的aix巡检流程 作者:kennychang05
预 防 性 维 护 服 务 报 告 单
客户名称: 机器型号 序列号
检查时间: 年 月 日
检查系统硬件情况:设备故障灯是否有亮 □有 ■无; 有其他否异常情况 □有 ■无
1. 系统错误报告(Error Log): 有否硬件故障 □有 ■无 (errpt or errpt -a)
有否软件故障 □有 ■无
2. 有否发给root用户的错误报告(mail): □有 ■无 (mail)
3. 检查hacmp.out,smit.log,bootlog等 ■正常 □不正常 (more /tmp/hacmp.out and
smit.log and alog –o –t boot)
4. 关键文件系统的使用率不大于80% ■是 □否 (df -k)
5. 逻辑卷:有否"stale"状态的逻辑卷 □有 ■无 (lsvg –l vgname or lsvg vgname)
6. 内存交换区:使用率是否超过70% □是 ■否 (lsps -a)
7. 通信:网卡的状态、IP地址、路由表等 ■正常 □不正常 (netstat –i or netstat -a)
网卡通信(ping) ■正常 □不正常
/etc/hosts文件或DNS设置 ■正常 □不正常
8. 是否有数据保护方式如RAID10/RAID5 ■是 □否
是否有Hot Spare ■有 □无
9. 系统DUMP设置是否正确: ■正常 □不正常 (sysdumpdev -l)
10. 检查系统参数是否正确: ■是 □否
1. /etc/environment文件中TZ不应有夏时制 (more /etc/environment)
2. 如有数据库系统:Aio :available (lsdev –Cc aio)
3. Hacmp 系统中I/O pacing: High Water Mark/Low Water Mark:33/24 (smitty hacmp)
4. Hacmp 系统中Syncd:10
5. Hacmp 系统中Power Monitor子系统应关闭 (more /etc/inittab)
11. 检查rootvg是否有做镜像: ■是 □否
#lsvg –l rootvg
如有镜像,所有的lv所对应的LP为PP的两倍。
12. 检查errdemon, srcmstr是否正常运行: ■是 □否 (ps –ef|grep )
13. 系统性能:有否性能瓶颈(topas, vmstat等) □有 ■无 (注:业务高峰时监测)
14. HACMP 测试: Cluster Verification: ■正常 □不正常; 相关参数设置检查: ■正常 □不正常
(根据需要) 接管测试: ■正常 □不正常
15. 系统硬件诊断: (diag)
系统板、CPU、内存、I/O板 ■正常 □不正常
网卡、SCSI卡、SSA卡 ■正常 □不正常
系统其他扩展卡 ■正常 □不正常
硬盘、磁盘阵列 ■正常 □不正常
磁带机、磁带库 ■正常 □不正常
16. 机器清洁(根据需要清洁机器各部件) ■已清洁 □不需要
系统目前存在的问题:
|
改进措施或建议:
|
检查结论:
正常 |
客户意见和建议:
客户意见:□非常满意 □满意 □一般 □不满意 □非常不满意 |
客户签字:___________ ____年____月____日 工程师签字:___________ ____年____月____日
1、 检查系统硬件情况:设备故障灯是否有亮
可用diag命令检查系统硬件运行情况
每个月用diag命令检查一下系统硬件的运行情况,及时发现硬件可能出现的故障。
硬件故障
通常将硬件故障分为以下几个类别
IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRN。
Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在 I/O柜的显示面板上一系列信息。
IPL 流程
当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:
.Phase 1: Service Processor 的初始化
Phase 1 开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止。在这个步骤会显示 8xxx 或9xxx checkpoints代码 。
. Phase 2: 由 Service Processor 引导的硬件初始化
Phase 2 开始于按下I/O柜上的白色电源开关。在这个步骤会显示 9xxx checkpoints 。91FF 是最后的代码标志着第三步骤的开始
. Phase 3: 系统固件的初始化
在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源, 在这个步骤会显示 Exxx。E105是最后的代码标志着第四步骤AIX启动的开始。在这个过程中还会显示各种位置码( 位置码代表着系统的每一个部分)
. Phase 4: AIX 启动
当AIX开始启动时,显示面板上的代码为 0xxx ,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。
Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。用diag命令进行检测,diag步骤如下:
#diag
> 选高级诊断(Advance Diagnostic)
> 选问题诊断(Problem Determination) 或
选系统检查(System Verification)
(选PD 会对系统错误记录进行分析)
diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等
SRNs (Service request numbers,服务请求码)当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。
2、系统错误报告(errlog)
#errpt
#errpt –aj ID
3、有否发给root用户的错误报告(mail)
#mail
4、检查hacmp.out,smit.log,boot.log
hacmp.out查看:# lssrc -g cluster
smit.log查看:在tmp里面查看有无smit.log,用vi查看
boot.lot查看:# alog -o -t boot
(找到时间最近的字节不为零的文件,vi查看
如果怀疑系统曾经有调整操作,检查/smit.log
alog -ot boot)
5、关键系统的文件使用率不大于80%
#df –k
6、逻辑卷有否stale
#lsvg –l vgname
7、内存交换区使用率是否超过70%
#lsps –s
#lsps –a
8、内存交换区的大小是否为物理内存的1.5倍
#ls –a
9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗)
口头询问:系统备份、数据备份
检查磁带机面板,提醒用户清洗
10、通信(网卡、IP、路由表、ping、/etc/hosts、DNS设置等)
显示 IP地址:#netstat -in
路由表信息:#netstat -rn
网卡:#netstat -i
#vi /etc/hosts
检查DNS相关文件内容
11、是否有数据保护方式如RAID10/RAID5,是否有Hot spare
如果是7133,diag→Task Selection→SSA Service Aids→Link Verification,smitty ssaraid
FAStT产品使用其管理软件Storage Manager查看
ESS使用ESS控制台查看
12、系统DUMP设置是否正确
# sysdumpdev -l
13、检查系统参数是否正确
1)/etc/enviroment中的TZ不能有夏时制
# vi /etc/environment
检查环境变量TZ,其格式应该是这样:TAIST-8,而不能是TAIST-8TAIDT-7这样的格式
2)如有数据库:Aio:available
#lsdev -C|grep aio
查看其状态是否available
如不是:smitty chgaio,将状态修改为available,重启系统
3)HACMP中I/O pacing:High Water Mark/Low Water MArk:33/24
#smitty chgsysy,将High/Low water mark从0/0修改为33/24
4)HACMP中Syncd:10
如果系统运行了HACMP
查看/etc/inittab,将syncd后次参数修改为10,然后telinit q,kill -9 "syncd's PID"
5)HACMP中Power Monitor:off
14、检查rootvg是否有镜象
# lsvg -l rootvg
15、检查errdemon,srcmstr是否正常运行
#ps -ef|grep err
#ps -ef|grep src
16、机房环境(电压、湿度)
基本要求:零地电位差不得大于1V;严格要求:零地电阻<=1Ω(国内没几个能做到,〈=3Ω就差不多了)
湿度:45%—70%
17、系统性能:有否性能瓶颈(topas,vmstat)
18、补丁程序(PTF)、微码(是否需要升级)
查看补丁级别及是否完整
#instfix -i|grep ML
检查所有硬件设备微码
#lscfg -vp
19、HACMP测试:Cluster Verification
smitty hacmp→Cluster Configuration→Cluster Verification
20、系统硬件诊断
diag→Advanced Diagnos...→Problem Determination
21、运行#snap -ac,生成文件snap+s/n.pax.Z
22、机器清洁
注:1~15为A类维护(季度维护),16~18为B类维护(半年维护),19~22为C类维护(年度维护)