Chinaunix首页 | 论坛 | 博客
  • 博客访问: 84452
  • 博文数量: 46
  • 博客积分: 10
  • 博客等级: 民兵
  • 技术积分: 240
  • 用 户 组: 普通用户
  • 注册时间: 2012-02-22 14:29
文章分类
文章存档

2012年(46)

我的朋友

分类:

2012-02-22 16:15:00

原文地址:详细的aix巡检流程 作者:kennychang05

预 防 性 维 护 服 务 报 告 单

客户名称:                 机器型号          序列号                            

检查时间:         

检查系统硬件情况:设备故障灯是否有亮     有   无; 有其他否异常情况  □有  

1. 系统错误报告(Error Log):  有否硬件故障        (errpt or errpt -a)
  有否软件故障    

2. 有否发给root用户的错误报告(mail):           (mail)

3. 检查hacmp.out,smit.log,bootlog等        正常    □不正常 (more /tmp/hacmp.out and 

smit.log and alog t boot)

4. 关键文件系统的使用率不大于80%              (df -k)

5. 逻辑卷:有否"stale"状态的逻辑卷       (lsvg l vgname or lsvg vgname)

6. 内存交换区:使用率是否超过70%       (lsps -a)

7. 通信:网卡的状态、IP地址、路由表等  正常   不正常 (netstat i or netstat -a)
      网卡通信(ping) 正常  不正常   
  /etc/hosts文件或DNS设置 正常  不正常

8. 是否有数据保护方式如RAID10/RAID5      

是否有Hot  Spare 有     □无

9. 系统DUMP设置是否正确: 正常   □不正常 (sysdumpdev -l)

10. 检查系统参数是否正确: 是     □否

1. /etc/environment文件中TZ不应有夏时制 more /etc/environment

2. 如有数据库系统:Aio :available (lsdev Cc aio)

3. Hacmp 系统中I/O pacing: High Water Mark/Low Water Mark:33/24 (smitty hacmp)

4. Hacmp 系统中Syncd:10

5. Hacmp 系统中Power Monitor子系统应关闭 (more /etc/inittab)

11. 检查rootvg是否有做镜像: 是 □否

#lsvg l rootvg

如有镜像,所有的lv所对应的LPPP的两倍。

12. 检查errdemon, srcmstr是否正常运行:        是 □否 (ps ef|grep )

13. 系统性能:有否性能瓶颈(topas, vmstat等) □有 无  (注:业务高峰时监测)

14. HACMP 测试: Cluster Verification 正常  不正常;  相关参数设置检查:  正常 不正常
(根据需要)     接管测试: 正常  不正常   

15. 系统硬件诊断: (diag)
系统板、CPU、内存、I/O     正常  不正常
网卡、SCSI卡、SSA           正常  不正常
系统其他扩展卡   正常  不正常
硬盘、磁盘阵列   正常  不正常
磁带机、磁带库   ■正常  不正常

16. 机器清洁(根据需要清洁机器各部件)        清洁  不需要

系统目前存在的问题:

改进措施或建议:

检查结论:

正常

客户意见和建议:

客户意见:□非常满意 □满意    □一般        □不满意 □非常不满意

客户签字:___________ ____________            工程师签字:___________ ____________

 

1、 检查系统硬件情况:设备故障灯是否有亮 

可用diag命令检查系统硬件运行情况

每个月用diag命令检查一下系统硬件的运行情况,及时发现硬件可能出现的故障。

硬件故障 

通常将硬件故障分为以下几个类别 

IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code SRN。 

Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在 I/O柜的显示面板上一系列信息。 

IPL 流程 

当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤: 

.Phase 1: Service Processor 的初始化 

Phase 1 开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止。在这个步骤会显示 8xxx 9xxx checkpoints代码 。 

. Phase 2: 由 Service Processor 引导的硬件初始化 

Phase 2 开始于按下I/O柜上的白色电源开关。在这个步骤会显示 9xxx checkpoints 91FF 是最后的代码标志着第三步骤的开始 

. Phase 3: 系统固件的初始化 

在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源, 在这个步骤会显示 ExxxE105是最后的代码标志着第四步骤AIX启动的开始。在这个过程中还会显示各种位置码( 位置码代表着系统的每一个部分) 

. Phase 4: AIX 启动 

AIX开始启动时,显示面板上的代码为 0xxx ,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。 

Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。用diag命令进行检测,diag步骤如下: 

#diag 

选高级诊断(Advance Diagnostic) 

选问题诊断(Problem Determination) 或 

选系统检查(System Verification) 

(PD 会对系统错误记录进行分析

diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等 

SRNs Service request numbers,服务请求码)当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIXerror log中也会有记载。

 

2、系统错误报告(errlog) 

#errpt

#errpt –aj ID

 

3、有否发给root用户的错误报告(mail) 

#mail

 

4、检查hacmp.out,smit.log,boot.log 

hacmp.out查看:# lssrc -g cluster

smit.log查看:在tmp里面查看有无smit.log,用vi查看

boot.lot查看:# alog -o -t boot

(找到时间最近的字节不为零的文件,vi查看

如果怀疑系统曾经有调整操作,检查/smit.log

alog -ot boot) 

5、关键系统的文件使用率不大于80% 

#df –k

 

6、逻辑卷有否stale 

#lsvg –l vgname

 

7、内存交换区使用率是否超过70% 

#lsps –s

#lsps –a

 

8、内存交换区的大小是否为物理内存的1.5倍 

#ls –a

 

9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗)

口头询问:系统备份、数据备份

检查磁带机面板,提醒用户清洗

 

10、通信(网卡、IP、路由表、ping/etc/hostsDNS设置等) 

显示 IP地址:#netstat -in

路由表信息:#netstat -rn

网卡:#netstat -i

#vi /etc/hosts

检查DNS相关文件内容

 

11、是否有数据保护方式如RAID10/RAID5,是否有Hot spare 

如果是7133diag→Task Selection→SSA Service Aids→Link Verificationsmitty ssaraid

FAStT产品使用其管理软件Storage Manager查看

ESS使用ESS控制台查看

 

12、系统DUMP设置是否正确 

# sysdumpdev -l 

 

13、检查系统参数是否正确 

1)/etc/enviroment中的TZ不能有夏时制 

# vi /etc/environment 

检查环境变量TZ,其格式应该是这样:TAIST-8,而不能是TAIST-8TAIDT-7这样的格式

 

2)如有数据库:Aio:available 

#lsdev -C|grep aio 

查看其状态是否available 

如不是:smitty chgaio,将状态修改为available,重启系统

 

3)HACMPI/O pacing:High Water Mark/Low Water MArk:33/24 

#smitty chgsysy,将High/Low water mark0/0修改为33/24 

 

4)HACMPSyncd:10 

如果系统运行了HACMP

查看/etc/inittab,将syncd后次参数修改为10,然后telinit qkill -9 "syncd's PID" 

 

5)HACMPPower Monitor:off 

 

14、检查rootvg是否有镜象 

# lsvg -l rootvg 

 

15、检查errdemon,srcmstr是否正常运行 

#ps -ef|grep err

#ps -ef|grep src 

16、机房环境(电压、湿度) 

基本要求:零地电位差不得大于1V;严格要求:零地电阻<=1Ω(国内没几个能做到,〈=3Ω就差不多了)

湿度:45%—70% 

17、系统性能:有否性能瓶颈(topas,vmstat) 

 

18、补丁程序(PTF)、微码(是否需要升级) 

查看补丁级别及是否完整

#instfix -i|grep ML 

检查所有硬件设备微码

#lscfg -vp 

 

19HACMP测试:Cluster Verification 

smitty hacmp→Cluster Configuration→Cluster Verification

 

20、系统硬件诊断 

diag→Advanced Diagnos...→Problem Determination

21、运行#snap -ac,生成文件snap+s/n.pax.Z 

 

22、机器清洁 

注:1~15A类维护(季度维护),16~18B类维护(半年维护),19~22C类维护(年度维护)

阅读(693) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~