Chinaunix首页 | 论坛 | 博客
  • 博客访问: 47267
  • 博文数量: 12
  • 博客积分: 335
  • 博客等级: 一等列兵
  • 技术积分: 95
  • 用 户 组: 普通用户
  • 注册时间: 2007-11-23 17:09
文章分类
文章存档

2012年(7)

2010年(4)

2009年(1)

我的朋友

分类:

2009-08-20 19:41:35

以下内容转载自:

最为详细的AIX 巡检流程

发布: 2009-8-17 11:57 | 作者: liuye0607 | 来源: | 查看: 74次

1、 检查系统硬件情况:设备故障灯是否有亮

可用diag命令检查系统硬件运行情况

每个月用diag命令检查一下系统硬件的运行情况,及时发现硬件可能出现的故障。

硬件故障

通常将硬件故障分为以下几个类别

IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRN。

Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在 I/O柜的显示面板上一系列信息。

IPL 流程

当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:

.Phase 1: Service Processor 的初始化

Phase 1 开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止。在这个步骤会显示 8xxx 或9xxx checkpoints代码 。

. Phase 2: 由 Service Processor 引导的硬件初始化

Phase 2 开始于按下I/O柜上的白色电源开关。在这个步骤会显示 9xxx checkpoints 。91FF 是最后的代码标志着第三步骤的开始

. Phase 3: 系统固件的初始化

在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源, 在这个步骤会显示 Exxx。E105是最后的代码标志着第四步骤AIX启动的开始。在这个过程中还会显示各种位置码( 位置码代表着系统的每一个部分)

. Phase 4: AIX 启动

当AIX开始启动时,显示面板上的代码为 0xxx ,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。

Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。用diag命令进行检测,diag步骤如下:

#diag

> 选高级诊断(Advance Diagnostic)

> 选问题诊断(Problem Determination) 或

选系统检查(System Verification)

(选PD 会对系统错误记录进行分析)

diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等

SRNs (Service request numbers,服务请求码)当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。

 

2、系统错误报告(errlog)

#errpt

#errpt –aj ID

 

3、有否发给root用户的错误报告(mail)

#mail

 

4、检查hacmp.out,smit.log,boot.log

hacmp.out查看:# lssrc -g cluster

smit.log查看:在tmp里面查看有无smit.log,用vi查看

boot.lot查看:# alog -o -t boot

(找到时间最近的字节不为零的文件,vi查看

如果怀疑系统曾经有调整操作,检查/smit.log

alog -ot boot)

5、关键系统的文件使用率不大于80%

#df –k

 

6、逻辑卷有否stale

#lsvg –l vgname

 

7、内存交换区使用率是否超过70%

#lsps –s

#lsps –a

 

8、内存交换区的大小是否为物理内存的1.5倍

#ls –a

 

9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗)

口头询问:系统备份、数据备份

检查磁带机面板,提醒用户清洗

 

10、通信(网卡、IP、路由表、ping、/etc/hosts、DNS设置等)

显示 IP地址:#netstat -in

路由表信息:#netstat -rn

网卡:#netstat -i

#vi /etc/hosts

检查DNS相关文件内容

 

11、是否有数据保护方式如RAID10/RAID5,是否有Hot spare

如果是7133,diag→Task Selection→SSA Service Aids→Link Verification,smitty ssaraid

FAStT产品使用其管理软件Storage Manager查看

ESS使用ESS控制台查看

 

12、系统DUMP设置是否正确

# sysdumpdev -l

 

13、检查系统参数是否正确

1)/etc/enviroment中的TZ不能有夏时制

# vi /etc/environment

检查环境变量TZ,其格式应该是这样:TAIST-8,而不能是TAIST-8TAIDT-7这样的格式

 

2)如有数据库:Aio:available

#lsdev -C|grep aio

查看其状态是否available

如不是:smitty chgaio,将状态修改为available,重启系统

 

3)HACMP中I/O pacing:High Water Mark/Low Water MArk:33/24

#smitty chgsysy,将High/Low water mark从0/0修改为33/24

 

4)HACMP中Syncd:10

如果系统运行了HACMP

查看/etc/inittab,将syncd后次参数修改为10,然后telinit q,kill -9 "syncd's PID"

 

5)HACMP中Power Monitor:off

 

14、检查rootvg是否有镜象

# lsvg -l rootvg

 

15、检查errdemon,srcmstr是否正常运行

#ps -ef|grep err

#ps -ef|grep src

16、机房环境(电压、湿度)

基本要求:零地电位差不得大于1V;严格要求:零地电阻<=1Ω(国内没几个能做到,〈=3Ω就差不多了)

湿度:45%—70%

17、系统性能:有否性能瓶颈(topas,vmstat)

 

18、补丁程序(PTF)、微码(是否需要升级)

查看补丁级别及是否完整

#instfix -i|grep ML

检查所有硬件设备微码

#lscfg -vp

 

19、HACMP测试:Cluster Verification

smitty hacmp→Cluster Configuration→Cluster Verification

 

20、系统硬件诊断

diag→Advanced Diagnos...→Problem Determination

21、运行#snap -ac,生成文件snap+s/n.pax.Z

 

22、机器清洁

注:1~15为A类维护(季度维护),16~18为B类维护(半年维护),19~22为C类维护(年度维护)

阅读(1626) | 评论(0) | 转发(0) |
0

上一篇:没有了

下一篇:jquery/graphTable简例,形成折线图

给主人留下些什么吧!~~