一个陶醉于在小型机与存储之中游弋的人,无烟酒之习,唯品粗茶。每每在接触掌握新设备和解决疑难故障之时,收获着自己的快乐。愿寻觅志同道合之人,同进步共成长。
分类: AIX
2013-07-17 17:17:48
XX市公安局,2台P570挂1台DS4700,跑RAC,于2012年9月在济南某公司购买两块FC盘做Spare,插在Slot 8和Slot 9上。2013年6月初开始主机上有关于存储的报错日志产生。由于设备早已出原厂保修,用户联系到我,让我帮其查看下故障原因。
由于我和用户不在同一个城市,于是让用户把日志发与我。
截取报错日志如下
---------------------------------------------------------------------------
Date/Time: Thu Jun 20 15:48:23 BEIST 2013
Class: H
Type: PERM
Resource Name: hdisk4
Resource Class: disk
Resource Type: array
Description
SUBSYSTEM COMPONENT FAILURE
Probable Causes
ARRAY DASD MEDIA
POWER OR FAN COMPONENT
Failure Causes
ARRAY DASD MEDIA
POWER OR FAN COMPONENT
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
---------------------------------------------------------------------------
Date/Time: Thu Jun 20 15:48:19 BEIST 2013
Class: H
Type: PERM
Resource Name: hdisk3
Resource Class: disk
Resource Type: array
Description
SUBSYSTEM COMPONENT FAILURE
Probable Causes
ARRAY DASD MEDIA
POWER OR FAN COMPONENT
Failure Causes
ARRAY DASD MEDIA
POWER OR FAN COMPONENT
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
---------------------------------------------------------------------------
Date/Time: Thu Jun 20 15:48:15 BEIST 2013
Class: H
Type: PERM
Resource Name: hdisk2
Resource Class: disk
Resource Type: array
Description
SUBSYSTEM COMPONENT FAILURE
Probable Causes
ARRAY DASD MEDIA
POWER OR FAN COMPONENT
Failure Causes
ARRAY DASD MEDIA
POWER OR FAN COMPONENT
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
---------------------------------------------------------------------------
从主机日志上看,应该是电源或风扇坏,于是告知用户,去机房查看存储,应该有告警灯提示电源或风扇坏。用户到机房后,电话告知我说所有状态灯都正常。让其通过SM连接上去查看,状态也一切OK。嗯?这是为什么?误报?看来没那么简单,于是让用户将存储的日志再次发过来。
查看存储日志,硬件状态一切正常,所有的硬件部件的status都为Optimal。但是通过进一步对日志分析查看,发现存储端频繁报disk error,位置分别为Slot 8和Slot 9。
通知用户Slot 8和Slot 9的盘有潜在故障,需要更换,由于在保修期内,让用户找去年卖给他们盘的公司保修去。
一周后,与用户通电话询问盘的情况,用户说济南那家公司说硬盘没有坏,不需要换。我告诉用户说,因为他们看不出来,所以说硬盘没有坏。
隔了几天,用户电话过来,说两块盘已经告警了,那家公司过来换盘了。我与用户开玩笑说,看来我是个半仙儿,用户也笑着说,不,你不是半仙儿,你是全仙儿。
最后,用户对在此事上我给他们的帮助,表示感谢。