IBM x系列服务器”DASD“故障一例
7月21日下午检查机房设备时,发现一台IBM x3650服务器0号硬盘黄灯闪烁,前面板“!”红色警示灯亮,操作系统运行正常。打开“Light Path“面板,发现”DASD“灯亮,上网搜索了一下得知DASD(Direct Access Storage Device)灯亮是硬盘背板故障。这台服务器才运行一年多时间啊,不会这么快就坏吧。赶紧拨打IBM 800报修电话,描述完故障,客服人员做好记录后说呆会有工程师回电。可1个多小时过去了还没接到回电(当时心里不是很爽),于是又拨通了IBM报修热线,这回接电话的是另外一位工程师,了解故障情况后,答复:黄灯闪烁是硬盘在同步数据,同步完成会熄灭,DASD灯亮需作测试报告以进一步确定故障原因,有可能要对机器作微码升级,让我先做好数据备份,并将测试步骤以及所需测试软件发到我的邮箱。
下午快下班的时候,0号硬盘黄色故障灯果然熄灭恢复正常,但DASD故障灯仍亮,这样看来,0号硬盘本身应该没什么问题,故障可能真的出在硬盘背板上。不管怎么样,先将数据备份至另外一台服务器上。备完数据,按照IBM邮件里的处理步骤,进行DSA动态系统诊断,并将生成的诊断报告回复给IBM。
7月22日上午,接到IBM客服电话,告知工程师第二日上门。
7月23日下午3:30,BE准时到现场。我询问到底是什么故障?答复升级微码后应该能解决问题,至于要不要更换硬盘背板还要看升级后的情况。接下去就是一系列的微码升级工作,包括主板BIOS、RAID卡等等。升级完成后,DASD故障灯果然熄灭,服务器看似恢复正常了。由于此前0号硬盘有报警,于是按Ctrl+A进入Array Controller对0号硬盘进行扫描检测,结果一切正常,排除了硬盘故障。硬盘背板是否正常,现在也不能下定论,工程师让我再观察几天,暂时不换备件。
7月24日中午,刚在吃午饭,接到BE电话,说硬盘背板必须要换掉,让他同事下午过来换。早知道这样,干嘛昨天不换啊(不爽)。想想换掉也好,至少不会留下什么隐患。
下午2点,BE带着备件准时到场,是一个很年轻的小伙子。他一来就笑着对我说:“我是新手!”。我差点没当场吐血,怎么偏偏要换备件的时候来个新手啊?!关闭服务器、拨掉所有线缆、打开机盖,他又笑着对我说:“我也是第一次拆这东西。”(晕啊,不过态度不错,微笑服务)。好不容易才把硬盘背板卸下来,他拿出货单、打800电话开始核对备件型号。可是不知道之间出了什么问题,可能是新备件的序列号核对不上。期间我也把新、旧2块背板对比了一下,型号是一模一样的,只是序列号和出产日期不同。就这样足足折腾了1个多小时才核对完毕(到底是IBM,做事绝对严谨,可是这效率也...)。更郁闷的是,他竟然不知道如何装上新背板,后来还是我们2个人一块装回去的,我都搞不清楚谁是BE了。重新接回线缆、盖上机盖、开机、进入系统,一切正常,这时我才松了一口气,就怕给折腾坏了。这时,已经是下午4点半了。BE临走时,又冲我笑笑说:“真是不好意思,耽搁这么长时间。”(IBM式微笑?!)
故障排除了,也留下许多疑问。如果确实是硬盘背板问题,为什么微码升级过后就恢复正常了?如果背板是好的只是单纯微码升级问题,为什么故障在机器运行一年多后才出现?这些疑问BE没有当场给我答复,让人纳闷。希望有同样经历的朋友互相交流!
阅读(19582) | 评论(5) | 转发(0) |