Chinaunix首页 | 论坛 | 博客
  • 博客访问: 279710
  • 博文数量: 87
  • 博客积分: 4061
  • 博客等级: 上校
  • 技术积分: 1032
  • 用 户 组: 普通用户
  • 注册时间: 2008-09-12 16:28
文章分类

全部博文(87)

文章存档

2012年(1)

2009年(85)

2008年(1)

我的朋友

分类:

2009-02-05 16:58:13

IBM x系列服务器”DASD“故障一例

  7月21日下午检查机房设备时,发现一台IBM x3650服务器0号硬盘黄灯闪烁,前面板“!”红色警示灯亮,操作系统运行正常。打开“Light Path“面板,发现”DASD“灯亮,上网搜索了一下得知DASD(Direct Access Storage Device)灯亮是硬盘背板故障。这台服务器才运行一年多时间啊,不会这么快就坏吧。赶紧拨打IBM 800报修电话,描述完故障,客服人员做好记录后说呆会有工程师回电。可1个多小时过去了还没接到回电(当时心里不是很爽),于是又拨通了IBM报修热线,这回接电话的是另外一位工程师,了解故障情况后,答复:黄灯闪烁是硬盘在同步数据,同步完成会熄灭,DASD灯亮需作测试报告以进一步确定故障原因,有可能要对机器作微码升级,让我先做好数据备份,并将测试步骤以及所需测试软件发到我的邮箱。
  下午快下班的时候,0号硬盘黄色故障灯果然熄灭恢复正常,但DASD故障灯仍亮,这样看来,0号硬盘本身应该没什么问题,故障可能真的出在硬盘背板上。不管怎么样,先将数据备份至另外一台服务器上。备完数据,按照IBM邮件里的处理步骤,进行DSA动态系统诊断,并将生成的诊断报告回复给IBM。
  7月22日上午,接到IBM客服电话,告知工程师第二日上门。
  7月23日下午3:30,BE准时到现场。我询问到底是什么故障?答复升级微码后应该能解决问题,至于要不要更换硬盘背板还要看升级后的情况。接下去就是一系列的微码升级工作,包括主板BIOS、RAID卡等等。升级完成后,DASD故障灯果然熄灭,服务器看似恢复正常了。由于此前0号硬盘有报警,于是按Ctrl+A进入Array Controller对0号硬盘进行扫描检测,结果一切正常,排除了硬盘故障。硬盘背板是否正常,现在也不能下定论,工程师让我再观察几天,暂时不换备件。
  7月24日中午,刚在吃午饭,接到BE电话,说硬盘背板必须要换掉,让他同事下午过来换。早知道这样,干嘛昨天不换啊(不爽)。想想换掉也好,至少不会留下什么隐患。
  下午2点,BE带着备件准时到场,是一个很年轻的小伙子。他一来就笑着对我说:“我是新手!”。我差点没当场吐血,怎么偏偏要换备件的时候来个新手啊?!关闭服务器、拨掉所有线缆、打开机盖,他又笑着对我说:“我也是第一次拆这东西。”(晕啊,不过态度不错,微笑服务)。好不容易才把硬盘背板卸下来,他拿出货单、打800电话开始核对备件型号。可是不知道之间出了什么问题,可能是新备件的序列号核对不上。期间我也把新、旧2块背板对比了一下,型号是一模一样的,只是序列号和出产日期不同。就这样足足折腾了1个多小时才核对完毕(到底是IBM,做事绝对严谨,可是这效率也...)。更郁闷的是,他竟然不知道如何装上新背板,后来还是我们2个人一块装回去的,我都搞不清楚谁是BE了。重新接回线缆、盖上机盖、开机、进入系统,一切正常,这时我才松了一口气,就怕给折腾坏了。这时,已经是下午4点半了。BE临走时,又冲我笑笑说:“真是不好意思,耽搁这么长时间。”(IBM式微笑?!)
  故障排除了,也留下许多疑问。如果确实是硬盘背板问题,为什么微码升级过后就恢复正常了?如果背板是好的只是单纯微码升级问题,为什么故障在机器运行一年多后才出现?这些疑问BE没有当场给我答复,让人纳闷。希望有同样经历的朋友互相交流!
阅读(19582) | 评论(5) | 转发(0) |
给主人留下些什么吧!~~

chinaunix网友2010-08-05 11:47:15

同样的问题到处都是啊

chinaunix网友2010-02-10 17:16:43

死了,我这的服务器也这问题了,IBM X3650

chinaunix网友2009-06-16 16:06:40

我们公司的IBM X3650也出现相同问题,IBM说可能是做了RAID5后,硬盘本身在同步.但是我想同步也不需要一天吧.看来还是要让他们的客服检查一下硬盘背板

chinaunix网友2009-06-12 11:20:20

你好 我们公司的IBMX3550也出现了类似的问题,硬盘亮黄灯,前面板DASD指示灯亮起,已报修,工程师还没给我回复,个人感觉HP更有效率一点,IBM的工作方式效率的确不高。