2008年(8065)
分类: 服务器与存储
2008-12-14 10:40:53
不要强行上线:危险的操作方法
在服务器的某一个硬盘出现故障时,一般服务器都会有一个Offline指示灯提示,此时要求用户更换一个完好的相同硬盘,并且重新校验算法。按理说这是非常正常的操作过程,但是殊不知很多RAID灾难就是由此而引起的。
以一个硬盘数量比较多的RAID5磁盘阵列为例,很可能同时采购的多个硬盘中,有几个已经出现了不稳定现象。而服务器的Offline提示可能并不是最准确的,经常会误报(也有硬盘不稳定的因素)或是遗漏其它也同样存在隐患的硬盘。在看似平常的强制上线过程中,硬盘需要进行大量的读写操作,此时就是一场严峻的考验:运气好的话自然平稳度过,而运气不好就会导致其它硬盘突然掉线,此时就令问题更加棘手了。
当然,出现一个硬盘掉线提示,或是在RAID容错范围以内的掉线提示,强制上线还是必须执行的操作。但是在进行这一步前,强烈建议大家检测一下每一个硬盘的稳定性情况,这样才更加保险。大家可不要忽视这样一个小细节,往往这一步能够让RAID服务器幸免于瘫痪。
保护第一现场:什么都不做才最安全
其次就是要保护好现场。用户在RAID磁盘阵列出现问题后,切勿轻易选择重建,否则非常容易造成数据丢失。
最好的办法就是找到相关的硬件厂商,请相关的技术人员过来维修。当然,也可以找专业的数据恢复公司来帮忙解决问题。
总之,需要看的是哪种公司能够提供合理快速的解决方案。毕竟,越早解决问题,损失也就越少。