分类: 其他UNIX
2015-03-18 14:02:23
【用户单位】
中国科学院某研究所(北京)
【数据恢复故障描述】
客户服务器属于曙光387p系列,存储是由4块300GB SAS硬盘组成的RAID5,操作系统是REDHAT 4,主要作为部门内部分析特定行业数据所用,主机在正常应用时出现死机,重启系统后RAID掉线,系统及数据无法正常访问。
【数据恢复故障分析】
强制关机容易导致RAID及存储介质出现异常,在服务器应用时应尽量确保数据传输通道的状态良好,尤其是在发现硬件问题的情况下应及时对损坏模块进行更换,并适当调整服务器各方面的负载均衡,以在最大程度上来保障系统的平稳运行和数据的存储安全。
该案例中操作系统死机有可能是RAID模块的数据传输通道不稳定所致,系统重启后RAID呈现OFFLINE状态表明RAID存储模块此时已经不能继续正常工作,在非恢复环境中4块硬盘中的数据是无法访问的,只能依靠第三方提供数据恢复服务来解决。
【数据恢复过程】
1.首先针对用户提供的4块SAS硬盘进行严格的物理检测,4块硬盘读取状态均良好;
2.分别镜像用户故障RAID组中的4块硬盘,为保证绝对的数据安全,目标存储为带有冗余功能的阵列存储;
3.镜像完成后,对所生成的4个备份文件进行RAID结构分析,依据文件系统存储规则确定4块硬盘在构建RAID5的盘序、数据块大小及校验方式,并于虚拟环境中重新构建RAID组;
4.对所构建RAID中的数据进行逻辑校验,确保重构RAID所应用的各参数正确无误后,针对用户最为关注的数据进行完全验证;
5.对用户的服务器进行常规检测,发现硬盘背板有一定程度的老化,工作状态不稳定,服务商对其进行更换并重构存储环境后运行正常;
6.将恢复环境中虚拟RAID的数据(包括操作系统)全部迁移回用户新构建的存储环境后,系统正常启动,经用户验证数据全部恢复,至此数据恢复完成
【数据恢复结果】
数据恢复总共历时8小时,其中硬盘检测及镜像花费4小时,分析重构RAID花费1小时,后期重新搭建用户存储环境及迁移数据花费3小时。数据恢复成功率为百分之百。
【服务器存储安全建议】
1.对存储硬件状态及服务器运行情况做定期检测(存储服务商一般可提供技术支持),发现异常情况时及时采取相应解决方案;
2.尽量保证服务器的负载均衡,以减少系统无响应、死机等情况的出现;
3.对于服务年限已久的服务器进行整体运行状态评估以决定是否进行硬件及系统的全面升级,同时提前制定突发数据灾难的紧急处理方案,以降低数据灾难带来的业务损失。
【负责工程师】
北亚数据恢复中心- 张工
联系方式:01082488249-804;
工程师ID:804
北亚数据恢复中心服务电话:4006505808
【数据恢复服务承诺】
1.免费检测(可出具检测报告)
2.与客户签订保密协议,对客户的数据严格保密(无附加保密费用)
3.专业工程师提供数据恢复服务,不成功不收费
4.整个恢复过程不会对客户的存储有任何写操作,以确保原介质的数据安全
5.数据恢复后出具恢复报告,并免费保留7天数据备份