服务器数据恢复环境:
某公司一台EMC某型号存储中有一组由12块硬盘组建的raid5磁盘阵列,其中有2块盘作为热备盘使用。
服务器故障&分析:
raid5磁盘阵列中有2块磁盘离线,只有1块热备盘成功启用,另外一块热备盘未启用,raid阵列崩溃。
服务器硬盘离线的原因无非为磁盘出现物理故障或者硬盘出现坏道。由于EMC的raid控制器磁盘检查策略比较严格,经常将阵列中性能不稳定的磁盘判定为物理故障并踢出阵列。所以导致EMC存储中磁盘阵列崩溃的原因有可能是由于磁盘读写不稳定。
服务器数据恢复过程:
1、将故障存储中所有磁盘编号后取出,由硬件工程师对所有磁盘做物理故障检测,经过检测发现没有磁盘存在物理故障和坏道。以只读方式将所有磁盘做全盘镜像备份,备份完成后将所有磁盘按照编号还原到原存储中。后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
2、基于镜像文件分析原RAID5磁盘阵列结构,经过分析发现2块热备盘上没有数据,其中一块热备盘已成功激活并替换了其中的一块离线磁盘,但数据并未同步。继续分析条带大小、数据的分布规律、磁盘顺序等raid相关信息,发现有一块盘在同一条带上的数据与raid中其他硬盘不同,初步判断该盘为掉线较早的硬盘。使用北亚企安自主开发的raid校验程序对此条带进行校验,确认这块盘为先掉线的盘。通过分析获取到的raid相关信息虚拟重构原raid5磁盘阵列。
3、对磁盘阵列中的LUN信息进行分析后解释map数据并导出。使用北亚企安自主开发程序解释zfs文件系统,某些文件系统中的文件在解析过程中报错。北亚企安数据恢复工程师手动debug程序做后发现报错的原因是ZFS文件系统在进行I/O操作时raid阵列崩溃导致某些元文件损坏,程序无法正常解释。只有修复好损坏的文件系统元文件后,才能使用程序解析ZFS文件系统。
4、使用程序解析修复好的ZFS文件系统,解析所有文件节点及目录结构。经过用户方工程师的反复验证,确认恢复出来的数据完整可用。
部分文件目录和验证截图:
阅读(169) | 评论(0) | 转发(0) |