Chinaunix首页 | 论坛 | 博客
  • 博客访问: 337271
  • 博文数量: 587
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 5905
  • 用 户 组: 普通用户
  • 注册时间: 2016-08-02 14:16
文章分类

全部博文(587)

文章存档

2024年(152)

2023年(218)

2022年(181)

2020年(12)

2019年(24)

我的朋友

分类: 服务器与存储

2023-06-30 16:13:30

服务器数据恢复环境:
某公司一台EMC某型号存储中有一组由12块硬盘组建的raid5磁盘阵列,其中有2块盘作为热备盘使用。


服务器故障&分析:
raid5磁盘阵列中有2块磁盘离线,只有1块热备盘成功启用,另外一块热备盘未启用,raid阵列崩溃。
服务器硬盘离线的原因无非为磁盘出现物理故障或者硬盘出现坏道。由于EMC的raid控制器磁盘检查策略比较严格,经常将阵列中性能不稳定的磁盘判定为物理故障并踢出阵列。所以导致EMC存储中磁盘阵列崩溃的原因有可能是由于磁盘读写不稳定。


服务器数据恢复过程:
1、将故障存储中所有磁盘编号后取出,由硬件工程师对所有磁盘做物理故障检测,经过检测发现没有磁盘存在物理故障和坏道。以只读方式将所有磁盘做全盘镜像备份,备份完成后将所有磁盘按照编号还原到原存储中。后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。



2、基于镜像文件分析原RAID5磁盘阵列结构,经过分析发现2块热备盘上没有数据,其中一块热备盘已成功激活并替换了其中的一块离线磁盘,但数据并未同步。继续分析条带大小、数据的分布规律、磁盘顺序等raid相关信息,发现有一块盘在同一条带上的数据与raid中其他硬盘不同,初步判断该盘为掉线较早的硬盘。使用北亚企安自主开发的raid校验程序对此条带进行校验,确认这块盘为先掉线的盘。通过分析获取到的raid相关信息虚拟重构原raid5磁盘阵列。


3、对磁盘阵列中的LUN信息进行分析后解释map数据并导出。使用北亚企安自主开发程序解释zfs文件系统,某些文件系统中的文件在解析过程中报错。北亚企安数据恢复工程师手动debug程序做后发现报错的原因是ZFS文件系统在进行I/O操作时raid阵列崩溃导致某些元文件损坏,程序无法正常解释。只有修复好损坏的文件系统元文件后,才能使用程序解析ZFS文件系统。


4、使用程序解析修复好的ZFS文件系统,解析所有文件节点及目录结构。经过用户方工程师的反复验证,确认恢复出来的数据完整可用。
部分文件目录和验证截图:






阅读(144) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~