服务器数据恢复—硬盘掉线导致热备盘同步失败的RAID5阵列数据恢复案例-北亚数据恢复-ChinaUnix博客

北亚数据恢复的ChinaUnix博客

首页　| 　博文目录　| 　关于我

北亚数据恢复

博客访问： 411557
博文数量： 641
博客积分： 0
博客等级：民兵
技术积分： 6445
用户组：普通用户
注册时间： 2016-08-02 14:16

文章分类

全部博文（641）

数据恢复（599）
未分配的博文（42）

文章存档

2025年（26）

2024年（180）

2023年（218）

2022年（181）

2020年（12）

2019年（24）

我的朋友

相关博文

服务器数据恢复—硬盘掉线导致热备盘同步失败的RAID5阵列数据恢复案例

分类：服务器与存储

2024-12-04 13:48:23

服务器存储数据恢复环境：
华为S5300存储中有12块FC硬盘，其中11块硬盘作为数据盘组建了一组RAID5阵列，剩下的1块硬盘作为热备盘使用。基于RAID的LUN分配给linux操作系统使用，存放的数据主要是Oracle数据库。

服务器存储故障：
RAID5阵列中1块硬盘出现故障离线，热备盘自动激活开始同步数据，在同步数据的过程中又一块硬盘离线，RAID5阵列瘫痪，上层LUN无法使用。

服务器存储数据恢复过程：
1、将故障存储中所有磁盘做好标记后取出。硬件工程师对所有磁盘做物理故障检测，没有发现有硬盘存在硬件故障，都可以正常读取。将所有磁盘以只读方式进行扇区级全盘镜像，在镜像过程中没有发现有磁盘存在大量坏道。镜像完成后将所有磁盘按照原样还原到原存储中，后续的数据分析和数据恢复操作都基于镜像文件进行，避免对原始磁盘数据造成二次破坏。由于没有检测到有磁盘存在物理故障或者大量坏道，基本上可以判断某些硬盘离线的原因就是磁盘读写不稳定。故障存储raid控制器通常会将性能不稳定的磁盘识别为坏盘，并踢出RAID。一旦RAID中掉线的磁盘数据超过该RAID级别所允许掉盘的{BANNED}最佳大数量，该RAID将不可用，基于RAID的LUN也不可用。
2、基于镜像文件分析所有硬盘底层数据。分析底层RAID相关信息，根据分析获取到的raid信息重组RAID。RAID重建完成后，分析Oracle数据库页在每个磁盘中分布的情况。
3、由于RAID中有两块盘掉线且有一块硬盘数据被同步破坏。分析每一块硬盘中的数据，发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样，初步判断此硬盘可能是被同步破坏的硬盘。通过北亚企安自主开发的RAID校验程序对这个条带做校验，确认该盘就是被同步损坏的盘。
4、分析LUN在RAID中的分配情况以及LUN分配的数据块MAP。将LUN的数据块MAP提取出来，北亚企安数据恢复工程师编写相应程序解析LUN的数据块MAP，然后根据数据块MAP导出LUN的数据。
5、由于是使用热备盘重组RAID，EXT3文件系统无法正常挂载，所以只能先提取oracle数据库文件，利用北亚企安自主开发的文件系统解析程序对其进行文件系统解析，导出oracle数据库文件。
6、使用Oracle数据库文件检测工具检测每个数据库文件的完整性，经过检测发现有错误。使用北亚企安自主研发的Oracle数据库检测工具检测。经过检测发现部分数据库文件和日志文件错误：system和sysaux表空间存在上百个坏块，3个控制文件存在大量坏块，eschoolspace表空间的3个文件中的坏块多达上千个，undotbs02.dbf丢失。北亚企安数据库工程师对这些损坏的文件进行修复。

7、创建控制文件和undo表空间，启动数据库到mount。system数据文件坏块导致数据库无法打开，各种隐含参数也不能绕过system的坏块。搭建数据库环境，使用dmp文件还原数据库，但是某个日期之后的数据导入报错，只能导入这个日期之前的数据。

由于故障发生后又对RAID进行了重建，导致一块盘的数据被同步破坏。在第二块盘离线之前，热备盘已经同步了一段时间，已经写入了部分数据，所以使用热备盘中的数据只能恢复某个日期之前的数据。
8、在用户方的配合下启动Oracle数据库。在本地虚拟机安装OA客户端，通过OA客户端对数据记录进行验证，并且安排不同部门人员进行远程验证。
9、经过用户方验证，确认恢复出来的数据有效，认可数据恢复结果。没有恢复出来的数据量比较少，可以通过其他方式人工补回来。

阅读(69) | 评论(0) | 转发(0) |

上一篇：服务器数据恢复—EVA存储硬盘磁头和盘片损坏离线的数据恢复案例

下一篇：虚拟化数据恢复—ESX SERVER常见故障&如何恢复数据

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6