服务器存储数据恢复环境:
某品牌MSA2000服务器存储中有一组由8块SAS硬盘组建的raid5磁盘阵列,其中包含一块热备盘。分配了6个LUN,均分配给HP-Unix小机使用。磁盘分区由LVM进行管理,存放的数据主要为Oracle数据库及OA服务端。
服务器存储故障:
服务器存储raid5阵列中有两块硬盘先后离线,服务器瘫痪,无法正常访问lun。
服务器存储数据恢复过程:
1、将所有磁盘编号标记后取出故障服务器存储,硬件工程师分别对服务器中所有磁盘进行物理故障检测和坏道检测,均无异常。
将所有磁盘以只读方式镜像成文件,镜像完成后将所有磁盘按照编号还原到故障存储中。后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
备份完成的部分数据:
2、MSA2000存储中一旦某些磁盘读写性能不稳定,该存储中的raid控制器会将这些磁盘识别为坏盘并踢出RAID。一旦RAID中掉线的盘数到达到采用的RAID级别所允许掉盘的极限,RAID不可用,服务器瘫痪。
3、存储中的LUN都是基于RAID的,要想恢复数据就需要先将原始RAID重组出来。分析Oracle数据库页在每个磁盘中分布的情况,并根据数据分布的情况获取RAID条带大小,盘序、数据走向等重组RAID所需要的信息。
4、根据分析出来的RAID信息重组原始RAID。重组完成后分析LUN在RAID中的分配情况,以及LUN分配的数据块MAP。由于有6个LUN,因此只需要将每一个LUN的数据块分布MAP提取出来。北亚企安数据恢复工程师根据这些信息编写相应的程序,解析所有LUN的数据MAP,然后根据数据MAP导出所有LUN的数据。
导出的部分数据:
5、分析所有LUN,发现所有LUN中均包含LVM逻辑卷信息。尝试解析每个LUN中的LVM信息,发现其中一共有三套LVM:{BANNED}中国第一个LVM中划分了一个LV,存放OA服务器端的数据;第二个LVM中划分了一个LV,存放临时备份数据;剩下的4个LUN组成一个LVM,划分了一个LV,存放Oracle数据库文件。北亚企安数据恢复工程师编写LVM解释程序,尝试解释每套LVM中的LV卷,但是在解释过程中出错。
6、开发工程师debug程序出错的位置,分析程序报错原因,由文件系统工程师对恢复出来的LUN做检测,检测LVM信息是否会因为存储瘫痪而导致LMV逻辑卷的信息损坏。经过检测发现LVM信息确实被破坏。北亚企安数据恢复工程师尝试人工修复损坏的区域,并同步修改程序重新解析LVM逻辑卷。
7、搭建HP-Unix环境,将解释出来的LV卷映射到HP-Unix。尝试Mount文件系统,结果Mount文件系统出错。尝试使用“fsck –F vxfs” 命令修复vxfs文件系统,修复完成还是不能挂载。怀疑vxfs文件系统元数据被破坏。
8、仔细分析解析出来的LV,根据VXFS文件系统的底层结构校验此文件系统的完整性。分析发现VXFS文件系统确实存在问题,存储瘫痪的同时此文件系统正在执行IO操作,因此部分文件系统元文件损坏。人工修复这些损坏的元文件,直到能够正常解析VXFS文件系统。再次将修复好的LV卷挂载到HP-Unix小机上,尝试Mount文件系统,这回文件系统没有报错,成功挂载。
9、在HP-Unix机器上mount文件系统后,将所有用户数据备份至指定空间。
部分文件目录:
10、使用Oracle数据库文件检测工具“dbv”检测每个数据库文件是否完整,没有发现错误。使用北亚企安自主研发的Oracle数据库检测工具进行检测,发现有部分数据库文件和日志文件校验不一致。由数据库工程师修复此类文件并校验,直到所有文件均通过校验。
11、将恢复出来的Oracle数据库附加到原始生产环境的HP-Unix服务器中,尝试启动Oracle数据库,Oracle数据库启动成功。
12、启动Oracle数据库和OA服务端,通过OA客户端对{BANNED}最佳新的数据记录以及历史数据记录进行验证,并且安排不同部门人员进行远程验证。经过仔细验证,确认数据完整有效。本次数据恢复工作完成。
阅读(359) | 评论(0) | 转发(0) |