服务器数据恢复—Raid磁盘阵列故障类型和常见故障原因-北亚数据恢复-ChinaUnix博客

北亚数据恢复的ChinaUnix博客

首页　| 　博文目录　| 　关于我

北亚数据恢复

博客访问： 412340
博文数量： 641
博客积分： 0
博客等级：民兵
技术积分： 6445
用户组：普通用户
注册时间： 2016-08-02 14:16

文章分类

全部博文（641）

数据恢复（599）
未分配的博文（42）

文章存档

2025年（26）

2024年（180）

2023年（218）

2022年（181）

2020年（12）

2019年（24）

我的朋友

相关博文

服务器数据恢复—Raid磁盘阵列故障类型和常见故障原因

分类：服务器与存储

2024-09-06 11:57:10

出于尽可能避免数据灾难的设计初衷，RAID解决了3个问题：容量问题、IO性能问题、存储安全(冗余)问题。从数据恢复的角度讨论RAID的存储安全问题。

常见的起到存储安全作用的RAID方案有RAID1、RAID5及其变形。基本设计思路是相似的：当部分数据异常时，可通过特定算法将数据还原出来。以RAID5为例：如果要记录两个数字，可以通过再多记录这两个数字的和来达到记录冗余性的目的。例如记录3和5，同时再记录这2个数字的和8。在不记得到底是几和5的情况下，只需要用8-5就可以算出这个丢失的数字了，其余情况依此类推。
在RAID里同样是以某种算法来达到保全数据的目的，当一组RAID5阵列正常工作时，所有写入RAID里的数据都正确地写到特定磁盘地址，同时再生成一个特定的计算值(通常称为校验和)。当其中一块盘出现故障时，存储在这块故障盘上的原有数据就要通过其他硬盘的数据恢复出来。由控制器(硬RAID为RAID卡，软RAID实际上是个驱动)负责这个工作。为了不宕机，控制器也会保证存储的正常化，不会让操作系统认为硬盘系统出了问题。

RAID在存储安全上还有一些不太容易避免的漏洞。虽然由于这些漏洞出现问题的可能性不大，但是存储在RAID上的数据价值无法评估。

RAID常见故障：

1、处于降级状态时，未及时rebuild。RAID是通过空余的部分存储空间来提供算法上的数据安全冗余的。当某些盘出现故障下线后，RAID便不能再提供这种存储冗余。如果不及时更换盘&REBUILD，如果其他硬盘再出现故障，RAID便无法正常工作了。

2、RAID控制器故障：控制器是连接物理硬盘与操作系统之间的纽带。硬盘容量、硬盘数量，RAID级别、逻辑磁盘分割方式、块大小、校验方式等组合成不同的RAID信息(RAID元数据)，这些RAID信息有时候会写在阵列卡上，有时候会写在硬盘上，还有的时候两者皆有。如果RAID控制器出现故障，即使更换新的控制器一般也不能将RAID信息还原。中低端的RAID控制器出于成本考虑，漏洞更多。

3、固件算法缺陷：RAID的创建、重建、降级、保护等功能的实现需要非常复杂的算法。尽管厂商不会承认生产的RAID控制器的BUG，但算法漏洞在任何一款控制器上都无法避免。固件算法BUG可能会导致很多无法解释的故障。

4、IO通道受阻导致RAID掉盘：RAID控制器在设计时为了数据的绝对安全，会尽可能避免写数据到不稳定的存储介质上。这样，当控制器与物理硬盘进行IO时，如果时间超过某个阈值，或不满足校验关系，控制器便会认为对应的存储设备已不具备持续工作的能力，会让其强制下线，通知管理员尽快解决问题。这种设计的初衷很好，但对于像物理链接线路松动、硬盘完好情况下机械工作时反应超时等随机因素，RAID控制器无法分辨设备是否具备和之前一样的稳定状态，通常会让其强制下线，便会导致RAID卷出现故障，此类故障的发生概率极大且无法避免。

5、RAID控制器的稳定性：RAID控制器在ONLINE状态下(无离线盘)工作是{BANNED}最佳稳定的。当部分硬盘损坏(可能是逻辑故障)后离线，RAID控制器便会工作在一个“亚健康”的状态。这也是好多中低端的RAID控制器在一块盘离线后读写性能急速下降的原因。控制器负载太重便会极大地增加数据吞吐时出现IO滞留的可能性，从而导致RAID离线。一个不具备高速硬件处理芯片，不具备高速缓冲的控制器发生这类故障的概率要高得多。

6、坏硬盘：很多人认为只要硬盘一坏，RAID就会让这块坏硬盘脱机，更换新硬盘后REBUILD就恢复如初了。实际情况是一组RAID在工作很长时间以后也很少会读到物理硬盘的所有磁盘空间，同一时间更是不可能。部分情况下会在没有读到的区域或者以前读取良好的区域出现坏道。这类坏道因为没有读写过，所以控制器是没有识别出来的。当一块物理硬盘离线后，通常技术人员及官方资料都会建议尽快做REBUILD。如果其他硬盘存在这类坏道，当REBUILD（对全盘做全面同步）过程中读到那些坏道，这时候REBUILD没完成，新盘还无法上线，旧盘里又发现了坏道，然后又有硬盘下线，导致RAID出现故障，无法自行恢复数据。

7、人为误操作：误拔RAID硬盘、没准备备件盘、不及时换盘、给RAID除尘时忘了原来的顺序、不小心删除了原RAID配置等。

8、其他原因。

上述的这些故障原因除人为因素外，大多数很难直接避免，只能结合备份，构建整体存储安全方案来解决。

阅读(161) | 评论(0) | 转发(0) |

上一篇：服务器数据恢复—如何应对双循环RAID5阵列的数据丢失问题？

下一篇：虚拟化数据恢复—虚拟机误还原几年前的快照怎么恢复数据？

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6