Chinaunix首页 | 论坛 | 博客

qsh

  • 博客访问: 3951050
  • 博文数量: 1015
  • 博客积分: 15904
  • 博客等级: 上将
  • 技术积分: 8572
  • 用 户 组: 普通用户
  • 注册时间: 2008-07-04 19:16
文章分类

全部博文(1015)

文章存档

2019年(1)

2017年(1)

2016年(19)

2015年(27)

2014年(30)

2013年(95)

2012年(199)

2011年(72)

2010年(109)

2009年(166)

2008年(296)

分类:

2008-10-01 13:02:25

 

 

Raid常见的几种故障分析

当阵列不正常或无法启动的时候,有可能对阵列造成数据破坏的几种情况和操作:

1.强制Online
  这个操作是很容易对阵列造成数据破坏的,尤其是当有2块或以上的盘掉线的时候,如果不知道哪个盘先掉,哪个盘后掉的话,一但破坏了,数据将有可能变成旧的,而且无法恢复。
例如:RAID5阵列,4块盘,0号和2号掉线。假设0号盘先掉线,1个月后2号盘又掉线,这个时候如果将2块盘强制在线的话,因为0号盘1个月前就掉线了,这一个月当中对数据做的很多的改变,这块盘的数据已经不能通过RAID的检验了,阵列是无法分析数据的新旧的,所以阵列有可能用0号盘+1、3号盘去Rebuild 2号盘,这样一来,2号盘的数据也就成了不正确的了,将无法恢复,最多也只能恢复到1个月前的部分数据。

2.Rebuild
  例如:RAID5阵列,4块盘,Rebuild操作的实际意义是,用其中3块盘做异或运算,将结果写到另一块盘中。这里要求,用来做异或运算的3块盘的数据一定要是正确的,如果其中有一块或多块不正确哪么异或出来的结果也就是不正确的。

3.更换RAID卡或主机
  目前大部分RAID卡都是支持这种操作的,在阵列正常的情况下这个操作是不会破坏数据的。但是,在阵列已经瘫痪或是无法正常工作的时候,这个操作将有可能导致RAID对硬盘做不正常的Rebuild和校验,所以当阵列出现问题的时候,要准确判断是阵列卡有问题,还是硬盘有问题,不要轻易去尝试更换RAID卡或主机。

4.把报错的硬盘全部拔下来再插上去
  拔下来没关系,但是如果再全插上去的话阵列将重新去识别插上去的硬盘,这时如果硬盘中的阵列信息或数据有误的话,会导致阵列做出错的Rebuild操作。
  如果是怀疑硬盘接触不好的话,可以一块一块的拔,再一块一块的插上去。不要一次都拔下来。或者可以的话,关机后,再进行插拔。

5.操作系统的check disk
  Windows,Linux,Unix等操作系统都有自己的一个硬盘检测程序,当你硬盘中的分区或文件出现问题无法正常读取的时候,操作系统就会在重启的时候去自动运行Check disk去试图修复,这时,如果是阵列的检验出现问题而导致分区或文件出错的话,运行Check disk将有可能破坏阵列中数据。

6.对RAID中单块硬盘进行写操作
  一件事情或一个工作做的多了,你可能什么情况都能遇到,这一项我们是很不愿意列出来,但是就有人这么做了,所以不得不拿出来提醒一个。阵列中的硬盘是一个整体,破坏其它一块硬盘就是破坏整个阵列。


7.磁盘掉线
  对于RAID5来说,掉线1块盘阵列还是可以正常运行的,如果超出1块,阵列将无法启动。当阵列掉线超出1块盘的时候,最好不要做强制Online。尤其是在你不知道是哪个盘先掉线哪块盘后掉线的时候,绝对不可以强制Online。RAID0和1算法简单,这里就不详细说明了。RAID5当一块硬盘OFFLINE之后负载会比较重,此时最好做脱机的REBUILD,如一定要在线REBUILD,应尽可能少得对磁盘做高负荷的读写,应保障这个过程的顺利完成。建议条件许可的话,加入HOTSPARE DISK

8.磁盘有坏道
  阵列中的磁盘如果有坏道的话,会导致磁盘掉线或阵列不稳定,这时应尽早将有坏道的硬盘换掉,如果出现多坏硬盘有坏道的话,阵列将可能瘫痪。

9.断电或意外关机
  阵列是由RAID卡控制硬盘,通过某种算法将多块硬盘整合成一块硬盘提供给用户使用。在阵列运行过程中,会有大量的输入输出信息放在RAID卡的缓冲或主机的缓冲中的,如果发生突然断电和意外关机的情况,将导致碏的信息无法写回到硬盘或RAID卡的ROM中,这样极易导致阵列信息丢失、阵列瘫痪。

10.扩容失败或扩容过程中意外中断
  这里强烈建议,虽然目前很多阵列都支持不破坏数据直接扩容,但是这种操作十分危险,在扩容的过程中如果出现意外情况,比如说,突然断电,硬盘有坏道等,哪数据是无法恢复的。年以要尽量将数据备份后再进行扩容。

11.文件目录混乱,部分或全部文件无法访问
  这种情况是由于阵列中某块硬盘的数据是不正确的,导致校验出错,其实并不是文件本身的问题。这时如果重启系统的话,操作系统会对这个分区做Check disk,注意不要让系统做Check disk。

12.Rebuild失败或Rebuild过程中意外中断
  Rebuild过程中阵列是不能断电的,否则阵列将有可能瘫痪。而且磁盘中有坏道的活,在Rebuild过程中也会使Rebuild失败。

阅读(1244) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~