Chinaunix首页 | 论坛 | 博客
  • 博客访问: 11589629
  • 博文数量: 8065
  • 博客积分: 10002
  • 博客等级: 中将
  • 技术积分: 96708
  • 用 户 组: 普通用户
  • 注册时间: 2008-04-16 17:06
文章分类

全部博文(8065)

文章存档

2008年(8065)

分类: 服务器与存储

2008-07-17 10:59:40

问题描述

RAID5中两块或两块以上硬盘告警的几率是非常低,但并不代表这种情况不会发生。最常见的情况是一块硬盘先告警,在没有发现或未及时更换之前,又一块硬盘出现告警,导致RAID5阵列离线,数据无法读取;在这种情况下,如何正确处理才能尽可能恢复数据?

二、过程分析

首先,两种错误可能导致硬盘告警:逻辑错误、物理错误;如果是物理错误的话,数据恢复的可能性不大;如果是逻辑错误的话,还有可能恢复数据。

其次,一定要根据日志或者其他信息确定哪块盘先出问题、哪块盘后出问题,因为先后出问题的两块躺系氖?菔遣灰谎?模?蟪鑫侍獾挠才躺系氖?莶攀亲钚孪实模?隦AID5中其他硬盘的数据组合后才是完整,并且可以正常使用的。

最后,两块盘告警的情况下,正确的处理方法是先尝试强行online后坏的硬盘并恢复数据;如果尝试强行online后坏的硬盘失败,那么试着强行online先坏的硬盘并恢复数据;如果两块盘都无法强行online的话,数据将全部丢失。

三、解决办法
本文以AIX环境下的处理过程为例说明此类问题的处理方法,其他环境下的处理方法类似:
环境:IBM P630 + AIX + scsi raid卡 + 4块18G disk作raid5(no hotspare)
问题:一块硬盘先告警,未及时更换之前,又一块硬盘出现告警,导致RAID5阵列离线,卷组离线,数据无法读取。
#lspv
hdisk0 000b85cdf79f0ec5 rootvg
lspv输出只有hdisk0,而做完RAID5后的hdisk1消失。
#lsdev -Cc disk
hdisk0 Available 10-60-00-0,0 16 Bit LVD SCSI Disk Drive
hdisk1 Defined 20-60-00-0,0 SCSI Disk Array RAID 5
#varyonvg datavg[操作失败,datavg不能varyon]
#diag [运行出现下面的错误]
The Service Request Number(s)/Probable Cause(s)
66D-111: The disk has been failed by the adapter.
FRU: n/a CH/ID 2 B
Physical Disk
66D-111: The disk has been failed by the adapter.
FRU: n/a CH/ID 2 C
Physical Disk
硬盘2B、2C处于failed状态,根据系统日志确定Channel 2 ID C先出现问题,Channel 2 ID B后出现问题。

操作步骤:
1、#smitty pdam
List PCI SCSI Disk Arrays
Create a PCI SCSI Disk Array
Delete a PCI SCSI Disk Array
Configure a Defined PCI SCSI Disk Array
Change/Show a PCI SCSI Disk Array
Reconstruct a PCI SCSI Disk Array
Revive a FAILED Drive in a PCI SCSI Disk Array
Fail a Drive in a PCI SCSI Disk Array
Change/Show PCI SCSI RAID Drive Status
Perform Consistency Check
Display Status of Adapter Write Cache
Recovery Options
选择:List PCI SCSI Disk Arrays
mscraid0 Available 20-60 PCI 4-Channel Ultra3 SCSI RAID Adapter
hdisk1 Defined Raid 5 20-60-00-0,0 52072 MB Status DEAD
hdisk1 2A Channel 2 ID A ONLINE
hdisk1 2B Channel 2 ID B FAILED DRIVE
hdisk1 2C Channel 2 ID C FAILED DRIVE
hdisk1 2D Channel 2 ID D ONLINE
2、#smitty pdam
选择:Revive a FAILED Drive in a PCI SCSI Disk Array
2B Channel 2 ID B FAILED DRIVE
2C Channel 2 ID C FAILED DRIVE
选择:2B Channel 2 ID B FAILED DRIVE
PCI SCSI Disk Array hdisk1
Channel ID 2B
会车后出现下面的提示:Continuing may delete information you may want to keep. This is your last chance to stop before continuing. Press Enter to continue. Press Cancel to return to the application
敲会车键继续[确认命令成功完成,硬盘强行online成功]
3、通过List PCI SCSI Disk Arrays查看RAID的状态出现:
scraid0 Available 20-60 PCI 4-Channel Ultra3 SCSI RAID Adapter
hdisk1 Defined Raid 5 20-60-00-0,0 52072 MB Status DEGRADED
hdisk1 2A Channel 2 ID A ONLINE
hdisk1 2B Channel 2 ID B ONLINE
hdisk1 2C Channel 2 ID C FAILED DRIVE
hdisk1 2D Channel 2 ID D ONLINE
注意:2B已经是online
4、执行diag命令进行诊断,结果显示入下
The Service Request Number(s)/Probable Cause(s)
causes are listed in descending order of probability):
66D-111: The disk has been failed by the adapter.
FRU: n/a CH/ID 2C
Physical Disk

5、#varyonvg datavg
#mount /data
datavg varyon 成功,文件系统mount成功;
6、更换2C Channel上的硬盘,RAID5进行数据重建,数据重建完毕后,建议更换2B Channel上的硬盘,RAID5再次进行数据重建;
7、#smitty pdam
选择:List PCI SCSI Disk Arrays结果如下:
hdisk1 Available Raid 5 20-60-00-0,0 52072 MB Status OPTIMAL
hdisk1 2A Channel 2 ID A ONLINE - 17357Meg
hdisk1 2B Channel 2 ID B ONLINE - 17357Meg
hdisk1 2C Channel 2 ID C ONLINE - 17357Meg
hdisk1 2D Channel 2 ID D ONLINE - 17357Meg
8、数据恢复完毕。
阅读(900) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~