Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1013997
  • 博文数量: 132
  • 博客积分: 14065
  • 博客等级: 上将
  • 技术积分: 1270
  • 用 户 组: 普通用户
  • 注册时间: 2006-05-06 16:08
文章分类

全部博文(132)

文章存档

2009年(2)

2008年(58)

2007年(14)

2006年(58)

我的朋友

分类:

2008-08-20 09:59:52

几次换盘,总结一下,有错的请帮忙指正

接到保修一般先和客户连线确认,远程让客户查看一下RAID的状态、现有的HOT SPARE数目、SSA盘的大小等来确定当前数据的安全状态,判断事件的严重程度,以及需要准备的备件。

换盘:

一. 确定哪些盘是故障的,需要更换。方法如下:

1. 查看ERRPT报错。
在向硬盘读写数据失败时会产生一个报错。hot spare盘或者是阵列中因为故障而已经被reject的盘一般只有一次报错,而在阵列中的故障盘,或者读写时有偶发性错误的盘则会连续报错。

2. diag->Task->ssa service aids->Link Verification 查看LINK状态,显示failed表示盘连接有问题,有故障。(显示GOOD表示连接是好的,但是不能保证硬盘是好的)

3. smitty ssaraid
->List All Defined SSA RAID Arrays
列出所有RAID,如显示GOOD,则RAID中的盘都是好的,如有RAID显示degraded,则该RAID中有盘故障。可以结合ERRPT报错确定故障的盘

smitty ssaraid
->List/Identify SSA Physical Disks
->List Rejected Array Disks 列出被REJECT的盘,REJECTED盘都是有故障被从RAID剔除的,需要更换。

因为HOT SPARE盘坏了以后一般只有一次ERRPT报错,而且对RAID状态没有影响,如果时间久远或者ERRPT日志被客户清了就很容易被忽略,所以我们需要查清所有盘的使用所属情况,来确认是否有隐藏的坏盘。
办法是,1)lsdev -Cc pdisk列出所有的pdisk
2)smitty ssaraid->...->List Disks in an SSA RAID Array 列出所有在RAID中的盘
3)smitty ssaraid->...->List Hot Spares 列出所有Hot Spares盘
4)smitty ssaraid->...->List Rejected Array Disks 列出所有Rejected盘
那些没有归属的而且物理上存在的盘就是隐藏的故障盘了。

4. 如果RAID状态显示是GOOD,但是ERRPT中有该RAID中的盘连续报错,则该盘还可用,但是不安全,建议与客户沟通后更换掉。


二. 确定盘的位置,有多种方法可以确定盘的位置

1. lsdev -Cc pdisk 会显示各个pdisk的location
2. diag->task->ssa service aids->Enclosure Configuration或者Physical Link Configuration,会显示location
location对照机器槽位上的编号就可以确定位置
3. diag->task->ssa service aids->Link Verification
显示pdisk的UID,可以到物理盘上对照,但是有时候不准确,可做参考查看
4. smitty ssaraid->List/Identify SSA Physical Disks,选Identify项可以标志指定的盘,盘上灯闪暗黄色
5. 更换时将盘设置成service mode的同时标志该盘,则该盘灯会闪暗黄色

几种方法结合就可以确定位置而不至于换错盘了。


三. 最后换盘。

步骤:

注意:如果换的是RAID中的盘,则新盘设置成Array Candidate,并添加到相应RAID;如果换的盘是HOT SPARE,则新盘设置成HOT SPARE;如果RAID中的坏盘已经被REJECT,则新换的盘也设置成HOT SPARE。 
阅读(1898) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~