几次换盘,总结一下,有错的请帮忙指正
接到保修一般先和客户连线确认,远程让客户查看一下RAID的状态、现有的HOT SPARE数目、SSA盘的大小等来确定当前数据的安全状态,判断事件的严重程度,以及需要准备的备件。
换盘:
一. 确定哪些盘是故障的,需要更换。方法如下:
1. 查看ERRPT报错。
在向硬盘读写数据失败时会产生一个报错。hot spare盘或者是阵列中因为故障而已经被reject的盘一般只有一次报错,而在阵列中的故障盘,或者读写时有偶发性错误的盘则会连续报错。
2. diag->Task->ssa service aids->Link Verification 查看LINK状态,显示failed表示盘连接有问题,有故障。(显示GOOD表示连接是好的,但是不能保证硬盘是好的)
3. smitty ssaraid
->List All Defined SSA RAID Arrays
列出所有RAID,如显示GOOD,则RAID中的盘都是好的,如有RAID显示degraded,则该RAID中有盘故障。可以结合ERRPT报错确定故障的盘
smitty ssaraid
->List/Identify SSA Physical Disks
->List Rejected Array Disks 列出被REJECT的盘,REJECTED盘都是有故障被从RAID剔除的,需要更换。
因为HOT SPARE盘坏了以后一般只有一次ERRPT报错,而且对RAID状态没有影响,如果时间久远或者ERRPT日志被客户清了就很容易被忽略,所以我们需要查清所有盘的使用所属情况,来确认是否有隐藏的坏盘。
办法是,1)lsdev -Cc pdisk列出所有的pdisk
2)smitty ssaraid->...->List Disks in an SSA RAID Array 列出所有在RAID中的盘
3)smitty ssaraid->...->List Hot Spares 列出所有Hot Spares盘
4)smitty ssaraid->...->List Rejected Array Disks 列出所有Rejected盘
那些没有归属的而且物理上存在的盘就是隐藏的故障盘了。
4. 如果RAID状态显示是GOOD,但是ERRPT中有该RAID中的盘连续报错,则该盘还可用,但是不安全,建议与客户沟通后更换掉。
二. 确定盘的位置,有多种方法可以确定盘的位置
1. lsdev -Cc pdisk 会显示各个pdisk的location
2. diag->task->ssa service aids->Enclosure Configuration或者Physical Link Configuration,会显示location
location对照机器槽位上的编号就可以确定位置
3. diag->task->ssa service aids->Link Verification
显示pdisk的UID,可以到物理盘上对照,但是有时候不准确,可做参考查看
4. smitty ssaraid->List/Identify SSA Physical Disks,选Identify项可以标志指定的盘,盘上灯闪暗黄色
5. 更换时将盘设置成service mode的同时标志该盘,则该盘灯会闪暗黄色
几种方法结合就可以确定位置而不至于换错盘了。
三. 最后换盘。
步骤:
注意:如果换的是RAID中的盘,则新盘设置成Array Candidate,并添加到相应RAID;如果换的盘是HOT SPARE,则新盘设置成HOT SPARE;如果RAID中的坏盘已经被REJECT,则新换的盘也设置成HOT SPARE。
阅读(1898) | 评论(0) | 转发(0) |