主要内容: 更换前的准备工作 停止业务,更换磁盘操作 检查更换结果
1,更换前的准备工作a,运行或者安装运行explorer 运行Sun explorer ,并把结果保存下来,如果用户设备上没有安装,请安装运行。b,检查cluster 运行状态,记录用户注册的cluster 名称和节点名称。# hastat “//” 后面为解释内容Getting Information from all the nodes ...... HIGH AVAILABILITY CONFIGURATION AND STATUS
LIST OF NODES CONFIGURED IN
CLUSTER
//smcp 为用户注册的cluster 名称
smcp01 smcp02
// smcp01 smcp02 是cluster 中的两个节点名称 c, 备份cluster 的配置文件。(需要备份两个节点)
# cd /etc/opt/SUNWcluster/ # tar cvf conf.tar. 日期conf d,确定故障磁盘的关联关系
磁盘SN ------系统用设备号(sd #) 系统用设备号(sd #) ------磁盘的物理路径
磁盘的物理路径------设备的逻辑设备号(c # t# d # ) 请根据以上的关联关系确定故障磁盘的:(记录完整信息) 磁盘SN 系统用设备号(sd #) 磁盘的物理路径磁盘的逻辑设备号(c#t #d #)
e, 确定故障磁盘是否为Quorum # scconf smcp –pvv //smcp 是注册cluster 名称,步骤b的记录结果。
Quorum Device Information Quorum device for hosts smcp01 and smcp02: 0015C91079 //0015C91079 为quorum 磁盘的SN
请根据步骤d的记录结果判断是为故障硬盘 如果故障磁盘不是quorum ,跳过下面内容 如果故障磁盘为quorum请按照以下命令予以更换quorum磁盘
# scconf smcp –q smcp01 smcp02
// smcp 是注册的cluster 名称;smcp01 , smcp02 是cluster 中的两个节点,参看步骤b的记录结果
Select quorum device for nodes 0 (phys-hahost1) and 1 (phys- hahost2). Type the number corresponding to the desired selection. For example: 1 1) DISK:c2t2d0s2:01943825 2) DISK:c2t3d0s2:09064321 3) DISK:c2t4d0s2:02171369 4) DISK:c2t5d0s2:02149886 5) DISK:c2t8d0s2:09062992 6) DISK:c2t9d0s2:02166472 7) DISK:c3t2d0s2:02183692 8) DISK:c3t3d0s2:02183488 9) DISK:c3t4d0s2:02160277
10) DISK:c3t5d0s2:02166396 11) DISK:c3t8d0s2:02164352 12) DISK:c3t9d0s2:02164312
Quorum device: 12 // 除了故障磁盘外,可以任选其一 // 以上命令需要在两个节点上执行。 // 使用scconf scmp –pvv 确定是否更换成功。
f, 确定故障磁盘的影响面
# vxprint –ht
分析决结构查看是否异常。 确定删除故障硬盘,是否会对用户数据有较
大影响。 g,提醒用户做好数据备份
2,停止业务
1 (1) ,确认cluster 状态。Scmp02# hastat 结果中的smcp01 和smcp02 如果is a cluster numbuer ,接着执行步骤2。如果smcp01 和smcp02 都is not a cluster number 。直接执行步骤6。
2 (2),请华为工程师确认如果我们停止cluter 的话,其业务能够正常停止。
3 (3) ,请在节点2 上执行cluster 命令:smcp02# scadmin stopnode
4 (4) ,等待所有业务已经完全切换到节点1 上(请华为工程师协助确认),在节点1 上执行scmp01# hastat 确认smcp02 is not a cluster number 。
5 (5),停止节点1上的cluster,smcp01# scadmin stopnode 等待停止完成,执行并察看
scmp01# hastat 的结果,确保:scmp01 is not a cluster number,smcp02 is not a cluster number 。
3,更换磁盘操作 a,使用vxdisk list 确定故障硬盘的dm 名称和device 逻辑设备名称。例如: # vxdisk list // 的到故障信息如下:
- -rootmir rootdg failed was:c0t2d0s2
该条信息的第三列rootmir 就是故障硬盘的dm名称。 该条信息的最后一列c0t2d0 就是故障磁盘的device 逻辑设备名名称。
b,使用vxdiskadm 的第4各选项remove 故障磁盘
# vxdiskadm 选择4
Enter disk name [,list,q,?] rootmir //此地方需要输入故障磁盘的dm 名称
The requested operation is to remove disk c2t8d0 from disk group demo. The disk name will be kept, along with any volumes using the disk, allowing replacement of the disk. Select "Replace a failed or removed disk" from the main menu when you wish to replace the disk.
Continue with operation? [y,n,q,?] (default: y) y // 选择y Removal of disk c2t8d0 completed successfully.
Remove another disk? [y,n,q,?] (default: n) q //使用q,直到退到OS
使用vxdisk list 确认故障硬盘已经被删除: # vxdisk list // 得到的故障信息如下:
--rootmir rootdg removed was:c0t2d0s2
c,eeprom auto-boot?=false // 两台主机都需要执行d, eeprom diag-switch?=fasle // 两台主机都需要执行e,关闭两台主机,磁盘柜。f, 确定磁盘的物理位置:方法1,根据故障磁盘的SN 根据我们获得的故障磁盘的SN ,查看磁盘托架和磁盘盘体上的SN 标签确定磁盘。方法2,根据磁盘的摆放位置根据我们获得故障磁盘的物理地址,我们根据连接线方式就可以获得该磁盘的具体物理存放位置。(可以通过sunsolve 上主机主板图可以获得该主板上所有pci 插槽的物理地址) (可以根据sunsolve 上scsi 卡类型的说明书可以获得该类型pci 卡的端口物理地址) 例如:故障磁盘信息如下:
逻辑设备号:c2t4d0 物理路径:/….@5,1/ 我们可以根据sunsolve 上主机主板图和scsi 卡的说明书确定故障硬盘存在的磁盘柜。可以根据逻辑设备号中的t#确定该磁盘存在与磁盘柜中的物理位置。建议:考虑到这一部分的危险性,如果失误后果不可想象,我一般是采用以上两种办吧都进行,如果得到统一的结果,才进行拔硬盘动作,如果得到的结果不统一,另意。g, 进行物理磁盘更换动作h,磁盘柜加电;主机加电。i,启动两台主机到单用户
ok boot –s
j, 确定更换的磁盘正确并且新的硬盘已经被识别到。
# vxdisk list # format
k, 重新启动系统reboot l,在故障磁盘dg存在的主机上执行vxdiskadm
# vxdiskadm 选择5
Select a removed or failed disk [,list,q,?]rootmir
// 此地方需要输入故障磁盘的dm名称
You can choose one of these disks to replace rootmir. Choose "none" to initialize another disk to replace rootmir. Choose a device, or select "none"
[,none,q,?] (default: none) none Select disk device to initialize [,list,q,?] c0t2d0 // 此地方需要输入故障磁盘的逻辑设备名。
Encapsulate this device? [y,n,q,?] (default: y) n // 回答n Instead of encapsulating, initialize? [y,n,q,?] (default: n) y // 回答y Continue with operation? [y,n,q,?] (default: y) y // 回答y Replace another disk? [y,n,q,?] (default: n)q // 使用q一直回退到操作系统。
使用vxdisk list 查看硬盘是否正确更换。 # vxdisk list 没有fail 和removed 关键字
m, 等待数据同步完成
(1) ,检查同步方法1:使用iostat命令# iostat -xn 3 查看第三和第四列是否有硬盘的该项数据高,当该两项数据降到比较低的水平时,数据同步可能完成。方法2:使用ps -ef | grep vx 在该命令的结果中会发现关于recover的关键字,当该关键字不存在时,数据同步肯
能完成。
(2),更换结果使用vxpirt 命令:# vxprint 该命令的输出中,所有的volume均为ACTIVE ,没有SYNC关键字和NEEDSYNC (可以使用vxpirnt -ht | grep SYNC // 注意SYNC是大写)。
n,修改eeprom auto-boot?=true // 两台主机都需要执行
o,运行explorer ,把结果带回
4,检查所有磁盘的状态是否正常
在smcp01,smcp02上分别执行如下命令
vxdisk list
检查所有multpack上的磁盘状态是否都是online的,如果还有error的状态,
执行
vxdctl enable
5,请用户检查应用,确定该次故障是否处理完成。
阅读(289) | 评论(0) | 转发(0) |