分类: 系统运维
2011-12-20 22:24:09
为了保障系统安全稳定的运行,HP DS2405盘柜的报错盘的拓扑结构和主机的磁盘划分和业务情况,对此次磁盘故障进行更换方案的准备,包括磁盘报错的分析,磁盘更换前的数据备份工作,备件准备,人员和时间安排,可能面临的风险以及遇到意外情况下的回退方案等,特撰写此操作手册。
主机,操作系统版本为B11.11,主机名:s21和s22,分别直连两台共享盘柜DS2405,DS2405分别配备十四块36G15K硬盘。
(1)其中盘柜的的十四块磁盘通过LVM管理软件统一管理,具体配置如下:
系统使用的pv信息如下
/dev/vg00
/dev/dsk/c2t1d0
/dev/dsk/c3t0d0
/dev/vgdata
/dev/dsk/c5t8d0
/dev/dsk/c5t9d0
/dev/dsk/c5t10d0
/dev/dsk/c5t11d0
/dev/dsk/c5t12d0
/dev/dsk/c5t13d0
/dev/dsk/c5t14d0
/dev/dsk/c6t8d0
/dev/dsk/c6t9d0
/dev/dsk/c6t10d0
/dev/dsk/c6t11d0
/dev/dsk/c6t12d0
/dev/dsk/c6t13d0
/dev/dsk/c6t14d0
/dev/vgdp
/dev/dsk/c5t1d0
/dev/dsk/c5t2d0
/dev/dsk/c5t3d0
/dev/dsk/c5t4d0
/dev/dsk/c5t5d0
/dev/dsk/c5t6d0
/dev/dsk/c5t7d0
/dev/dsk/c6t1d0
/dev/dsk/c6t2d0
/dev/dsk/c6t3d0
/dev/dsk/c6t4d0
/dev/dsk/c6t5d0
/dev/dsk/c6t6d0
/dev/dsk/c6t7d0
/dev/vglock
B]j^
/dev/dsk/c5t0d0
/dev/dsk/c6t0d0
其中Vgdata中使用的pv信息如下:
--- Physical volume groups ---
PVG Name pvg0
PV Name /dev/dsk/c5t8d0
PV Name /dev/dsk/c5t9d0
PV Name /dev/dsk/c5t10d0
PV Name /dev/dsk/c5t11d0
PV Name /dev/dsk/c5t12d0
PV Name /dev/dsk/c5t13d0
PV Name /dev/dsk/c5t14d0
PVG Name pvg1
PV Name /dev/dsk/c6t8d0
PV Name /dev/dsk/c6t9d0
PV Name /dev/dsk/c6t10d0
PV Name /dev/dsk/c6t11d0
PV Name /dev/dsk/c6t12d0
PV Name /dev/dsk/c6t13d0
PV Name /dev/dsk/c6t14d0
Vgdata共使用十四块磁盘,其中c5t8d0 至c5t14d0在PVG0中,对应ds2405-1的后半部分磁盘,而 c6t8d0至c6t14d0在PVG1中,对应ds2405-2的后半部分,PVG0和PVG1做PVG条带化后镜像,报错的硬盘为c6t8d0在PVG0中,目前故障硬盘在系统的状态为claimed,还没有完全坏掉,通过lvdisplay查看可以看到有stale状态的坏块,需及时对此盘进行更换。
目前系统运行在有风险的环境中,测试对此硬盘读写,写入数据失败,需要及时进行处理从而使系统重新在良好环境中运行。
(2)根据报错信息定位故障硬盘:
使用root权限登陆服务器,查看syslog和event.log发现有磁盘的严重报错,其中syslog中报有EMS检测到的硬件告警信息,event.log有Disk at hardware path 0/6/1/0/4/0.8.0.255.0.8.0 : Device connectivity or hardware failure,而0/6/1/0/4/0.8.0.255.0.8.0对应的磁盘为c6t8d0。
(1)数据备份
配置信息备份:vgdisplay –v;lvlnboot –v;ioscan –fn;bdf;cat /etc/lvmpvg;cat /etc/lvmtab
由于vgdata是通过lvm来管理,已经做了镜像,目前坏盘对业务无影响,可在线换盘然后进行数据同步。
(2)操作时间,人员安排及备件准备
申请下更换硬盘的具体时间后,工程师会在约定的时间带备件到现场,对备件PN进行检查后准备下一步的确认工作。
(3)操作前确认
检查和确认故障硬盘的位置,确认没有其他硬件报错,cat /opt/resmon/log/event.log。
确认没有NFS使用此主机, more /etc/exports。
(4)VA上面使用使用的磁盘每个最小分区为520byte,多余的8byte用来保存raid校验等信息
DS2405上面使用的磁盘的每个最小分区为512byte,当VA上面的一个坏时,我们可以使用相同型号的DS2405上面的盘进行更换,此时新盘插入到VA上面后,会自动被格式化为520的,不需要认为干预改为520的
当DS2405上面的一个坏时,我们用相同型号的VA上面的盘进行更换时,需要首先使用JBODfmt命令将此硬盘格式化为512的,然后才能被系统使用,否则机器检测到盘但是无法使用。在给DS2405更换盘时,不要使用520的磁盘,否则,如果现场没有安装command view SDM(经过测试,不同系统需要不同版本的软件,现场能找到合适此系统版本的软件的可能行一般不大),会发生系统无法使用新更换的磁盘。
使用swlist |grep CMDVIEWSDM检查是否装有CMDVIEWSDM软件。
(1)在sdp21主机上确认lv信息:检查vgdata中使用到的所有lv的状态。
(2)在sdp21主机上再次确认故障盘的位置及属性:
dd if=/dev/rdsk/c6t9d0 of=/dev/null bs=10240k
dd if=/dev/rdsk/c6t7d0 of=/dev/null bs=10240k
diskinfo /dev/rdsk/c6t7d0
diskinfo /dev/rdsk/c6t9d0
检查目前磁盘的块大小。
(3)在ds2405第9槽位更换硬盘:拔出故障盘(需等待10秒左右),可用fcmsutil /dev/td0 devstat all | grep Loop进行确认,然后插入新盘。
(4)在s21和s22主机上识别新盘、验证新盘的正确性
ioscan –fnCdisk
如果失败,在s21和s22主机上分别执行如下操作:
确认c6t8d0对应的光纤链路为/dev/fcd1
Dmesg确认/dev/fcd1对应的node id,然后执行
fcmsutil /dev/fcd1 replace_dsk dmesg(node id)
ioscan检查是否正常识别出磁盘,如果失败继续定位原因,已经在测试环境测试通过。
(5)确认磁盘的可用性,检查新加磁盘的块大小。
diskinfo /dev/rdsk/c6t8d0
vendor: HP 36.4G
product id: ST336753FC
type: direct access
size: 70000000 Kbytes
bytes per sector: 520
如果为520,则需要在s21和s22上执行操作,系统必须装有CMDVIEWSDM软件后新盘执行格式化,块大小会变为512。
在s21和s22上执行:Armdiscover扫描系统认到的磁盘
:/# JBODdsp -i sdp21
Product ID: HP 36.4G-ST336605FC
Device Type: Disk
Alias:
Unique ID: 20000004cf7279e7
Serial Number: 3FP152EZ
Management Path: n4000:/dev/dsk/c7t0d0
Product ID: HP 73.4G-ST373453FC
Device Type: Disk
Alias:
Unique ID: 20000011c639fff6
Serial Number: 3HW2JJ12
Management Path: n4000:/dev/dsk/c7t8d0
Product ID: HP-A5236A
Device Type: Enclosure Controller
Alias: fc10
Unique ID: HPA5236AUSSA10028830-----------------获得此号码。
Serial Number: USSA10028830
Management Path: n4000:/dev/rscsi/c7t10d0
然后使用命令
#JBODdsp HPA5236AUSSA10028830
可以查询到磁盘node id
#JBODdsp HPA5236AUSSA10028830
Vendor: HP
Product ID: A5236A
Product Firmware: HP06
Serial Number: USSA10028830
Midplane S/N:
Node Unique ID: 50060b00000940df------------------获得此号。
Port Unique ID: HPA5236AUSSA10028830
Status: Critical
最后使用命令#JBODfmt -f 50060b00000940df对磁盘进行块大小的重新格式化(-f默认为512byte)。
系统会提示你format is started,接下来就是等待(近20分钟),硬盘灯成绿色闪烁,闪烁完毕。
Diskinfo进行确认。
(5)在s21上对vgdata配置信息恢复:vgcfgrestore -n vgvgdata /dev/rdsk/c6t8d0
vgchange -a y /dev/vgdata
(6)lvdisplay查看是否已经开始同步,如果没有自动同步则:vgsync /dev/vgdata。
(7)验证
lvdisplay –v lvname查看使用c6t8d0的所有lv的同步状态,直至所有的lv都同步完。
查看event.log和syslog.log确认没有硬盘新的报错,查看bdf,ioscan确认运行正常。
因为目前磁盘做有镜像,一块盘故障不会影响系统正常运行和启动,但考虑到设备老化等原因,也不排除其他的意外出现。此次硬盘更换操作存在的风险如下:
更换过程中设备无法识别新换上的硬盘。
更换的过程中更换新硬盘后无法正常完成数据同步。
更换的过程中有其他硬件故障引起设备宕机,数据丢失等。
更换之后系统无法正常运行,文件系统损坏等。
针对以上的风险,可以有以下的解决方案:
如果设备无法识别新换上的硬盘,则检查新硬盘状态,检查SCSI线连接等,一旦发现硬件有问题立即申请新备件。
如果更换新硬盘后无法正常完成数据同步,则需要检查和硬盘连接同一总线的其他外设SCIS设备,一旦发现有冲突,可暂时对其他总线设备拔除后再同步。
如果有其他硬件故障引起设备宕机,数据丢失等情况,则及时定位故障部件申请备件,如果是硬盘损坏引起数据丢失,则首先申请新的硬盘备件进行更换,更换完之后通过备份磁带对操作系统数据进行恢复。
如果更换之后系统无法正常运行,文件系统损坏,首先查明原因,如果是操作系统软件原因则根据系统报错进行分析解决,如果一时定位不出原因则可通过系统重启后进单用户模式对系统进行相应的文件系统修复,如果仍然无法修复则从操作系统备份磁带进行恢复。