分类: 系统运维
2011-12-20 22:14:16
为了保障系统安全稳定的运行,针对主机的具体配置和业务情况,对此次根盘故障进行更换方案的准备,包括系统报错的分析,根盘更换前的数据备份工作,备件准备,人员和时间安排,可能面临的风险以及遇到意外情况下的回退方案等,特撰写此操作手册。
主机操作系统版本为B11.11,cpu数量型号:2*PA8600,内存:4*256M,配备四块18.2G硬盘,未连接阵列。
其中本地的四块硬盘通过LVM管理软件统一管理,其中c1t0d0 和c1t2d0在PVG0中, c2t0d0和c2t2d0在PVG1中,PVG0和PVG1做PVG条带化后镜像,报错的硬盘为c1t2d0在PVG0中,目前故障硬盘在系统的状态为claimed,还没有完全坏掉,通过lvdisplay查看可以看到有stale状态的坏块,需及时对此盘进行更换,以防止另一镜像盘坏的情况下数据丢失。
目前系统运行在有风险的环境中,备件已经到现场,需要及时更坏已损坏的硬盘,使系统重新在良好环境中运行。
(1)硬盘配置信息:
Class I H/W Path Driver S/W State H/W Type Description
=====================================================================
disk 0 0/0/1/1.0.0 sdisk CLAIMED DEVICE SEAGATE ST318404LC
/dev/dsk/c1t0d0 /dev/rdsk/c1t0d0
disk 1 0/0/1/1.2.0 sdisk CLAIMED DEVICE FUJITSU MAJ3182MC
/dev/dsk/c1t2d0 /dev/rdsk/c1t2d0
disk 2 0/0/2/0.0.0 sdisk CLAIMED DEVICE FUJITSU MAJ3182MC
/dev/dsk/c2t0d0 /dev/rdsk/c2t0d0
disk 3 0/0/2/0.2.0 sdisk CLAIMED DEVICE FUJITSU MAJ3182MC
/dev/dsk/c2t2d0 /dev/rdsk/c2t2d0
disk 4 0/0/2/1.2.0 sdisk CLAIMED DEVICE HP DVD-ROM 305
/dev/dsk/c3t2d0 /dev/rdsk/c3t2d0
(2)系统启动盘设置信息:
Boot Definitions for Volume Group /dev/vg00:
Physical Volumes belonging in Root Volume Group:
/dev/dsk/c1t0d0 (0/0/1/1.0.0) -- Boot Disk
/dev/dsk/c2t0d0 (0/0/2/0.0.0) -- Boot Disk
/dev/dsk/c1t2d0 (0/0/1/1.2.0)
/dev/dsk/c2t2d0 (0/0/2/0.2.0)
Boot: lvol1 on: /dev/dsk/c1t0d0
/dev/dsk/c2t0d0
Root: lvol3 on: /dev/dsk/c1t0d0
/dev/dsk/c2t0d0
Swap: lvol2 on: /dev/dsk/c1t0d0
/dev/dsk/c2t0d0
Dump: lvol2 on: /dev/dsk/c1t0d0, 0
(3)Vg00中使用的磁盘信息:
--- Physical volumes ---
PV Name /dev/dsk/c1t0d0
PV Status available
Total PE 271
Free PE 0
Autoswitch On
PV Name /dev/dsk/c2t0d0
PV Status available
Total PE 271
Free PE 0
Autoswitch On
PV Name /dev/dsk/c1t2d0
PV Status available
Total PE 271
Free PE 22
Autoswitch On
PV Name /dev/dsk/c2t2d0
PV Status available
Total PE 271
Free PE 22
Autoswitch On
--- Physical volume groups ---
PVG Name pvg0
PV Name /dev/dsk/c1t0d0
PV Name /dev/dsk/c1t2d0
PVG Name pvg1
PV Name /dev/dsk/c2t0d0
PV Name /dev/dsk/c2t2d0
(4)系统中用到的文件系统信息:
Filesystem kbytes used avail %used Mounted on
/dev/vg00/lvol3 262144 49456 199453 20% /
/dev/vg00/lvol1 127573 37386 83808 31% /stand
/dev/vg00/lvol8 1507328 1234984 257126 83% /var
/dev/vg00/lvol9 262144 1165 244675 0% /var/adm/crash
/dev/vg00/lvol7 3014656 1349790 1560864 46% /usr
/dev/vg00/lvol14 262144 32344 215496 13% /usr/ooo
/dev/vg00/lvol12 4849664 2645478 2204186 55% /usr/ppp
/dev/vg00/lvol13 1245184 270047 914230 23% /usr/lll
/dev/vg00/lvol6 655360 2333 612235 0% /tmp
/dev/vg00/lvol5 3604480 1950458 1550683 56% /opt
/dev/vg00/lvol4 1245184 3521 1164097 0% /home
/dev/vg00/lvol10 393216 202330 178970 53% /oracle
/dev/vg00/lvol11 14024704 10305858 3602698 74% /ora
(5)根据报错信息定位故障硬盘:
使用root权限登陆服务器,查看syslog和event.log发现有硬盘的严重报错,其中syslog中报有EMS检测到的硬件告警信息,event.log有Disk at hardware path 0/0/1/1.2.0 : Media failure的报错,而0/0/1/1.2.0对应的磁盘为c1t2d0。
A.查看Syslog发现:
bjsdhnms EMS [1569]: ------ EMS Event Notification ------ Value: "CRITICAL (5)" for Resource: "/storage/events/disks/default/0_0_1_1.2.0" (Threshold: >= " 3") Execute the following command to obtain event details: /opt/resmon/bin/resdata -R 102825988 -r /storage/events/disks/default/0_0_1_1.2.0 -n 102826011 –a。
B.查看event.log发现:
/storage/events/disks/default/0_0_1_1.2.0 is >= 1.
Its current value is CRITICAL(5).
Event data from monitor:
Event Time..........: Tue Jan 26 08:55:57 2010
Severity............: CRITICAL
Monitor.............: disk_em
Event #.............: 100337
System..............: bjbjbj
Summary: Disk at hardware path 0/0/1/1.2.0 : Media failure
Description of Error:
The device was unsuccessful in reading data for the current I/O request
due to an error on the medium. The maximum number of retries were
attempted and the data could not be read. The request was likely processed
in a way which could cause damage to or loss of data.
Probable Cause / Recommended Action:
Reformatting the medium may fix the problem.
Alternatively, the medium in the device is flawed. If the medium is
removable, replace the medium with a fresh one.
Alternatively, if the medium is not removable, the device has experienced
a hardware failure. Contact your HP support representative to have the
device checked.
v-v-v-v-v-v-v-v-v-v-v-v-v D E T A I L S v-v-v-v-v-v-v-v-v-v-v-v-v
Component Data:
Physical Device Path...: 0/0/1/1.2.0
Device Class...........: Disk
Inquiry Vendor ID......: FUJITSU
Inquiry Product ID.....: MAJ3182MC
Firmware Version.......: HP07
Serial Number..........: MM019260
C.用lvdisplay -v /dev/vg00/lvol*发现中间有stale:
00160 /dev/dsk/c1t0d0 02048 current /dev/dsk/c1t2d0 02048 stale
00161 /dev/dsk/c1t0d0 02049 current /dev/dsk/c1t2d0 02049 stale
00162 /dev/dsk/c1t0d0 02050 current /dev/dsk/c1t2d0 02050 stale
00163 /dev/dsk/c1t0d0 02051 current /dev/dsk/c1t2d0 02051 stale
00164 /dev/dsk/c1t0d0 02052 current /dev/dsk/c1t2d0 02052 stale
(1)数据备份
操作系统备份:通过磁带机磁带对操作系统进行备份,由于目前所有的文件系统都在vg00上,所以通过磁带对vg00的数据的备份是很有必要的。具体备份的命令为:make_tape_recovery –Av 。
重要配置文件备份:vgcfgbackup -f /tmp/vg00.backup /dev/vg00对vg00
配置信息备份:vgdisplay –v;lvlnboot –v;ioscan –fn;bdf;cat /etc/lvmpvg;cat /etc/lvmtab
对系统启动文件进行备份:cp /stand/vmunix /tmp/vmunix.bak
(2)操作时间,人员安排及备件准备
申请下更换硬盘的具体时间后,工程师会在约定的时间带备件到现场,对备件PN进行检查后准备下一步的确认工作。
(3)操作前确认
检查和确认故障硬盘的位置,确认没有其他硬件报错,cat /opt/resmon/log/event.log。
确认没有NFS使用此主机, more /etc/exports。
确认业务和数据库是否已正常停掉(业务和数据库管理员确认)。
确认没有其他用户使用本机,who查看。
(1) 确认lv信息
lvdisplay -v /dev/vg00/lvol1
lvdisplay -v /dev/vg00/lvol2
lvdisplay -v /dev/vg00/lvol3
lvdisplay -v /dev/vg00/lvol4
lvdisplay -v /dev/vg00/lvol5
lvdisplay -v /dev/vg00/lvol6
lvdisplay -v /dev/vg00/lvol7
lvdisplay -v /dev/vg00/lvol8
lvdisplay -v /dev/vg00/lvol9
lvdisplay -v /dev/vg00/lvol10
lvdisplay -v /dev/vg00/lvol11
lvdisplay -v /dev/vg00/lvol12
lvdisplay -v /dev/vg00/lvol13
lvdisplay -v /dev/vg00/lvol14
其中vg00中使用到/dev/dsk/c1t2d0的lv有:/dev/vg00/lvol4,/dev/vg00/lvol5,/dev/vg00/lvol6,/dev/vg00/lvol7,/dev/vg00/lvol8,/dev/vg00/lvol11,/dev/vg00/lvol12,/dev/vg00/lvol13,/dev/vg00/lvol14。
(2)对vg00配置信息做默认路径下的备份:vgcfgbackup /dev/vg00
(3)更换硬盘:拔出故障盘(需等待10秒左右)并插入新盘。
(4)识别新盘、验证新盘的正确性
ioscan –fnCdisk
diskinfo /dev/rdsk/c1t2d0
(5)把新增的硬盘detach:pvchange –a n /dev/dsk/c1t2d0
(此步骤也可去激活vg00:启动主机到维护模式进行操作;)
(6)vg00配置信息恢复:vgcfgrestore –n vg00 /dev/rdsk/c1t2d0
(7)激活vg00:vgchange –a y /dev/vg00
(8)lvdisplay查看同步状态,如果没有自动同步则执行(10)。
(9)同步vg00信息:vgsync /dev/vg00(如果激活vg后vg自动同步则此步可省略)
(10)验证
lvdisplay –v lvname查看使用c1t2d0的所有lv的同步状态,直至所有的lv都同步完。
查看event.log和syslog.log确认没有硬盘新的报错,查看bdf,ioscan和lvlnboot确认运行正常。
(11)完成后目前的vg00配置信息备份
vgcfgbackup /dev/vg00
因为目前系统盘做有镜像,一块盘故障不会影响系统正常运行和启动,但考虑到设备老化等原因,也不排除其他的意外出现。此次硬盘更换操作存在的风险如下:
更换过程中设备无法识别新换上的硬盘。
更换的过程中更换新硬盘后无法正常完成数据同步。
更换的过程中有其他硬件故障引起设备宕机,数据丢失等。
更换之后系统无法正常运行,文件系统损坏等。
针对以上的风险,可以有以下的解决方案:
如果设备无法识别新换上的硬盘,则检查新硬盘状态,检查SCSI线连接等,一旦发现硬件有问题立即申请新备件。
如果更换新硬盘后无法正常完成数据同步,则需要检查和硬盘连接同一总线的其他外设SCIS设备,一旦发现有冲突,可暂时对其他总线设备拔除后再同步。
如果有其他硬件故障引起设备宕机,数据丢失等情况,则及时定位故障部件申请备件,如果是硬盘损坏引起数据丢失,则首先申请新的硬盘备件进行更换,更换完之后通过备份磁带对操作系统数据进行恢复。
如果更换之后系统无法正常运行,文件系统损坏,首先查明原因,如果是操作系统软件原因则根据系统报错进行分析解决,如果一时定位不出原因则可通过系统重启后进单用户模式对系统进行相应的文件系统修复,如果仍然无法修复则从操作系统备份磁带进行恢复。