Chinaunix首页 | 论坛 | 博客
  • 博客访问: 47139
  • 博文数量: 8
  • 博客积分: 320
  • 博客等级: 二等列兵
  • 技术积分: 90
  • 用 户 组: 普通用户
  • 注册时间: 2009-07-29 11:20
文章分类

全部博文(8)

文章存档

2011年(5)

2010年(2)

2009年(1)

我的朋友

分类: 系统运维

2011-12-20 22:14:16

为了保障系统安全稳定的运行,针对主机的具体配置和业务情况,对此次根盘故障进行更换方案的准备,包括系统报错的分析,根盘更换前的数据备份工作,备件准备,人员和时间安排,可能面临的风险以及遇到意外情况下的回退方案等,特撰写此操作手册。

 

主机操作系统版本为B11.11cpu数量型号:2*PA8600,内存:4*256M配备四块18.2G硬盘,未连接阵列。

其中本地的四块硬盘通过LVM管理软件统一管理,其中c1t0d0 c1t2d0PVG0中, c2t0d0c2t2d0PVG1PVG0PVG1PVG条带化后镜像,报错的硬盘为c1t2d0PVG0中,目前故障硬盘在系统的状态为claimed,还没有完全坏掉,通过lvdisplay查看可以看到有stale状态的坏块,需及时对此盘进行更换,以防止另一镜像盘坏的情况下数据丢失。

目前系统运行在有风险的环境中,备件已经到现场,需要及时更坏已损坏的硬盘,使系统重新在良好环境中运行。

1)硬盘配置信息:

Class     I  H/W Path     Driver S/W State   H/W Type     Description

=====================================================================

disk      0  0/0/1/1.0.0  sdisk CLAIMED     DEVICE       SEAGATE ST318404LC

                         /dev/dsk/c1t0d0   /dev/rdsk/c1t0d0

disk      1  0/0/1/1.2.0  sdisk CLAIMED     DEVICE       FUJITSU MAJ3182MC

                         /dev/dsk/c1t2d0   /dev/rdsk/c1t2d0

disk      2  0/0/2/0.0.0  sdisk CLAIMED     DEVICE       FUJITSU MAJ3182MC

                         /dev/dsk/c2t0d0   /dev/rdsk/c2t0d0

disk      3  0/0/2/0.2.0  sdisk CLAIMED     DEVICE       FUJITSU MAJ3182MC

                         /dev/dsk/c2t2d0   /dev/rdsk/c2t2d0

disk      4  0/0/2/1.2.0  sdisk CLAIMED     DEVICE       HP      DVD-ROM 305

                         /dev/dsk/c3t2d0   /dev/rdsk/c3t2d0

2)系统启动盘设置信息:

Boot Definitions for Volume Group /dev/vg00:

Physical Volumes belonging in Root Volume Group:

        /dev/dsk/c1t0d0 (0/0/1/1.0.0) -- Boot Disk

        /dev/dsk/c2t0d0 (0/0/2/0.0.0) -- Boot Disk

        /dev/dsk/c1t2d0 (0/0/1/1.2.0)

        /dev/dsk/c2t2d0 (0/0/2/0.2.0)

Boot: lvol1     on:     /dev/dsk/c1t0d0

                      /dev/dsk/c2t0d0

Root: lvol3     on:     /dev/dsk/c1t0d0

                      /dev/dsk/c2t0d0

Swap: lvol2     on:     /dev/dsk/c1t0d0

                      /dev/dsk/c2t0d0

Dump: lvol2     on:    /dev/dsk/c1t0d0, 0

3Vg00中使用的磁盘信息:

   --- Physical volumes ---

   PV Name                     /dev/dsk/c1t0d0

   PV Status                   available               

   Total PE                    271    

   Free PE                     0      

   Autoswitch                  On       

 

   PV Name                     /dev/dsk/c2t0d0

   PV Status                   available               

   Total PE                    271    

   Free PE                     0      

   Autoswitch                  On       

 

   PV Name                     /dev/dsk/c1t2d0

   PV Status                   available               

   Total PE                    271    

   Free PE                     22     

   Autoswitch                  On       

 

   PV Name                     /dev/dsk/c2t2d0

   PV Status                   available               

   Total PE                    271    

   Free PE                     22     

   Autoswitch                  On       

 

 

   --- Physical volume groups ---

   PVG Name                    pvg0                       

   PV Name                     /dev/dsk/c1t0d0           

   PV Name                     /dev/dsk/c1t2d0            

 

   PVG Name                    pvg1                      

   PV Name                     /dev/dsk/c2t0d0            

   PV Name                     /dev/dsk/c2t2d0

4)系统中用到的文件系统信息:

Filesystem          kbytes    used   avail %used Mounted on

/dev/vg00/lvol3     262144   49456  199453   20% /

/dev/vg00/lvol1     127573   37386   83808   31% /stand

/dev/vg00/lvol8    1507328 1234984  257126   83% /var

/dev/vg00/lvol9     262144    1165  244675    0% /var/adm/crash

/dev/vg00/lvol7    3014656 1349790 1560864   46% /usr

/dev/vg00/lvol14    262144   32344  215496   13% /usr/ooo

/dev/vg00/lvol12   4849664 2645478 2204186   55% /usr/ppp

/dev/vg00/lvol13   1245184  270047  914230   23% /usr/lll

/dev/vg00/lvol6     655360    2333  612235    0% /tmp

/dev/vg00/lvol5    3604480 1950458 1550683   56% /opt

/dev/vg00/lvol4    1245184    3521 1164097    0% /home

/dev/vg00/lvol10    393216  202330  178970   53% /oracle

/dev/vg00/lvol11   14024704 10305858 3602698   74% /ora

5)根据报错信息定位故障硬盘:

使用root权限登陆服务器,查看syslogevent.log发现有硬盘的严重报错,其中syslog中报有EMS检测到的硬件告警信息,event.logDisk at hardware path 0/0/1/1.2.0 : Media failure的报错,而0/0/1/1.2.0对应的磁盘为c1t2d0

A.查看Syslog发现:

bjsdhnms EMS [1569]: ------ EMS Event Notification ------   Value: "CRITICAL (5)" for Resource: "/storage/events/disks/default/0_0_1_1.2.0"     (Threshold:  >= " 3")    Execute the following command to obtain event details:   /opt/resmon/bin/resdata -R 102825988 -r /storage/events/disks/default/0_0_1_1.2.0 -n 102826011 –a

B.查看event.log发现:

/storage/events/disks/default/0_0_1_1.2.0 is >= 1.

Its current value is CRITICAL(5).

Event data from monitor:

Event Time..........: Tue Jan 26 08:55:57 2010

Severity............: CRITICAL

Monitor.............: disk_em

Event #.............: 100337             

System..............: bjbjbj

Summary: Disk at hardware path 0/0/1/1.2.0 : Media failure

Description of Error:

 

     The device was unsuccessful in reading data for the current I/O request

     due to an error on the medium. The maximum number of retries were

     attempted and the data could not be read. The request was likely processed

     in a way which could cause damage to or loss of data.

 

Probable Cause / Recommended Action:

 

          Reformatting the medium may fix the problem.

 

            Alternatively, the medium in the device is flawed. If the medium is

            removable, replace the medium with a fresh one.

 

       Alternatively, if the medium is not removable, the device has experienced

            a hardware failure. Contact your HP support representative to have the

            device checked.

 

v-v-v-v-v-v-v-v-v-v-v-v-v    D  E  T  A  I  L  S    v-v-v-v-v-v-v-v-v-v-v-v-v

Component Data:

         Physical Device Path...: 0/0/1/1.2.0

         Device Class...........: Disk

          Inquiry Vendor ID......: FUJITSU

          Inquiry Product ID.....: MAJ3182MC      

       Firmware Version.......: HP07

     Serial Number..........: MM019260   

C.lvdisplay -v /dev/vg00/lvol*发现中间有stale

   00160 /dev/dsk/c1t0d0    02048 current  /dev/dsk/c1t2d0    02048 stale   

   00161 /dev/dsk/c1t0d0    02049 current  /dev/dsk/c1t2d0    02049 stale   

   00162 /dev/dsk/c1t0d0    02050 current  /dev/dsk/c1t2d0    02050 stale   

   00163 /dev/dsk/c1t0d0    02051 current  /dev/dsk/c1t2d0    02051 stale   

   00164 /dev/dsk/c1t0d0    02052 current  /dev/dsk/c1t2d0    02052 stale      

1)数据备份

操作系统备份:通过磁带机磁带对操作系统进行备份,由于目前所有的文件系统都在vg00上,所以通过磁带对vg00的数据的备份是很有必要的。具体备份的命令为:make_tape_recovery –Av

重要配置文件备份:vgcfgbackup -f /tmp/vg00.backup /dev/vg00vg00

配置信息备份:vgdisplay –v;lvlnboot –v;ioscan –fn;bdf;cat /etc/lvmpvg;cat /etc/lvmtab

对系统启动文件进行备份:cp /stand/vmunix  /tmp/vmunix.bak

2)操作时间,人员安排及备件准备

申请下更换硬盘的具体时间后,工程师会在约定的时间带备件到现场,对备件PN进行检查后准备下一步的确认工作。

3)操作前确认

检查和确认故障硬盘的位置,确认没有其他硬件报错,cat /opt/resmon/log/event.log

确认没有NFS使用此主机, more /etc/exports

确认业务和数据库是否已正常停掉(业务和数据库管理员确认)

确认没有其他用户使用本机,who查看。

 

 

(1)       确认lv信息

lvdisplay -v /dev/vg00/lvol1

lvdisplay -v /dev/vg00/lvol2

lvdisplay -v /dev/vg00/lvol3

lvdisplay -v /dev/vg00/lvol4

lvdisplay -v /dev/vg00/lvol5

lvdisplay -v /dev/vg00/lvol6

lvdisplay -v /dev/vg00/lvol7

lvdisplay -v /dev/vg00/lvol8

lvdisplay -v /dev/vg00/lvol9

lvdisplay -v /dev/vg00/lvol10

lvdisplay -v /dev/vg00/lvol11

lvdisplay -v /dev/vg00/lvol12

lvdisplay -v /dev/vg00/lvol13

lvdisplay -v /dev/vg00/lvol14

其中vg00中使用到/dev/dsk/c1t2d0lv有:/dev/vg00/lvol4/dev/vg00/lvol5/dev/vg00/lvol6/dev/vg00/lvol7/dev/vg00/lvol8/dev/vg00/lvol11/dev/vg00/lvol12/dev/vg00/lvol13/dev/vg00/lvol14

2)对vg00配置信息做默认路径下的备份:vgcfgbackup /dev/vg00

3)更换硬盘:拔出故障盘(需等待10秒左右)并插入新盘。

4)识别新盘、验证新盘的正确性

ioscan –fnCdisk

diskinfo /dev/rdsk/c1t2d0

5)把新增的硬盘detachpvchange –a n /dev/dsk/c1t2d0

(此步骤也可去激活vg00:启动主机到维护模式进行操作;)

6vg00配置信息恢复:vgcfgrestore –n vg00 /dev/rdsk/c1t2d0

7激活vg00vgchange –a y /dev/vg00

8lvdisplay查看同步状态,如果没有自动同步则执行(10)。

9同步vg00信息vgsync /dev/vg00(如果激活vgvg自动同步则此步可省略)

10验证

lvdisplay –v lvname查看使用c1t2d0的所有lv的同步状态直至所有的lv都同步完。

查看event.logsyslog.log确认没有硬盘新的报错,查看bdfioscanlvlnboot确认运行正常。

11)完成后目前的vg00配置信息备份

vgcfgbackup /dev/vg00

因为目前系统盘做有镜像,一块盘故障不会影响系统正常运行和启动,但考虑到设备老化等原因,也不排除其他的意外出现。此次硬盘更换操作存在的风险如下:

更换过程中设备无法识别新换上的硬盘。

更换的过程中更换新硬盘后无法正常完成数据同步。

更换的过程中有其他硬件故障引起设备宕机,数据丢失等。

更换之后系统无法正常运行,文件系统损坏等。

 

针对以上的风险,可以有以下的解决方案:

      

如果设备无法识别新换上的硬盘,则检查新硬盘状态,检查SCSI线连接等,一旦发现硬件有问题立即申请新备件。

如果更换新硬盘后无法正常完成数据同步,则需要检查和硬盘连接同一总线的其他外设SCIS设备,一旦发现有冲突,可暂时对其他总线设备拔除后再同步。

如果有其他硬件故障引起设备宕机,数据丢失等情况,则及时定位故障部件申请备件,如果是硬盘损坏引起数据丢失,则首先申请新的硬盘备件进行更换,更换完之后通过备份磁带对操作系统数据进行恢复。

如果更换之后系统无法正常运行,文件系统损坏,首先查明原因,如果是操作系统软件原因则根据系统报错进行分析解决,如果一时定位不出原因则可通过系统重启后进单用户模式对系统进行相应的文件系统修复,如果仍然无法修复则从操作系统备份磁带进行恢复。

阅读(1483) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~