Chinaunix首页 | 论坛 | 博客
  • 博客访问: 47087
  • 博文数量: 8
  • 博客积分: 320
  • 博客等级: 二等列兵
  • 技术积分: 90
  • 用 户 组: 普通用户
  • 注册时间: 2009-07-29 11:20
文章分类

全部博文(8)

文章存档

2011年(5)

2010年(2)

2009年(1)

我的朋友

分类: 系统运维

2011-12-20 22:24:09

为了保障系统安全稳定的运行,HP DS2405盘柜的报错盘的拓扑结构和主机的磁盘划分和业务情况,对此次磁盘故障进行更换方案的准备,包括磁盘报错的分析,磁盘更换前的数据备份工作,备件准备,人员和时间安排,可能面临的风险以及遇到意外情况下的回退方案等,特撰写此操作手册。

 

主机,操作系统版本为B11.11,主机名:s21s22,分别直连两台共享盘柜DS2405DS2405分别配备十四块36G15K硬盘。

1)其中盘柜的的十四块磁盘通过LVM管理软件统一管理,具体配置如下:

系统使用的pv信息如下

/dev/vg00

/dev/dsk/c2t1d0

/dev/dsk/c3t0d0

/dev/vgdata

/dev/dsk/c5t8d0

/dev/dsk/c5t9d0

/dev/dsk/c5t10d0

/dev/dsk/c5t11d0

/dev/dsk/c5t12d0

/dev/dsk/c5t13d0

/dev/dsk/c5t14d0

/dev/dsk/c6t8d0

/dev/dsk/c6t9d0

/dev/dsk/c6t10d0

/dev/dsk/c6t11d0

/dev/dsk/c6t12d0

/dev/dsk/c6t13d0

/dev/dsk/c6t14d0

/dev/vgdp

/dev/dsk/c5t1d0

/dev/dsk/c5t2d0

/dev/dsk/c5t3d0

/dev/dsk/c5t4d0

/dev/dsk/c5t5d0

/dev/dsk/c5t6d0

/dev/dsk/c5t7d0

/dev/dsk/c6t1d0

/dev/dsk/c6t2d0

/dev/dsk/c6t3d0

/dev/dsk/c6t4d0

/dev/dsk/c6t5d0

/dev/dsk/c6t6d0

/dev/dsk/c6t7d0

/dev/vglock

B]j^

/dev/dsk/c5t0d0

/dev/dsk/c6t0d0

其中Vgdata中使用的pv信息如下:

   --- Physical volume groups ---

   PVG Name                    pvg0                      

   PV Name                     /dev/dsk/c5t8d0           

   PV Name                     /dev/dsk/c5t9d0           

   PV Name                     /dev/dsk/c5t10d0          

   PV Name                     /dev/dsk/c5t11d0          

   PV Name                     /dev/dsk/c5t12d0          

   PV Name                     /dev/dsk/c5t13d0          

   PV Name                     /dev/dsk/c5t14d0          

 

   PVG Name                    pvg1                      

   PV Name                     /dev/dsk/c6t8d0           

   PV Name                     /dev/dsk/c6t9d0           

   PV Name                     /dev/dsk/c6t10d0          

   PV Name                     /dev/dsk/c6t11d0          

   PV Name                     /dev/dsk/c6t12d0          

   PV Name                     /dev/dsk/c6t13d0          

   PV Name                     /dev/dsk/c6t14d0 

Vgdata共使用十四块磁盘,其中c5t8d0 c5t14d0PVG0中,对应ds2405-1的后半部分磁盘,而 c6t8d0c6t14d0PVG1,对应ds2405-2的后半部分,PVG0PVG1PVG条带化后镜像,报错的硬盘为c6t8d0PVG0中,目前故障硬盘在系统的状态为claimed,还没有完全坏掉,通过lvdisplay查看可以看到有stale状态的坏块,需及时对此盘进行更换。

目前系统运行在有风险的环境中,测试对此硬盘读写,写入数据失败,需要及时进行处理从而使系统重新在良好环境中运行。

2)根据报错信息定位故障硬盘:

使用root权限登陆服务器,查看syslogevent.log发现有磁盘的严重报错,其中syslog中报有EMS检测到的硬件告警信息,event.logDisk at hardware path 0/6/1/0/4/0.8.0.255.0.8.0 : Device connectivity or hardware failure,而0/6/1/0/4/0.8.0.255.0.8.0对应的磁盘为c6t8d0

  

1)数据备份

配置信息备份:vgdisplay –v;lvlnboot –v;ioscan –fn;bdf;cat /etc/lvmpvg;cat /etc/lvmtab

由于vgdata是通过lvm来管理,已经做了镜像,目前坏盘对业务无影响,可在线换盘然后进行数据同步。

2)操作时间,人员安排及备件准备

申请下更换硬盘的具体时间后,工程师会在约定的时间带备件到现场,对备件PN进行检查后准备下一步的确认工作。

3)操作前确认

检查和确认故障硬盘的位置,确认没有其他硬件报错,cat /opt/resmon/log/event.log

确认没有NFS使用此主机, more /etc/exports

4VA上面使用使用的磁盘每个最小分区为520byte,多余的8byte用来保存raid校验等信息

DS2405上面使用的磁盘的每个最小分区为512byte,当VA上面的一个坏时,我们可以使用相同型号的DS2405上面的盘进行更换,此时新盘插入到VA上面后,会自动被格式化为520的,不需要认为干预改为520

DS2405上面的一个坏时,我们用相同型号的VA上面的盘进行更换时,需要首先使用JBODfmt命令将此硬盘格式化为512的,然后才能被系统使用,否则机器检测到盘但是无法使用。在给DS2405更换盘时,不要使用520的磁盘,否则,如果现场没有安装command view SDM(经过测试,不同系统需要不同版本的软件,现场能找到合适此系统版本的软件的可能行一般不大),会发生系统无法使用新更换的磁盘。

使用swlist |grep CMDVIEWSDM检查是否装有CMDVIEWSDM软件。

 

1)在sdp21主机上确认lv信息:检查vgdata中使用到的所有lv的状态。

2)在sdp21主机上再次确认故障盘的位置及属性:

dd if=/dev/rdsk/c6t9d0 of=/dev/null bs=10240k

dd if=/dev/rdsk/c6t7d0 of=/dev/null bs=10240k

diskinfo /dev/rdsk/c6t7d0

diskinfo /dev/rdsk/c6t9d0

检查目前磁盘的块大小。

3ds24059槽位更换硬盘拔出故障盘需等待10秒左右),可用fcmsutil /dev/td0 devstat all | grep Loop进行确认然后插入新盘。

4)在s21s22主机上识别新盘、验证新盘的正确性

ioscan –fnCdisk

如果失败,在s21s22主机上分别执行如下操作:

确认c6t8d0对应的光纤链路为/dev/fcd1

Dmesg确认/dev/fcd1对应的node id,然后执行

fcmsutil /dev/fcd1 replace_dsk dmesg(node id)

ioscan检查是否正常识别出磁盘,如果失败继续定位原因,已经在测试环境测试通过。

5)确认磁盘的可用性,检查新加磁盘的块大小。

diskinfo /dev/rdsk/c6t8d0

             vendor: HP 36.4G

         product id: ST336753FC     

               type: direct access

               size: 70000000 Kbytes

   bytes per sector: 520

如果为520,则需要在s21s22上执行操作,系统必须装有CMDVIEWSDM软件后新盘执行格式化,块大小会变为512

s21s22上执行:Armdiscover扫描系统认到的磁盘

:/# JBODdsp -i sdp21  

   Product ID: HP 36.4G-ST336605FC

   Device Type: Disk

   Alias:

   Unique ID: 20000004cf7279e7

   Serial Number: 3FP152EZ

   Management Path: n4000:/dev/dsk/c7t0d0

  

   Product ID: HP 73.4G-ST373453FC

   Device Type: Disk

   Alias:

   Unique ID: 20000011c639fff6

   Serial Number: 3HW2JJ12

   Management Path: n4000:/dev/dsk/c7t8d0

  

   Product ID: HP-A5236A

   Device Type: Enclosure Controller

   Alias: fc10

   Unique ID: HPA5236AUSSA10028830-----------------获得此号码。

   Serial Number: USSA10028830

   Management Path: n4000:/dev/rscsi/c7t10d0

  然后使用命令

    #JBODdsp HPA5236AUSSA10028830

  可以查询到磁盘node id

  #JBODdsp HPA5236AUSSA10028830

  

  Vendor: HP

  Product ID: A5236A

  Product Firmware: HP06

  Serial Number: USSA10028830

  Midplane S/N:

  Node Unique ID: 50060b00000940df------------------获得此号。

  Port Unique ID: HPA5236AUSSA10028830

  Status: Critical

  最后使用命令#JBODfmt -f 50060b00000940df对磁盘进行块大小的重新格式化(-f默认为512byte)。

系统会提示你format is started,接下来就是等待(近20分钟),硬盘灯成绿色闪烁,闪烁完毕。

Diskinfo进行确认。

5)在s21上对vgdata配置信息恢复:vgcfgrestore -n vgvgdata /dev/rdsk/c6t8d0

vgchange -a y /dev/vgdata

6lvdisplay查看是否已经开始同步如果没有自动同步则vgsync /dev/vgdata

7验证

lvdisplay –v lvname查看使用c6t8d0的所有lv的同步状态直至所有的lv都同步完。

查看event.logsyslog.log确认没有硬盘新的报错,查看bdfioscan确认运行正常。

因为目前磁盘做有镜像,一块盘故障不会影响系统正常运行和启动,但考虑到设备老化等原因,也不排除其他的意外出现。此次硬盘更换操作存在的风险如下:

更换过程中设备无法识别新换上的硬盘。

更换的过程中更换新硬盘后无法正常完成数据同步。

更换的过程中有其他硬件故障引起设备宕机,数据丢失等。

更换之后系统无法正常运行,文件系统损坏等。

 

针对以上的风险,可以有以下的解决方案:

      

如果设备无法识别新换上的硬盘,则检查新硬盘状态,检查SCSI线连接等,一旦发现硬件有问题立即申请新备件。

如果更换新硬盘后无法正常完成数据同步,则需要检查和硬盘连接同一总线的其他外设SCIS设备,一旦发现有冲突,可暂时对其他总线设备拔除后再同步。

如果有其他硬件故障引起设备宕机,数据丢失等情况,则及时定位故障部件申请备件,如果是硬盘损坏引起数据丢失,则首先申请新的硬盘备件进行更换,更换完之后通过备份磁带对操作系统数据进行恢复。

如果更换之后系统无法正常运行,文件系统损坏,首先查明原因,如果是操作系统软件原因则根据系统报错进行分析解决,如果一时定位不出原因则可通过系统重启后进单用户模式对系统进行相应的文件系统修复,如果仍然无法修复则从操作系统备份磁带进行恢复。

阅读(3352) | 评论(0) | 转发(0) |
0

上一篇:HP-UX 11.23 安装Secure Shell(openssh)操作步骤

下一篇:没有了

给主人留下些什么吧!~~