分类: LINUX
2011-05-03 19:43:47
两台IBM DS6800 分别放置在主中心机房和容灾机房,通过B5000 和McData4400两个光纤交换机的级联,实现LVM的容灾.两个交换机之间通过单模光纤连接,两个机房的物理距离大致为3.5公里.
因为别的单位的施工导致了单模光纤的中断 ,通信公司修复故障后,单模光纤恢复连接,可能是光纤的连接节点增加或者接线质量的问题,光纤链路的损耗达到8.23DB.1公里的损耗大概是1DB.而容灾中心的单模模块是4KM,所以连接虽然是通的,但中间不断有连接故障,最终导致操作系统层报磁盘错误.
#errpt
DCB47997 1118230710 T H hdisk86 DISK OPERATION ERROR
DCB47997 1118211010 T H hdisk86 DISK OPERATION ERROR
DC73C03A 1118143810 T S fscsi0 SOFTWARE PROGRAM ERROR
DC73C03A 1118143810 T S fscsi0 SOFTWARE PROGRAM ERROR
D666A8C7 1118143810 T H fcs0 ADAPTER ERROR
DC73C03A 1118143810 T S fscsi0 SOFTWARE PROGRAM ERROR
DC73C03A 1118143810 T S fscsi0 SOFTWARE PROGRAM ERROR
D666A8C7 1118143810 T H fcs0 ADAPTER ERROR
D666A8C7 1118143710 T H fcs0 ADAPTER ERROR
C62E1EB7 1118143610 P H hdisk86 DISK OPERATION ERROR
……
如上,AIX不断的报错,差不多每一分钟都在报'DISK OPERATION ERROR'的错误.
#datapath query device
DEV#: 2 DEVICE NAME: vpath2 TYPE: 1750500 POLICY: Optimized
SERIAL: 68947310208
==========================================================================
Path# Adapter/Hard Disk State Mode Select Errors
0 fscsi0/hdisk86 OPEN NORMAL 2743907375 193
1 fscsi0/hdisk88 OPEN NORMAL 0 0
2 fscsi1/hdisk94 OPEN NORMAL 2946584858 10
3 fscsi1/hdisk96 OPEN NORMAL 0 0
我们可以看到,存储到主机的4个链路都是open/normal状态.但errors在不断增加。
Hdisk86 是通过fcs0 设备连接的,所以先检查这个链路的情况
#lscfg -vl fcs0
Device Specific.(Z8)........20000000C98F0996
…...
Hardware Location Code......U5802.001.0080624-P1-C4-T1
根据HBA卡的wwn(20000000C98F0996),我们确定了它连接的光纤交换机。这个交换机就是链路出现问题的那个;然后检查通过这个交换机连接IBM DS6800与aix主机的磁盘都在报错。从而确定是这个链路恢复以后信号衰减多于以前导致了链路的连接出现传输不稳定的故障。
更换容灾中心的单模模块,由原来的4km更换为10km的单模模块,经过半小时的观察,OS层不再报'DISK OPERATION ERROR'的错误了,问题得到解决。
单模光纤的连接的衰耗的范围为5-18,目前的这个链路的衰耗在正常的范围内,问题出在单模模块的选择上,容灾中心的单模模块是4KM的所以无法实现正常稳定的通讯,更换为10km后,链路恢复了正常。