Chinaunix首页 | 论坛 | 博客
  • 博客访问: 239697
  • 博文数量: 144
  • 博客积分: 5473
  • 博客等级: 大校
  • 技术积分: 2645
  • 用 户 组: 普通用户
  • 注册时间: 2011-12-23 17:30
文章分类

全部博文(144)

文章存档

2012年(144)

我的朋友

分类: 服务器与存储

2012-03-22 10:25:14

1、硬件故障

硬件故障有很多种,对系统产生的影响也不一样,这里按其故障对系统的影响程度分:致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类:

其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包括:

主板、CPU、I/O柜(包含本地盘、光驱、PCI插槽等的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等

注:I/O柜和CEC柜一般在比较高端的才有,如M80,低端的是合一的。这些设备的损坏等将使系统无法完成自检、引导和启动,液晶显示屏上都将有错误信息,可根据液晶显示屏上的错误码对照Service Guide查的错误原因,如果是工作状态下出现这些硬件损坏,则系统将被挂起或宕机。

其损坏对仅对系统产生功能影响(机器不会宕机并能正常启动)的硬件包括:网卡、本地硬盘有坏块、显卡、SSA卡和其他外围设备。这些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不受影响,但也建议立即更换该硬盘。

故障定位和排除:

以上硬件故障信息都可以使用:液晶屏上的错误码或:errpt –dH 查看到

根据错误码确定是什么硬件出了故障,对商用系统来讲,由于是双机系统,如果损坏机器是主机可以将此服务器切换成备机,然后修复故障机器,恢复系统。

2、磁阵故障

磁阵引起的故障是目前碰到的最频繁、危害最大的故障,据不完全统计,其故障覆盖到总故障的70%以上,具体来讲,可能引起磁阵故障的环节包括:

磁阵硬盘、7133柜子、主机上的SSA卡、连接7133与主机的SSA线、硬盘的位置和ssa线的接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/ssa卡的微码等都可能造成7133的异常。7133磁阵的问题是最复杂的,一般有物理损坏的原因也有环境原因,这是主因,如接线、插盘位置不符合要求、未及时查看系统告警等造成系统中断等辅因。按照我们的经验,不管是什么硬件故障导致7133故障,系统都会产生告警,如果能及时发现问题并采取措施,一般都能防止故障的发生。

故障定位:

7133硬件故障也可以使用:errpt –dH 查看到
伴随的错误码有:

B4C00618   0115140004 P H ssa0      RESOURCE UNAVAILABLE

FE9E9357   0401082304 P H ssa0      DISK OPERATION ERROR

FE9E9357   1205000803 P H pdisk3    DISK OPERATION ERROR

03913B94   1122031103 U H LVDD      HARDWARE DISK BLOCK RELOCATION ACHIEVED

613E5F38   1121125103 P H LVDD      I/O ERROR DETECTED BY LVM

625E6B9A   0401090004 P H ssa0      ADAPTER DETECTED OPEN SERIAL LINK

26CA120B   0206081104 P H ssa0      CACHE STORAGE CARD

所有的错误码都预示着7133有异常,红色部分则表示肯定出现了硬件故障,需要立即进行检查并采取措施,否则磁阵将很快不能访问。对于蓝色部分:

625E6B9A   0401090004 P H ssa0      ADAPTER DETECTED OPEN SERIAL LINK

表示ssa出现了开环,出现开环不仅影响IO性能,也增加了风险,即如果另一个环路也出现问题,将不能访问磁阵。

开环一般有两种情况:1)如果625E6B9A报错比较频繁,如每天几次,则表示系统很有可能出了硬件故障,虽然不会导致访问磁阵失败,但需要立即查出原因并解决。查错方法可以参考下面的描述。2)如果 625E6B9A错误偶尔报一次,则要具体情况具体对待,有可能是读写忙出现的误报,也按下面方法进行排查,如果没有查出具体的原因,则可以继续观察。

26CA120B   0206081104 P H ssa0      CACHE STORAGE CARD

该错误一般是在:SSA卡带write cache并打开FastWrite,而ssa卡上用于write cache供电的可充电镍镉电池达到或接近安全寿命的情况下产生的。这类错误产生将影响IO写性能,并且由于在FastWrite打开的情况下,主备机需要同步ssa卡上的write cache,所以甚至会影响到主备机同步。具体解决方法可参考下文。


故障排除:

对于红色部分错误的问题排除,一般可以使用diag命令进行进一步诊断:#diag -> Task Selection -> SSA Service Aids -> Link Verification ;检查环路中是否出现了???的盘符或状态不是good的硬盘;或使用:#smitty ssaraid -> List All Defined SSA RAID Arrays,查看磁盘阵列RAID盘的状态是否是Good。如果是degrade或其他状态表示RAID盘出现问题了,这时候不建议再进行单独硬盘的Certify,而是赶紧通知IBM准备好相同型号和大小的硬盘(至少两块)到现场进行进一步的诊断和坏盘更换。

625E6B9A   0401090004 P H ssa0      ADAPTER DETECTED OPEN SERIAL LINK的排查方法:

1、要求将7133中未插硬盘的槽位全部插上dummy盘。 (dummy盘:哑元盘,就是那个空壳子,相当于代替SSA硬盘装在的塑料模型,当磁盘阵列的16个槽位没有被SSA硬盘插满时才用到.)

2、看看Loop状态:diag--->Task Selection-->SSA Service Aids-->Link Verification.正常Adapter Port下的两列数字是连续不间断的排列,且Status都为good,如果Physical列有???????符号.或Status不是good,则说明已经存在硬盘或链路故障,这种情况则要立即采取行动,做进一步检查以确定是否要更换硬盘。检查单盘是否有问题的方法如下: diag--->Task Selection-->SSA Service Aids-->Certify Disk

选择认为存在故障的硬盘进行检查
3、如果7133存在硬件故障时,可从状态灯上观察到:当单块硬盘出现故障或未被使用时,其面板上的硬盘状态灯会不亮;阵列的状态灯黄灯会亮;或接SSA线的端口的指示灯也会熄灭。如果通过以上三种方法都未发现问题,而系统仍报Open Serial Link错误,建议继续跟踪。

26CA120B   0206081104 P H ssa0      CACHE STORAGE CARD的处理方法:

背景介绍:

   IBM小型机上连接7133磁阵所配置的SSA卡一般都带有一块充电电池,该电池用于在突然停电的情况下保护ssa卡上的fast write cache中的信息不丢失,这块电池的安全寿命一般是22000小时,差不多两年半的时间,也就是说,当fast write模式启动的情况下,一般两年半以后需要更换这块电池。

问题表现:

   对ssa卡上的电池保护是通过卡上的一个计数器实现的,每运行一小时该计数器会增加一,当该计数接近或超过22000时,系统会有26CA120B硬件报警:26CA120B   0206120904 P H ssa1           CACHE STORAGE CARD

   可以用如下命令检查ssa卡上的状态:(-a 后带上卡的逻辑设备名,这里假设是ssa0)

   ssa_fw_status -a ssa0  -p     (检查电池已经工作的时间,小时为单位)

   ssa_fw_status -a ssa0  -l     (检查电池安全工作寿命,小时为单位)

   ssa_fw_status -a ssa0  -c     (检查ssa卡上的fast write功能是否被激活)

处理步骤: (按优选方式列出,从中选择一种即可)

1)更换电池

  选择系统闲时,更换主备机ssa卡电池,可以采用:

  停备机-》更换备机ssa卡电池-》起备机(双机服务)-》主备倒换-》

  停原主机-》更换原主机ssa卡电池-》起原主机(双机服务)


2)如果系统出现26CA120B电池告警,使用ssa_fw_status -a ssa0  -c 检查主用ssa卡(一般是ssa0)的Fast Write是否处于inactive(未被激活)状态,如果是,则以root执行如下命令:

   ssa_format -l ssa0 -b

   errclear 0

   /usr/lib/errstop

   /usr/lib/errdemon

   可以暂缓更换电池时间,等有电池后再更换,但这段时间对磁阵读写性能会有所影响。


3)如果短期内不能更换电池,同时主机主用卡的Fast Write仍然处于Active状态,建议手工屏蔽fast write功能

    1)先停止双机

    2)在1号机修改hdisk该属性:

       smitty dev->ssa disks->ssa logical disks->change /show characters of ... -> [choose hdisk2] -> fast write [no]

    3)在1号机激活卷组

       varyonvg zxinvg

    4)在1号机去激活卷组

       varyoffvg zxinvg

    5)在2号机上执行

       smitty dev->ssa disks->ssa logical disks->change /show characters of ... -> [choose hdisk2] -> fast write [no]

       检查fast write是否已经改为no (只要1号机做了2好机就不用再修改了)

    6)在2号机上执行

       rmdev -dl hdisk2

       cfgmgr -v

    7)在2号机上执行

       lspv  (查看hdisk2是否已找到)

    8)然后执行

       varyonvg zxinvg

       varyoffvg zxinvg

    9)重新启动双机

B4C00618   0115140004 P H ssa0      RESOURCE UNAVAILABLE

而不伴随其他红色标出错误的情况,则通过以下方式排查:

可能是hdisk中将‘enable user of hot spare’打开了,而实际并没有配置hot spare盘,

可以通过如下方式解决:

检查RAID的状态:

#smitty ssaraid                                                           

list all defined SSA RAID arrays : all are in status good (ssa0 )      

检查是否配置了hot spare:

  list/identify SSA Physical disks-->List hot spares : none

修改每个ssa卡所配置的hdisk的属性:

: set "enable use of hot spare" to "no"

然后再执行:

# /usr/lib/errstop

# cp /var/adm/ras/errlog   /var/adm/ras/errlog.bak

#/usr/lib/errdemon

#errclear 0


对于物理硬盘的接法可参考如下说明:(有可能老局未配置hot spare,则连线方法按未配置hot spare盘的个数计算)分以下几种情况讲述:

1)    数据盘小于等于6块,建议配置一块hotspare

2)    数据盘大于等于8块小于等于10块,建议配置两块hotspare

3)    数据盘大于等于12块小于等于14块,建议配置两块hotspare

l    数据盘小于等于6块,配置一块hotspare的接线和配置规则:

a)   主机A1、A2接磁阵1、8位置;备机A1、A2接磁阵4、5位置

b)   保证磁阵前排1\4\5\8硬盘位置一定要插盘,其余的盘可以挑空位插,注意1-4、5-8两侧的数据盘保持轴对称关系插入(如1和8是轴对称的、4和5是轴对称的)

c)   没有插硬盘的位置一定要插上dummy盘

d)   做RAID0+1时,考虑到性能问题,请将1-4、5-8以轴对称方式一一对应做硬盘镜像,举例如下:

ibm对pdisk的排序与实际的物理位置是不同的,所以必须先通过lsdev -C |grep pdisk的方式找出其对应关系并记录下来,如:

  pdisk0       Available 11-08-1641-01-P SSA160 Physical Disk Drive

  pdisk1       Available 11-08-1641-05-P SSA160 Physical Disk Drive

  pdisk2       Available 11-08-1641-04-P SSA160 Physical Disk Drive

  pdisk3       Available 11-08-1641-08-P SSA160 Physical Disk Drive

  看第三列中间字符中有-01-的字样,表示其物理硬盘位置,以上对应关系表示:pdisk0-pdisk3对应的物理槽位分别是前排1\5\4\8的位置,所以在使用smitty ssaraid做RAID0+1时,需将1\8位置的硬盘(pdisk0/pdisk3)做成镜像、4\5位置的硬盘(pdisk2/pdisk1)做成镜像,所以选择Primary Disks/Secondary Disks时如下:

  smitty ssaraid-> Add an SSA RAID Array -> ...

  Primary Disks      [需要选择:pdisk0 pdisk2]    -- 1\4槽位的硬盘作为主盘

  Secondary Disks    [需要选择:pdisk3 pdisk1]    -- 8\5槽位的硬盘作为从盘

  该要求只是从性能考虑,并不增加其他特性。  

e)   hot spare盘插入位置可以找前排8个位置中的空位插入即可。无特殊位置要求,制作方法如下:使用lsdev -C |grep pdisk方式找出其pdisk号,如pdisk5 然后使用如下方式将其做成hot spare盘。

smitty ssaraid->Change Use of Multiple SSA Physical Disks->选择ssa卡(连接磁阵的ssa卡,缺省为ssa0)

->选择作为hotspare的pdisk,如pdisk6 ->New Use->选择 hot spare 按回车创建即可

  l    数据盘大于等于8块小于等于10块,配置两块hotspare的接线和配置规则:

a)    主机A1、A2接磁阵1、12位置;备机A1、A2接磁阵8、9位置

b)    保证磁阵前排1-8位置插满数据盘,9-12位置的数据盘和hot spare盘位置可任意。

c)    没有插硬盘的位置一定要插上dummy盘

d)    做RAID0+1时,考虑到性能问题,请将1-4、5-8以轴对称方式一一对应做硬盘镜像,

9-12位置中有数据盘的,将其对应做镜像,其余两块做hot spare,举例如下:

ibm对pdisk的排序与实际的物理位置是不同的,所以必须先通过lsdev -C |grep pdisk的方式找出其对应关系并记录下来,如:

  pdisk0       Available 11-08-1641-01-P SSA160 Physical Disk Drive

  pdisk1       Available 11-08-1641-05-P SSA160 Physical Disk Drive

  pdisk2       Available 11-08-1641-04-P SSA160 Physical Disk Drive

  pdisk3       Available 11-08-1641-08-P SSA160 Physical Disk Drive

  pdisk4       Available 11-08-1641-02-P SSA160 Physical Disk Drive

  pdisk5       Available 11-08-1641-03-P SSA160 Physical Disk Drive

  pdisk6       Available 11-08-1641-07-P SSA160 Physical Disk Drive

  pdisk7       Available 11-08-1641-06-P SSA160 Physical Disk Drive

  pdisk8       Available 11-08-1641-09-P SSA160 Physical Disk Drive

  pdisk9       Available 11-08-1641-11-P SSA160 Physical Disk Drive

  pdisk10      Available 11-08-1641-10-P SSA160 Physical Disk Drive

  pdisk11      Available 11-08-1641-12-P SSA160 Physical Disk Drive



  看第三列中间字符中有-01-的字样,表示其物理硬盘位置,以上对应关系表示

pdisk0-pdisk11对应的物理槽位分别是1\5\4\8\2\3\7\6\9\11\10\12的位置,所以在使用smitty ssaraid做RAID0+1时,前面八块盘按1-4、5-8轴对称方式对应做mirror,9-12中如选择9(pdisk8)/12(pdisk11)位置做mirror

所以选择Primary Disks/Secondary Disks时如下:

  smitty ssaraid-> Add an SSA RAID Array -> ...

  Primary Disks    [选择:pdisk0 pdisk4 pdisk5 pdisk2 pdisk8] 物理1-4,9槽位

  Secondary Disks  [选择:pdisk3 pdisk6 pdisk7 pdisk1 pdisk11]物理8-5,12槽位,该要求只是从性能考虑,并不增加其他特性。  

e)    剩余物理位置10(pdisk10)/11(pdisk9)盘做成hot spare,方法同上e)步骤

l    数据盘大于等于12块小于等于14块,配置两块hotspare的接线和配置规则:

a)    主机A1、A2接磁阵1、16位置;备机A1、A2接磁阵8、9位置

b)    空出3、14位置插hot spare,如果是12块数据盘,空出2、15位置插dummy盘,其余都插入数据盘;如果是14块数据盘,则将剩余的14个位置全部插上数据盘

c)    做RAID0+1时,考虑到性能问题,请将1-8、9-16以轴对称方式一一对应做硬盘镜像, hot spare也满足轴对称关系,举例如下:

ibm对pdisk的排序与实际的物理位置是不同的,所以必须先通过lsdev -C |grep pdisk的方式找出其对应关系并记录下来,如:

  pdisk0       Available 11-08-1641-01-P SSA160 Physical Disk Drive

  pdisk1       Available 11-08-1641-05-P SSA160 Physical Disk Drive

  pdisk2       Available 11-08-1641-04-P SSA160 Physical Disk Drive

  pdisk3       Available 11-08-1641-08-P SSA160 Physical Disk Drive

  pdisk4       Available 11-08-1641-02-P SSA160 Physical Disk Drive

  pdisk5       Available 11-08-1641-03-P SSA160 Physical Disk Drive

  pdisk6       Available 11-08-1641-07-P SSA160 Physical Disk Drive

  pdisk7       Available 11-08-1641-06-P SSA160 Physical Disk Drive

  pdisk8       Available 11-08-1641-09-P SSA160 Physical Disk Drive

  pdisk9       Available 11-08-1641-11-P SSA160 Physical Disk Drive

  pdisk10      Available 11-08-1641-10-P SSA160 Physical Disk Drive

  pdisk11      Available 11-08-1641-12-P SSA160 Physical Disk Drive

  pdisk12      Available 11-08-1641-16-P SSA160 Physical Disk Drive

  pdisk13      Available 11-08-1641-13-P SSA160 Physical Disk Drive

  pdisk14      Available 11-08-1641-15-P SSA160 Physical Disk Drive

  pdisk15      Available 11-08-1641-14-P SSA160 Physical Disk Drive



  看第三列中间字符中有-01-的字样,表示其物理硬盘位置,以上对应关系表示

pdisk0-pdisk15对应的物理槽位分别是1\5\4\8\2\3\7\6\9\11\10\12\16\13\15\14的位置,所以在使用smitty ssaraid做RAID0+1时,以1-8、9-16以轴对称创建mirror所以选择Primary Disks/Secondary Disks时如下:

  smitty ssaraid-> Add an SSA RAID Array -> ...

  Primary Disks   [选择:pdisk0 pdisk4 pdisk2 pdisk1 pdisk7 pdisk6 pdisk3]

物理1-8槽位,除3位置以外

  Secondary Disks [选择:pdisk12 pdisk14 pdisk13 pdisk11 pdisk9 pdisk10 pdisk8]

物理16-9槽位,除14位置以外

  该要求只是从性能考虑,并不增加其他特性。

剩余物理位置3(pdisk5)/14(pdisk15)盘做成hot spare,方法同上e)步骤


3、硬件故障:


1.网卡

对于网卡故障,由于商用系统中都是采用IBM的HA双机系统,而且每台机器都配置有至少两块网卡,所以当单块网卡或网线出现问题时,HA软件都将采取措施实现Service IP切换。

网卡故障定位方法:使用errpt –dH 可查看到网卡服务中断的错误,再使用diag进行网卡诊断。

网卡故障排查方法:如果诊断出网卡有问题,则关闭系统后进行更换。(如果是主机,则先手工切换为备机后再操作)

2.交换机

我们的网络一般都采取双网双平面的结构,所以当一个网络平面的交换机出现问题时,也不会中断网络服务,但值得重视的是:主、备交换机之间的直连线要保持畅通,否则一单发生主机或SIU主机的网卡切换,将导致IBM服务器主机和SIU主机断链,从而导致业务全阻。

还有一种情况,有些地方为了网络安全,对连到switch上的不同设备划分了不同的VLAN,同时又将主、备switch之间改成通过两个口连接,并划分在一个channel group里,当时碰到的一种情况是:

1)当时IBM服务器的主网卡从缺省VLAN0到VLAN6实现迁移时,网络将出现15秒~30秒的瞬断。

2)当时主、备交换机之间的channel group工作不正常,链路不通。

当1)发生时,IBM双机发生主、备网卡倒换,但由于2)的问题,导致IBM主机无法与SIU建链。

问题排查及建议:

1)    建议开局时一定要做双网双平面中一个平面的swith发生掉电的故障测试

2)    建议一定要做主、备交换机之间的设备之间的网络互访测试,确保畅通

3)    尽量不要在白天在switch上进行配置修改,如果需要修改,也要在晚上进行,并有严格的方案

阅读(1327) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~