Chinaunix首页 | 论坛 | 博客
  • 博客访问: 62847
  • 博文数量: 8
  • 博客积分: 1425
  • 博客等级: 上尉
  • 技术积分: 170
  • 用 户 组: 普通用户
  • 注册时间: 2005-07-01 12:29
文章分类

全部博文(8)

文章存档

2011年(1)

2009年(2)

2008年(5)

我的朋友

分类:

2008-10-15 23:28:19

故障描述:

    前方反馈电池即将过期,有2块磁盘损坏(去现场之前已经指导更换),磁阵目前读写缓慢。

设备信息:

     品牌:IBM

型号:DS4300

     序列号:13P6480

故障处理过程:

1,           观察磁阵前面板状态灯

发现磁阵Power-on LED为稳定的绿色,General-system-error LED为黄色亮起,所有磁盘的Drive activity LED为绿色常亮或闪烁,没有某个磁盘该指示灯熄灭的情况,所有磁盘的Drive fault LED为熄灭状态。以上现象说明所有磁盘状态都正常,没有磁盘发生故障。但是整个磁阵的某个部件有问题,导致了磁阵的告警灯亮。

2,           检查磁盘阵列背部部件状态指示灯

发现磁阵背部的电源部件,风扇部件的状态都正常。

发现磁阵控制器ACache active灯处于熄灭状态,而磁阵控制器BCache active灯处于亮起状态。而其它状态指示灯,都正常,没有异常。于是认为导致磁阵告警的原因是两个控制器的Cache状态不一样,需要解决磁阵两个Cache状态不一样的问题。

3,           给笔记本电脑安装最新的storage manager,找一个网线,连接磁阵的管理网口与笔记本的网口,将笔记本的网卡IP地址,设置在和磁阵控制器管理网口同一个网段类,避免IP地址冲突。

4,           打开storage manager程序,第一次打开时,提示搜索,等搜索完毕后,点击要管理的磁阵,此例是ds4300进入。

5,           通过storage manager收集日志

选择AdvancedàTroubleshootingàCollect All Support Data,出现Collect All Support Data对话框,选择文件存放的路径和文件名,然后选择Start开始收集日志,收集完毕后,显示Complete.

6,           对日志内容进行检查:

打开日志压缩文件,选择storageSubsystemProfile对所有部件进行检查,发现电池状态为:

 

         Battery status:          Near expiration 

         Location:                Controller A    

         Age:                     1,140 days      

         Days until replacement:  29 days         

 

         Battery status:          Near expiration  

         Location:                Controller B     

         Age:                     1,140 days      

         Days until replacement:  29 days      

发现所有LOGICAL DRIVERcache状态为:

 

      Read cache:                            Enabled                       

      Write cache:                           Enabled (currently suspended)  

         Write cache without batteries:      Disabled                       

         Write cache with mirroring:         Enabled (currently suspended) 

      Flush write cache after (in seconds):  10.00                         

      Dynamic cache read prefetch:           Enabled  

即写缓存暂时关闭。

7,             分析可能造成cache关闭的原因:

针对两个控制器的cache active状态指示灯的状态不一致情况,查看了DS4300的硬件手册,发现造成该灯没有亮的可能原因是CACHE没有用;电池损坏;CACHE损坏。

从收集的日志中查看,cache是再用的,因此cache没有用的原因可以被排除;

从收集的日志中查看,发现两个控制器都识别到了128M的内存,说明内存应该是好的,因此cache损坏的原因也可以排除。

从收集的日志中查看,发现电池报Near expiration说明是电池即将过期导致磁阵暂时停止了cache的使用,因此需要更换电池。

8,           与软创人员沟通,制定维修方案

经过交流得知,目前国内只发过来一块电池,如果更换一块,另一块不更换,会造成仍旧无法使用,因为两个cache的写数据是镜像的。最后决定,先不换电池,先尝试把电池的时间清零操作(因为电池的状态不是failed,因此感觉还可以用)。最后决定,将电池的时间清零。

9,           将电池的时间清零

点击storage manager中的系统状态图标

在出现的图中,选择batteries,然后选择reset

然后再用网线连接到另一个控制器上,用同样的方法,对另一个控制器上的电池进行reset.

10,       检查电池的状态

发现电池的计数器已经清零,电池的状态变为optimal,说明电池的状态正常了。

 

         Battery status:          Optimal      

         Location:                Controller A 

         Age:                     0 days       

         Days until replacement:  1,169 days   

 

         Battery status:          Optimal      

         Location:                Controller B 

         Age:                     0 days       

         Days until replacement:  1,169 days   

11,       检查cache情况

发现cache都是激活的

      Read cache:                            Enabled  

      Write cache:                           Enabled  

         Write cache without batteries:      Disabled 

         Write cache with mirroring:         Enabled  

      Flush write cache after (in seconds):  10.00    

      Dynamic cache read prefetch:           Enabled  

12,       重新收集两个控制器的日志

发现所有部件状态都正常。

13,       对磁阵进行读写测试

发现原来要读写2个多小时的数据,现在几分钟就完成了,说明性能问题解决。

 

至此磁阵问题解决完毕

 

阅读(1936) | 评论(1) | 转发(0) |
给主人留下些什么吧!~~

chinaunix网友2009-08-12 11:32:14

没图?