分类:
2008-10-15 23:28:19
故障描述:
前方反馈电池即将过期,有2块磁盘损坏(去现场之前已经指导更换),磁阵目前读写缓慢。
设备信息:
品牌:IBM
型号:DS4300
序列号:13P6480
故障处理过程:
1, 观察磁阵前面板状态灯
发现磁阵Power-on LED为稳定的绿色,General-system-error LED为黄色亮起,所有磁盘的Drive activity LED为绿色常亮或闪烁,没有某个磁盘该指示灯熄灭的情况,所有磁盘的Drive fault LED为熄灭状态。以上现象说明所有磁盘状态都正常,没有磁盘发生故障。但是整个磁阵的某个部件有问题,导致了磁阵的告警灯亮。
2, 检查磁盘阵列背部部件状态指示灯
发现磁阵背部的电源部件,风扇部件的状态都正常。
发现磁阵控制器A的Cache active灯处于熄灭状态,而磁阵控制器B的Cache active灯处于亮起状态。而其它状态指示灯,都正常,没有异常。于是认为导致磁阵告警的原因是两个控制器的Cache状态不一样,需要解决磁阵两个Cache状态不一样的问题。
3, 给笔记本电脑安装最新的storage manager,找一个网线,连接磁阵的管理网口与笔记本的网口,将笔记本的网卡IP地址,设置在和磁阵控制器管理网口同一个网段类,避免IP地址冲突。
4, 打开storage manager程序,第一次打开时,提示搜索,等搜索完毕后,点击要管理的磁阵,此例是ds4300进入。
5, 通过storage manager收集日志
选择AdvancedàTroubleshootingàCollect All Support Data,出现Collect All Support Data对话框,选择文件存放的路径和文件名,然后选择Start开始收集日志,收集完毕后,显示Complete.
6, 对日志内容进行检查:
打开日志压缩文件,选择storageSubsystemProfile对所有部件进行检查,发现电池状态为:
Location: Controller A
Age: 1,140 days
Days until replacement: 29 days
Location: Controller B
Age: 1,140 days
Days until replacement: 29 days
发现所有LOGICAL DRIVER的cache状态为:
Read cache: Enabled
Write cache: Enabled (currently suspended)
Write cache without batteries: Disabled
Write cache with mirroring: Enabled (currently suspended)
Flush write cache after (in seconds): 10.00
Dynamic cache read prefetch: Enabled
即写缓存暂时关闭。
7, 分析可能造成cache关闭的原因:
针对两个控制器的cache active状态指示灯的状态不一致情况,查看了DS4300的硬件手册,发现造成该灯没有亮的可能原因是CACHE没有用;电池损坏;CACHE损坏。
从收集的日志中查看,cache是再用的,因此cache没有用的原因可以被排除;
从收集的日志中查看,发现两个控制器都识别到了
从收集的日志中查看,发现电池报Near expiration,说明是电池即将过期导致磁阵暂时停止了cache的使用,因此需要更换电池。
8, 与软创人员沟通,制定维修方案
经过交流得知,目前国内只发过来一块电池,如果更换一块,另一块不更换,会造成仍旧无法使用,因为两个cache的写数据是镜像的。最后决定,先不换电池,先尝试把电池的时间清零操作(因为电池的状态不是failed,因此感觉还可以用)。最后决定,将电池的时间清零。
9, 将电池的时间清零
点击storage manager中的系统状态图标
在出现的图中,选择batteries,然后选择reset
然后再用网线连接到另一个控制器上,用同样的方法,对另一个控制器上的电池进行reset.
10, 检查电池的状态
发现电池的计数器已经清零,电池的状态变为optimal,说明电池的状态正常了。
Location: Controller A
Age: 0 days
Days until replacement: 1,169 days
Location: Controller B
Age: 0 days
Days until replacement: 1,169 days
11, 检查cache情况
发现cache都是激活的
Read cache: Enabled
Write cache: Enabled
Write cache without batteries: Disabled
Write cache with mirroring: Enabled
Flush write cache after (in seconds): 10.00
Dynamic cache read prefetch: Enabled
12, 重新收集两个控制器的日志
发现所有部件状态都正常。
13, 对磁阵进行读写测试
发现原来要读写2个多小时的数据,现在几分钟就完成了,说明性能问题解决。
至此磁阵问题解决完毕