分类: 服务器与存储
2008-09-06 10:39:27
拓朴环境:服务器(HBA)---brocade 3250 ----EMC CX300
故障现象:日前,针对一台服务器手动升级了几个补丁,重启系统后,发现系统无法连接存储器的卷。经检查发现HBA驱动丢失(与系统冲突)。
找出驱动程序,重装HBA驱动,故障仍旧。此时业务已停止了十五分钟,压力不断增大。
故障分析:
当时思考:
若从此台服务器解决从问题,方法有二:一是删除补丁,二是升级HBA驱动。对升级HBA驱动,未知那一个版本与系统兼容,时间可能会比删除补丁更效时间。
若启用备用服务器(已配好HBA),只要在CX300上原存储组里增加备用服务器的HOSTs就能访问故障系统的存储分区,即故障服务器和备用服务器都能访问此分区。此方法之前测试过没问题,整个配置过程加上重启备用服务器的时间能控制在十分钟内(没办法EMC CX300每次配置后,服务器都必须重启系统)。
确定处理方案:这样,决定分两步走,我负责启用备用服务器,另一个同事负责从HBA的官方网站下载新的驱动程序。
解决过程:十分钟内,故障服务器通过升级HBA的驱动,能正常访问存储分区。备用机也能访问此分区,不过当故障服务器正常后删除。
从故障产生到解决的整个过程共经历了四十五分钟左右。
总结:
1、针对存储服务器的操作要比普通的服务器更细心才行。平时应多操作存储操作以提高熟练程度。
2、升级系统补丁,最好是搭建同样的环境测试,若没此条件,建议先备份系统状态。