分类: 服务器与存储
2008-07-13 17:08:00
第二步:研究故障。
当交换机报告一个利用高端口的故障时,一个帮助台标签会被创建。可惜,这通常在凌晨两点,并且数据中心里没有人来帮助你诊断这个故障。因此,你必须跳上车赶过去,或是拨到你的虚拟专用网(VPN),并研究这个故障。然后你发现这个故障的时间似乎很熟悉。似乎备份工作在每晚的这个时候开始。但你查看备份报告工具时,磁带正在工作而且所有事情看起来都很好。
如果备份报告工具在这时显示了备份工作失败的信息,你也许从这个故障中找到症状表现,从而引起警惕并采取措施以期能在未来解决这个问题。
第三步:制定纠正故障的措施。
第二天上午,在睡了几小时并喝了一杯咖啡后,你回到办公室给你们组的人解释当时的情形。如果这是一个确实的警告,那么这个组要共同决定一个纠正的措施。这可以采取以下形式:为交换机增加更多的吞吐容量,中断备份工作,改变时间表,或者仅仅提高交换机端口的吞吐极限。时间和故障都应是对问题的自动回应的一部分。
第四步:将解决办法和故障表现记录到知识库。
定义一个存储管理政策的最好方法就是考虑在日常存储环境(包括磁盘、磁带、交换机、主机和应用程序)的操作中发生的故障。然后你可以考虑这些故障和警告是怎样发生的以及工作组是怎样处理每个故障的(从确定故障到解决问题)。我把这些故障和警告看作是故障表现,把解决问题的措施看作是初期的存储管理政策。我必须说这种方法对我非常有用:“从实践成为措施。从措施成为政策。”
第五步:这个故障重复出现。现在怎么办?
从知识库中查看你记录的第一次发生时的解决办法,并按照记录的步骤解决这个故障。如果故障的表现是不同的,那么研究这个故障并提供一个解决办法。
第六步:回到故障解决模式。
第二天,你应该检查故障表现来确认那是否是相同的情况。这可能是一个重现的故障,这要求通过过滤技术来将这个假故障从警告系统中移除,或者改变产生故障的基础设备或交换机的极限。
第七步:如果故障反复发生,用一种简单的脚本来自动回应。
现在你是这种故障的熟练工,你可以写出回应内容的脚本或筛选出针对这种类型的故障所使用的解决办法。
第八步:继续监控和训练。
用这种方法培训你的全体员工,包括新员工。
最后,如果这样可以使你多睡几小时并使你能将宝贵的时间集中于那些真正重要的事情上的话,那么你正在做正确的事,而且能够继续做更大的事。
目的:阻止你的工作组总是解决那些并不是真正问题的问题,这样他们才能集中精力于手边的真正的大问题。