分类: 服务器与存储
2008-06-11 20:25:32
1.介质故障(Media failure)
介质故障在几乎所有备份和恢复故障列表中最常见的。因为这个原因,所以慎重地处理你的备份介质并且聪明地使用这些介质非常重要。
在磁带的案例中,这意味着你要遵循厂家的指导来处理存储、有规律地替换磁带并且依照厂商的时间表来清理磁带机。这同时也意味着丢弃任何有可能损坏的磁带。
不要想当然地认为基于磁盘的备份能使你免于介质故障之苦。当然磁盘方式产生介质故障的几率要比磁带低、但是故障仍然存在。
例如,SATA磁盘阵列经常用于备份,因为这种方式比较低廉并且备份能经常能够应用在低性能系统。然而,不要错误地等同于"低性能"就是"低可靠性"。
2.人为因素(Human error)
作为第二号原因,人为因素可能是最多引起备份故障的因素。例如,如果磁带在被使用之间不正确地存放,这是介质故障还是人为错误?通常,在任何备份故障中人为因素都是重大的因素。
最好的防止备份中的人为错误的措施是培养这些人遵守最佳实践经验。确信那些执行备份和恢复工作的人们正确了解什么是他们需要做的--什么是不要做的。
尽量不让从事备份的人处在备份周期的循环中也是一个好主意。理想情况是,备份最好不用任何人为动作,尤其应该谨慎的是备份不应该是一个人主要工作的部分--举例来说,在一个分支公司的人被要求每天晚上做一次磁盘备份。
3.软件故障(Software failure)
有时候新的软件或者软件的新版本会引起备份故障。例如,Windows XP的Service Pack 2 (SP2)让防火墙变成默认设置。当微软发布SP2后,很多网络备份故障因为备份软件没有被设计通过防火墙工作。
非常普遍的,这个问题是因为混合设置。现代备份软件非常复杂;也就是说,你在备份时候有很多选项去选择,但是选择错误的选项可能导致部分备份故障或者全部备份故障。
另外一个相关的问题是备份设置并不是静态的,这和现代存储环境下的其它一样。因为资源被不断加入并且转移和改变,需要被备份的文件的列表也要同时改变。
4.硬件故障(Hardware failure)
磁带机(Tape drive)、磁带库(Tape librarie)、磁盘阵列(disk array)和其它备份硬件同样会出现故障。多数备份硬件的原因和故障情形和其他种类的硬件是一样的,但是还是有一些备份系统的情形是不大一样的。
例如,在磁带机流水线生产出来一个显著的次品。因为磁带机的使用时间,所以磁头性能下降,结果是其它磁带机不能读出这些磁带--甚至这台磁带机不能读出之前它自己写入的磁带。这些磁带经常导致磁带机可能只能读出它写入的,所以磁带机这个问题会引起硬件故障。
5.网络故障(Network failure)
通过网络备份因为减少了一定数量的备份设备而提高了效率。然而,同时在备份进程中也增加了另一种可能的故障。任何来自故障或者异常的主机总线适配器(HBA)到混合交换机的东西都可能导致备份故障。
相比这是一个并不太容易发生的备份故障,因为网络、局域网或者广域网并不仅仅用来做备份,所以在网络故障给你备份造成很大损失之前,就会把问题变得很明显。
6.如何修复备份故障
无论什么导致的故障,最好的来阻止这些故障损害的组织的方法就是通过有规律地恢复测试来校验你的备份。有规律地测试你的备份并不会防止备份故障,但是能够帮助你注意到这些信号,并且这样能够在你真正需要这些备份并且大吃一惊之前有时间修复这些错误。