分类: 服务器与存储
2008-12-18 15:02:30
自从有计算机网络以来,管理员一直在试图保证这些网络的运行。故障硬件、编写糟糕的软件、不可靠的连接和上帝的随机行动之间似乎一直在进行着斗争。随着云计算的出现,我们首次接近实现一个能够把重点较少地放在保持应用程序的运行方面,而把重点更多地放在效率和有效性方面的计算环境。
在云计算时代,运行时间保证和服务级协议已经开始成为大多数云计算提供商的标准的要求。谷歌、亚马逊河微软都开始执行某种类型的服务级协议。他们这样做是为了向云计算用户提供利用云计算系统取代目前的计算系统的信心。大多数这些云计算平台的一致目标都要提供99.999%的可用性,也就是所谓的5个9的神话。这相当于每年的关机时间为大约5分15秒。5个9的问题是它是一个没有意义的目标。人们可以随意操纵这个目标来满足你需要它表达的含义。
在发生物理故障的时候,如FlexiScale公司最近发生的故障,硬件关机的时间很短,但是,从备份状态恢复正常可能需要更长的时间。一个微小的云计算故障可能导致软件故障的连锁反应,可能引起依赖云计算的人们的软件程序中断几个小时,甚至几天。这就意味着你的云计算也许能够达到99.999%,但是,云计算托管的你的应用程序却不能达到99.999%。
最近,云计算领域有许多人似乎正在开始讨论令人恐惧的五个九(99.999%)概念的替代方法并且正在考察更加主动的而不是被动地防御灾害的配置/部署云计算基础设施的方法。人们日益达成的共识是基于云计算的灾难恢复也许是云计算的“杀手应用”。要实现这个目标,我们需要开始创建假设应付故障的参考架构和模型。人们不必担心下一个灾难将在什么时候发生。灾难肯定将会发生的,当灾难发生的时候,一切都会照常工作。
Zeronines公司创始人Alan Gin最近在一次谈话中介绍了一个有趣的理论。他说,大多数灾难恢复计划的问题是这种灾难恢复是被动的,是灾难已经对你的公司造成损害之后的恢复。这是一种不好的策略。当前的灾难恢复架构使用“容错”的同义词,是以交叉变换模型为基础的。也就是说,一个系统的主要组件出现故障,破坏了运行,然后,容错机制让备用组件恢复运行。目前交叉变换的问题是它把没有计划的关机时间看作是不可避免的、可以接受的,并且因此要求那个业务停止。
这使人们想起了主要计算机存储设备厂商EMC公司的一位官员说过的一句话。他说,当前的容错基础设施是等待发生的故障。
要在当前一直在线和一直可用的世界里保持竞争力,我们需要重新考虑灾难恢复的基本的思路。使用云计算的主要好处是你能够在他们使用新出现的全球云计算工具之前做出这些类型的容错的假设。故障不是能否发生的问题,而是什么时候发生的问题。当你考虑到应用程序组件将会发生故障的因素的时候,你就能够制作一种能够把“故障当作服务”的应用程序。这种应用程序总是可用,但是,没有一个9。