分类: 服务器与存储
2008-06-22 16:30:49
对于一个容灾系统来讲,在灾难发生时,尽早地发现生产系统端的灾难,尽快地恢复生产系统的正常运行或者尽快地将业务迁移到备用系统上,都可以将灾难造成的损失降低到最低。除了依靠人力来对灾难进行确定之外,对于系统意外停机等灾难还需要容灾系统能够自动地检测灾难的发生,目前容灾系统的检测技术一般采用心跳技术。
心跳技术,其中一个实现是:生产系统在空闲时每隔一段时间向外广播一下自身的状态。检测系统在收到这些“心跳信号”之后,便认为生产系统是正常的,否则,在给定的一段时间内没有收到“心跳信号”,检测系统便认为生产系统出现了非正常的灾难。心跳技术的另外一个实现是:每隔一段时间,检测系统就对生产系统进行一次检测,如果在给定的时间内,被检测的系统没有响应,则认为被检测的系统出现了非正常的灾难。心跳技术中的关键点是心跳检测的时间和时间间隔周期。如果间隔周期短,会对系统带来很大的开销。如果间隔周期长,则无法及时地发现故障。
灾难发生后,为了保持生产系统地业务连续性,需要实现系统的透明性迁移,利用备用系统透明地代替生产系统进行运作。一般对实时性要求不高的容灾系统,例如Web服务,邮件服务器等,可以通过修改DNS或者IP来实现,对实时性要求高的容灾系统,则需要将生产系统的应用透明地迁移到备用系统上。目前基于本地机群的进程迁移的算法可以应用在远程容灾系统中,但是需要对迁移算法进行改进,使之适应复杂的网络环境。
上述几种技术只是应用在容灾系统中最广泛的技术,随着技术的更新发展,现在有许多的技术都已经开始应用于容灾系统,例如存储技术中的SAN、NAS、虚拟化技术和快照技术等等,数据管理中的数据归档、迁移和内容存储等技术,还有基于冗余技术和机群技术的高可用技术等等。这些技术的引入必将对容灾系统产生深远的影响,限于篇幅原因,本文不对这些技术做介绍,请参考相关技术资料。