分类: 服务器与存储
2008-06-06 05:24:37
双机热备即是目前通常所说的active/standby方式,服务器数据包括数据库数据同时往两台或多台服务器写,或者使用一个共享的存储设备。当active服务器出现故障的时候,通过软件诊测(一般是通过心跳诊断)将standby机器激活,保证应用在短时间内完全恢复正常使用。
双机互备,在双机热备的基础上,两个相对独立的应用在两台机器同时运行,但彼此均设为备机,当某一台服务器出现故障时,另一台服务器可以在短时间内将故障服务器的应用接管过来,从而保证了应用的持续性。这种方式实际上是双机热备的一种应用。它避免了两个应用使用四台服务器分别实现双机热备。
双机双工,两台或多台服务器均为活动,同时运行相同的应用,保证整体的性能,也实现了负载均衡和互为备份。需要利用磁盘柜存储技术(最好采用san)。对于数据库服务而言,它同时需要数据库软件的支持,是比较复杂的。而WEB服务器或应用服务器就比较简单了
双机热备=主机+备机
简单理解:主要应用运行于主机,备机即备用机器
双机互备=主机(备机)+备机(主机)
简单理解:部分应用运行于主机,部分应用运行于备机
双机双工=主机+主机
简单理解:两台机器同时运行应用
一.使用双机容错的目的:电脑信息时代,任何行业对于整体系统结构及需处理保存的数据都极为重视,尤其邮电、金融等行业,数据的安全性和稳定性更显得至关重要。但是如何能预先知道可能发生的故障,以便提早防治,抑或某一企业用户同时有多套系统需要做到不同监视管理的复杂情况时,要如何才能提高系统的安全性并同时提早预防故障的发生,这是我们一直在研究和思考的问题。
双机容错方案目的在于保证数据永不丢失和系统永不停机。双机容错方案是在高度网络化的整体系统结构中,保持系统主机高度连续有效的运作,并具有弹性的设置和方便扩充的特性的整体建议及开发方案。
二 .双机容错的工作原理:双机容错的高可用系统通常应用于两种情况,一种是系统死机、错误操作和管理引起的异常失败,另一种是由于系统维护和升级的需要而安排的正常关机。
在实际应用中, 由主机上的软件通过冗余心动侦测线路,经由复杂的监听程序、逻辑判断,来相互侦测对方运行的情况。如果某一主机确认对方故障,则正常主机除继续进行原来的任务,还将依据各种容错备援模式接管设定的故障机作业程序并进行后续的程序和服务。
在故障机修复后,通过冗余通讯线与正常机连线,可将原来的工作程序及磁盘阵列上的数据,自动切换回修复完成的主机上。从而保证了系统数据安全性和系统工作的连续性,实现了系统永不停机和数据永不丢失的目的。
三.双机容错解决方案
1. 方案主要特性
支持更多的备援模式。
支持双机双工工作模式和双机主从热备份,和双机热备份工作模式。
l 双机冗余通讯连接。
通过专用侦测网,共享磁盘区和串口线来实现双机间冗于通讯侦测,同时负载资源的公用网也可负担冗于侦测的任务。在网络资源繁重和拥挤行业,为了保护系统的安全性和侦测的准确性,建议用户至少使用两块网卡,其一可专用于侦测并且用户请不要轻易人为改变侦测次数和设置。
l 自动错误侦测与自动接管
系统自动侦测和自动接管并且支持手动切换,方便系统管理员管理。
l 灵活的网络配制。
l 错误日志和报告。
l 基于图形用户界面的监控系统,易于管理的本地监控和远程监控。
可通过RS-232口直接通过Modem远程报警和实现远程监控。
2. 系统软硬件基本需求
l 至少两台相对应服务器主机。
I. 两套操作系统
II. TCP/IP软件
支持TCP/IP协议,用于在网络间的通讯与侦测,可以应用于Ethernet、FDDI、FastEthernet和ATM网上运行。
III. 至少一个以太网
用户可视系统的安全程度和网络结构采用不同的以太网结构,对于不同的服务可以用不同的网络连接到两台服务器。若系统安全性要求较高,可采用专用侦测以太网来传送心跳信号,使两台服务器能够相互了解对方的运行情况。若采用单以太网和单网卡,则此以太网可既负载网络资源又负责侦测,可降低系统成本,但安全性较专用侦测以太网低,可应用于网络负载不大并且对安全性要求较低的用户。
l 一个心跳线通讯口
可将两台服务器的心跳线口连接,以实现侦测。
l 全冗余磁盘阵列
此设备上的信息可以被两台服务器分别访问。用于存放提供服务所必需的软件和数据,保证数据的可靠性和可恢复性,避免和减少由于磁盘故障或错误所造成的损失。
l 用于双机热备软件两套.
安装于两台服务器上,用于监视系统的状态,协调两台服务器的工作,维护系统的可用性。具有以下特点:
1.开放性
支持所有的X86系统和流行的数据库软件。
2. 快速的响应速度
系统服务转移时间根据服务的不同一般在15-----180秒之间。
自动处理过程,错误检测和服务转移过程完全由软件自动处 理,不需系统管理员干预。
3.图形用户界面
4.灵活性
用户可制定每台服务器的作用,制定要监控的服务和硬件部分
定义故障恢复后是否自动接替,系统正常重起和关机时是否
接管等。
5.所支持的数据库
Unix Based System :Informix,Oracle,Sybase
Windows NT System:Oracle,Sybase,SQL Server,IIS,
Informix等。
四.双机容错的工作模式及工作过程
1. 工作模式
模式一:双机双工热备份
在此模式中,两台主机同时运作,分别处理各自不同的作业以及各自的负载资源。当其中一台主机因故障而不能提供服务给前端客户时,另一台主机除原来本身的工作外,接管故障机的工作。当故障机修复后,接管主机会根据软件设置自动交还原来的工作和服务。此种工作模式可完全达成Client/Server和负载平衡的功能。
模式二:主从热备份
一台主机被设定成“主”,另一台主机则设定为“从”。由主机提供并负责执行所有的工作和服务,从机为备援主机。当主机故障时,从机立刻执行接管工作,并转换成“主机”。当故障机修复后自动成为“从机”,前端用户完全不受影响。
模式三:热备份
此模式中,一台主机为主动式(Active),另一台则为备援式(standby)。当Active机故障时,standby机执行接管动作而成为主机。当Active修复后,standby机将接管工作交还给Active。所以此模式中,standby可选用较抵档的主机,以节省经费并可达到容错的目的。
模式四:双网卡单网段
采用主机互备援并具有网卡冗余功能。主机各有两块网卡,一个为主,另一个为备援。主卡出故障时,备援卡接管主卡的IP地址,这样便实现了主机网卡冗余,当两个网卡均故障或主机故障时,则由另一台主机接管故障机工作。
模式五:双网卡双网段
采用主机互备援方式,双网段减轻网络负荷,提高系统及网络的工作效率。
2. 工作过程
n 自动侦测阶段:
由主机上软件通过冗余侦测线,心动电路等复杂监听程序,逻辑判断,相互侦测对方运行情况。检查项目有:主机硬件,主机网络,主机操作系统,数据库引擎及其他应用程序,主机与磁盘阵列连线。并同时记录侦测信息,以供维护参考。
n 自动切换阶段:
接管过程的内容为:文件系统,数据库,网络地址,应用程序,系统环境,所支持的数据库:Oracle、SQL Server、Sysbase等,并且用户可自定义应用程序。
n 自动恢复阶段
五.方案建议
用户可根据自身的使用环境和工作行业,系统安全重要程度和资金状况采用不同的工作模式和冗余程度,并可根据数据量的大小选用不同的磁盘阵列柜。
1. 系统工作负载大或系统管理有所分工并需要实现容错功能。
可选用双机双工热备份工作模式,
2. 系统需要集中管理并需要实现容错功能。
可选用双机主从热备份工作模式。
3. 系统集中管理,需要实现容错功能,并且资金紧张。
可选用双机热备份工作模式。备份主机可选用较低档服务器。
4.可根据系统安全重要程度选用不同的冗余通讯线
u 专用的心跳线通讯连接
u 专用的乙太网通讯连接
u 非专用的乙太网通讯连接
u 备援的乙太网通讯连接
u 共用磁盘区
u 安全冗余时间
u 冗余软件守护程序
5. 用户可根据自身不同的网络环境采用不同的网络连接
l 单网连接
l 双网连接
在双机容错的架构中,要根据用户的不同的系统作业环境,网络环境和数据库的安装,应用程序工作环境不同或用户端由局域网接入还是由广域网接入等不同需求,组成不同的架构,根据不同的行业和各行业不同的需求设计了多种工作模式和方案并可弹性的组合,做到最大限度的满足用户需求