分类: BSD
2009-07-31 13:21:10
一、
(一)
1、
LifeKeeper For Windows
在出现故障的情况下,LifeKeeper会将保护资源自动转换到一个根据优先权而设定的系统。在实际进行切换用户时,会经历一个十分短暂的休眠,但是,当系统完成了切换操作后,LifeKeeper会在所选择的系统上自动地恢复操作。
可以被LifeKeeper保护起来的资源是:
Ø
Ø
Ø
Ø
Ø
Ø
2、心跳故障检测Heartbeat
LifeKeeper在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制。即通过每一个通信路径,在两个对等系统之间进行周期性的握手,如果连续没有收到的心跳信号到了一定的数目,LifeKeeper 就把这条路径标示为失效(红色)。
如果你只定义了一条通信路径,当LifeKeeper 把这唯一的一条通信路径标为失效时, LifeKeeper 便立即开始恢复过程。然而,如果你有冗余路径, LifeKeeper 能够通过第二条路径确定是系统故障还是只是通信路径有问题。如果LifeKeeper 开启优先级第二的通信路径并收到了心跳信号,它就不开始failover恢复,只需要把第一条通信路径标成红色(失效),作为信号告诉你需要修理一下有故障的路径。
一般情况下LifeKeeper 只在下列事件发生时,启动系统恢复功能:
Ø
Ø
因而,为了减少由于潜在的通讯错误所引起的不必要的系统切换,建议您使用不同介质的多条通信路径。
3、
(1) socket,即套接字。你使用任何的网络硬件接口,只要它能够支持TCP/IP的通讯协议。这样的硬件包括:以太网、快速以网、令牌环网以及FDDI 或CDDI 。
(2)串行口 在LifeKeeper配置中,你应当配置有一个串行口通信路径。串口通信路径需要利用RS232的拟调解线路来与LifeKeeper系统相连接。
(3)共享磁盘 你可以定义一个共享磁盘分区来作为LifeKeeper的通讯中介。可以只使用小至1MB的分区,当然,也可以使用更大的空间。
LifeKeeper 假定,当通过心跳信号检测其它服务器失败时,则认为此服务器是关闭的。因此,为了避免不必要的失效切换,最好建立两种以上独立的物理路径,使用至少两种心跳。
例如,如果两个服务器被一个串口连接起来,并且,从属服务器来的心跳信号无法被主服务器所检测到,则下面之一是可能引起这一现象的原因:
Ø
Ø
Ø
Ø
失效切换只可能在最后一种情况下才发生。因此,节点间的多种通信路径可以帮助避免不必要的失效切换。
(二)Steeleye LifeKeeper 配置示范
|
磁盘阵列 |
Server1 |
Server2 |
Heartbeat |
TCP/IP |
LifeKeeper Windows 硬件平台 |
LifeKeeper Windows 硬件平台 |
注解; 户自定义接口,使您的应用也能处于LifeKeeper的保护之下 |
a、软件:Steeleye LifeKeeper及Recovery Kit
b、硬件:服务器可以是任何Intel基础上的平台, Server的型号、配置不必一致,只需硬件平台能保证运行;磁盘阵列正常使用。
1、Steeleye LifeKeeper运行机制
I、共享的SCSI 和LifeKeeper软件锁定
LifeKeeper For Winddows
在主系统发生故障的情况下, 次节点系统将能够在磁盘上建立SCSI 锁定,并在备份的系统上将资源投入使用。
II、
LifeKeeper在快速检查(Quickcheck)和深入检查(deepcheck)的时间间隔执行预先定义的行为,以察看资源本身是否失效。如果快速检查和深入检查均局部告失败,系统将尝试局部恢复资源。如果尝试成功,资源将不会向下一优先级的节点进行失效切换(failover )。如果局部恢复尝试失败,系统将向下一优先级的节点进行失效切换。
例如,你可以在LifeKeeper 服务器上配置多块NIC 卡,当定义的NIC发生故障时, 你就可以配置将IP 资源切转到另一个NIC 上,从而避免不必要的失效切换。
III、
指定主要的节点或资源失败时,重新恢复资源的过程。一个失效切换通常是没有事先计划的,它将发生在一个被从属系统所检测到并确定为失败的情况下。
IV、
Administrator Configurable Switchback(ACS )允许LifeKeeper管理员通过命令行或GUI界面来指定资源,其所在LK节点发生故
障而后又恢复正常,该资源将被自动地切换回到原来节点上。可能的值是Iellige(智能的)和Automatic(自动的)。如果选择Automatic ,那么,一旦发生故障的节点回到服务状态时,被配置失效切换的层次都将被切换回到该节点上。如果策略是Iellige,即使当发生故障的节点回到服务状态时,被配置失效切换的层次也会留在它们被失效切换到的节点上,等待由管理员决定合适的时间进行切换。
V、
指用一个有顺序的方式关闭资源,然后将它们恢复到一个备份系统的过程。这通常发生在当你处于维护或者测试模式中的情况下。这时,没有任何东西失败。
2、工作方式
I、Active/Standby
RS232 |
TCP/IP |
Disk Array |
AppA |
|
Server1 |
AppA |
|
Server2 |
Active |
Standby |
Server2 |
W:\ |
AppA on W: |
AppB on M: |
AppB on M: |
AppA on W: |
M:\ |
Server1 |
RS232 |
TCP/IP |
Disk Array |
在激活/激活的图表中,有两个主要应用:APPA 处于Volume w中,并且在 Server1上激活。APPB存储在Volume M上,并且在 Server2上激活。在这一配置中, Server1应该是Volume W:资源的主节点, Server2应该是Volume M:\资源的主节点。
当 Server2失败时, LifeKeeper应该将Volume M:\转换到 Server1上去。如果系统资源是足够的,这一转换不会影响到已经在 Server1上运行的APPA,转换只是简单地将 Server2上的被保护应用程序(APPB)加到 Server1的运行负载上去。
Disk Array |
AppA |
AppB |
AppC |
服务器B |
AppB |
服务器C |
AppC |
服务器A |
AppA |
AppB |
AppC |
Active |
Active |
在N-WAY配置中,可以配置Cascading Recovery (层叠恢复)。当主节点发生故障时,层叠恢复允许多个从属节点被按照一定的优先级次序恢复一个资源或层次。对于在一对节点上的资源恢复,如果节点A发生故障了,资源将会失效切换到节点B上;如果节点B再发生故障而节点 A仍然不可用,资源将会失效切换到节点C上。多个从属节点被指定一个恢复优先级。在上面的例子中,节点A有最高的优先级,节点B有第二优先级,而节点C有最低优先级。LifeKeeper按优先级次序测验节点来决定在失效切换时哪一个服务器将进行工作。
二、STEELEYE LifeKeeper with Extended Mirroring技术简介及其应用(支持非共享磁盘阵列的扩展方式)
(一)
1、
STEELEYE 扩展镜像是一种软件产品,专为Windows
STEELEYE扩展镜像软件在局域网的服务器之间提供完全基于软件的镜像。一个服务器被指定为主服务,另一个为从服务器。客户只能对主服务器上的镜像卷进行读或写,从服务器上相应的卷被锁定以防对数据的存取,除非在主服务器上检测到故障状态。这是实现一个高性能方案要考虑的一个重要问题,因为数据的完整性是主要因素。尽管STEELEYE扩展镜像软件可以单独使用,但是与STEELEYE LifeKeeper for Windows
2、
在STEELEYE 扩展镜像环境下,一个镜像是主服务器上的一个卷,其内容与从服务器上的相关磁盘通过LAN同步。STEELEYE 扩展镜像软件使卷镜像的创建更为容易。
在卷镜像建立后,主服务器和从服务器上的驱动器已经同步,并且两个服务器都已启动运行,出现下面的事件:
Ø
Ø
Ø
Ø
3、
STEELEYE LifeKeeper For Windows
Ø
Ø
Ø
(二)
镜像盘 |
Heartbeat |
TCP/IP |
|
RS232串口 |
LifeKeeper With Windows 硬件平台 |
LifeKeeper With Windows 硬件平台 |
Server1 |
Server2 |
注解; |
使用带有STEELEYE 扩展镜像功能的STEELEYE LifeKeeper for Windows
当一个客户向 Server1上的镜像卷发出写命令,STEELEYE扩展镜像软件保证写命令通过网络送给 Server2, Server2上的写操作成功完成时, Server1上的写操作才能完成。因此,两处系统能够同时更新,因此主、从服务镜像卷中的数据一致性得以保证。
软件、硬件配置
1、软件:STEELEYE LifeKeeper及Recovery Kit
2、硬件:服务器可以是任何IEL基础上的平台,两台Server的型号、配置不必一致,只需硬件平台能保证运行
1、STEELEYE LifeKeeper with Extended Mirroring运行机制
I、通讯路径
“Heartbeat”是服务器间发出的周期性检测信息,它允许STEELEYE Lifekeeper For Windows
(1)
(2)
STEELEYE 扩展镜像软件消除了共享SCSI 的需要。
II、主服务器发生故障
客户向 Server1上运行的一个程序发送一个请求,而 Server1出现写错误时,使用带有STEELEYE 扩展镜像功能的STEELEYE Lifekeeper For Windows
一旦系统发生的故障被被纠正过来,管理员必须重新同步镜像卷。重新同步这些卷并被锁定,目的是不接受任何客户的存取。在这个过程中,非镜像应用不会受到影响,因此这些应用可以毫无干扰的继续运行。系统管理员可以选择何时对镜像卷进行同步,通过提供选择时间的灵活性达到对整个系统的影响减为最小。
重新同步主服务器和从服务器上镜像的时间依赖于卷的大小。 一般情况下,在100MB 以太网上,恢复1Gigabyte(GB)的数据只需要10分钟。
III、从服务器发生故障
当从系统发生故障时,受影响的镜像卷标志为Broken。有必要纠正这些故障,并重新同步有关的卷。当从系统发生故障时,任何写请求不会送给从系统。当从服务器发生故障后再次恢复时,扩展镜像管理器用来重新同步主镜像卷和从镜像卷。
2、工作方式
I、Active/Standby
镜像盘 |
Standby |
Heartbeat |
TCP/IP |
|
RS232串口 |
LifeKeeper With Extended Mirroring 应用系统 Windows Server 硬件平台 |
Active |
镜像盘 |
Active |
Heartbeat |
TCP/IP |
RS232串口 |
LifeKeeper With Extended Mirroring 应用系统 Windows Server 硬件平台 |
AppA |
AppB |
AppB |