集群（cluster）&高可用性(HA)概念-flyboy-ChinaUnix博客

Flyboy's Blogflyboy.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

flyboy

博客访问： 2609598
博文数量： 351
博客积分： 76
博客等级：上将
技术积分： 3555
用户组：普通用户
注册时间： 2004-11-13 21:27

文章分类

全部博文（351）

iphone/ipad（6）
金融理财（9）
无线世界（12）
娱乐休闲（25）
Growth增长（11）
QOS管理（2）
windows防火墙（3）
HA技术（6）
项目管理（11）
冰上舞蹈（17）
碧水情深（1）
zippo传奇（4）
linux空间（26）
内核技术（29）
安全技术（7）
精彩瞬间（6）
黑客天地（4）
代码人生（11）
乱七八糟（27）
生活学习（52）
健康生活（22）
爱情童话（23）
吉他园地（7）
日记随笔（30）
未分配的博文（0）

文章存档

2013年（1）

2012年（4）

2011年（7）

2010年（16）

2009年（34）

2008年（34）

2007年（34）

2006年（68）

2005年（82）

2004年（71）

我的朋友

相关博文

集群（cluster）&高可用性(HA)概念

分类：网络与安全

2007-11-28 10:55:12

1.1 什么是集群
简单的说，集群（cluster）就是一组计算机，它们作为一个整体向用户提供一组网络资源。这些单个的计算机系统就是集群的节点（node）。一个理想的集群是，用户从来不会意识到集群系统底层的节点，在他/她们看来，集群是一个系统，而非多个计算机系统。并且集群系统的管理员可以随意增加和删改集群系统的节点。

1.2 集群系统的主要优点：
    (1)高可扩展性：
    (2)高可用性HA：集群中的一个节点失效，它的任务可传递给其他节点。可以有效防止单点失效。
    (3)高性能：负载平衡集群允许系统同时接入更多的用户。
    (4)高性价比：可以采用廉价的符合工业标准的硬件构造高性能的系统。

2.1 集群系统的分类
    虽然，根据集群系统的不同特征可以有多种分类方法，但是一般把集群系统分为两类：
    (1)、高可用(High Availability)集群,简称HA集群。
    这类集群致力于提供高度可靠的服务。就是利用集群系统的容错性对外提供7*24小时不间断的服务，如高可用的文件服务器、数据库服务等关键应用。
    负载均衡集群：使任务可以在集群中尽可能平均地分摊不同的计算机进行处理，充分利用集群的处理能力，提高对任务的处理效率。
    在实际应用中这几种集群类型可能会混合使用，以提供更加高效稳定的服务。如在一个使用的网络流量负载均衡集群中，就会包含高可用的网络文件系统、高可用的网络服务。
    (2)、性能计算(High Perfermance Computing)集群，简称HPC集群，也称为科学计算集群。
    在这种集群上运行的是专门开发的并行应用程序，它可以把一个问题的数据分布到多台的计算机上，利用这些计算机的共同资源来完成计算任务，从而可以解决单机不能胜任的工作（如问题规模太大，单机计算速度太慢）。
    这类集群致力于提供单个计算机所不能提供的强大的计算能力。如天气预报、石油勘探与油藏模拟、分子模拟、生物计算等。

3.1 什么是高可用性 (HA)
计算机系统的可用性(availability)是通过系统的可靠性(reliability)和可维护性(maintainability)来度量的。工程上通常用平均无故障时间(MTTF)来度量系统的可靠性,用平均维修时间（MTTR）来度量系统的可维护性。于是可用性被定义为：MTTF/ (MTTF+MTTR)*100%

负载均衡服务器的高可用性
为了屏蔽负载均衡服务器的失效，需要建立一个备份机。主服务器和备份机上都运行High Availability监控程序，通过传送诸如“I am alive”这样的信息来监控对方的运行状况。当备份机不能在一定的时间内收到这样的信息时，它就接管主服务器的服务IP并继续提供服务；当备份管理器又从主管理器收到“I am alive”这样的信息是，它就释放服务IP地址，这样的主管理器就开开始再次进行集群管理的工作了。为在主服务器失效的情况下系统能正常工作，我们在主、备份机之间实现负载集群系统配置信息的同步与备份，保持二者系统的基本一致。

HA的容错备援运作过程
    自动侦测(Auto-Detect)阶段由主机上的软件通过冗余侦测线，经由复杂的监听程序。逻辑判断，来相互侦测对方运行的情况，所检查的项目有：主机硬件(CPU和周边)、主机网络、主机操作系统、数据库引擎及其它应用程序、主机与磁盘阵列连线。为确保侦测的正确性，而防止错误的判断，可设定安全侦测时间，包括侦测时间间隔，侦测次数以调整安全系数，并且由主机的冗余通信连线，将所汇集的讯息记录下来，以供维护参考。
    自动切换(Auto-Switch)阶段某一主机如果确认对方故障，则正常主机除继续进行原来的任务，还将依据各种容错备援模式接管预先设定的备援作业程序，并进行后续的程序及服务。
    自动恢复(Auto-Recovery)阶段在正常主机代替故障主机工作后，故障主机可离线进行修复工作。在故障主机修复后，透过冗余通讯线与原正常主机连线，自动切换回修复完成的主机上。整个回复过程完成由EDI-HA自动完成，亦可依据预先配置，选择回复动作为半自动或不回复。

3.2、HA三种工作方式：
（1）、主从方式（非对称方式）
工作原理：主机工作，备机处于监控准备状况；当主机宕机时，备机接管主机的一切工作，待主机恢复正常后，按使用者的设定以自动或手动方式将服务切换到主机上运行，数据的一致性通过共享存储系统解决。
（2）、双机双工方式（互备互援）
工作原理：两台主机同时运行各自的服务工作且相互监测情况，当任一台主机宕机时，另一台主机立即接管它的一切工作，保证工作实时，应用服务系统的关键数据存放在共享存储系统中。
（3）、集群工作方式（多服务器互备方式）
工作原理：多台主机一起工作，各自运行一个或几个服务，各为服务定义一个或多个备用主机，当某个主机故障时，运行在其上的服务就可以被其它主机接管。

阅读(3413) | 评论(0) | 转发(0) |

上一篇：为什么牙刷不能放在浴室里

下一篇：利用802.3ad实现链路聚合

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6