Cluster---集群-王小幸-ChinaUnix博客

王小幸的ChinaUnix博客wangxing.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

王小幸

博客访问： 242187
博文数量： 65
博客积分： 1430
博客等级：中尉
技术积分： 700
用户组：普通用户
注册时间： 2011-04-27 00:30

文章分类

全部博文（65）

文章存档

2011年（65）

我的朋友

相关博文

Cluster---集群

分类： LINUX

2011-09-08 21:14:22

集群定义：

-----------------------------------------------------------------------#

集群（cluster）就是一组计算机，它们作为一个整体向用户提供一组网络资源。这些单个的计算机系统就是集群的节点（node）。

-----------------------------------------------------------------------#

最常用的三种集群：

-----------------------------------------------------------------------#

1. LB,Load Balancing,负载均衡集群

定义：即把负载压力根据某种算法合理分配到集群中的每一台计算机上，以减轻主服务器的压力，降低对主服务器的硬件和软件要求。

2. HA，High Availability，高可用集群，每年在线时间为99.9%

优点：高可用集群的出现是为了使集群的整体服务尽可能可用，从而减少由计算机硬件和软件易错性所带来的损失。如果某个节点失效，它的备援节点将在几秒钟的时间内接管它的职责，可有效防止单点故障。因此，对于用户而言，集群永远不会停机。高可用集群软件的主要作用就是实现故障检查和业务切换的自动化。

这类集群致力于提供高度可靠的服务。

3. HP，High Performance，高性能集群，科学计算集群（人口统计，人口分析，模拟核武器爆炸实验）

优点：这类集群致力于提供单个计算机所不能提供的强大的计算能力。

------------------------------------------------------------------------#

常用集群的解决方案：

------------------------------------------------------------------------#

1.负载均衡集群

两种常见的解决方案：

1）LVS（linux virtual server）

2)haproxy

2.高可用集群

四种常见的解决方案：

1）heartbeat

2）corosync openais：RHCS

3）ultramonkey

4）keepalive

3.高性能集群

常见的解决方案：

bowerful

------------------------------------------------------------------------#

LVS的介绍：

------------------------------------------------------------------------#

LVS是Linux Virtual Server的缩写

1. 定义

LVS是一个开源的软件，由毕业于国防科技大学的章文嵩博士于1998年5月创立，可以实现LINUX平台下的简单负载均衡。LVS是Linux Virtual Server的缩写，意思是Linux虚拟服务器

2. LVS的调度方法

1）四种静态调度方法（不检查realserver的连接状态）

1》Round-robin（RR）轮调

---调度器通过"轮叫"调度算法将外部请求按顺序轮流分配到集群中的真实服务器上，它均等地对待每一台服务器，而不管服务器上实际的连接数和系统负载。

2》Weighted round-robin（WRR）加权轮调

---根据处理能力的大小来分配权重，从而分配调度次数。

3》Destination hashing目标地址哈希（散列）

---实现针对同一目标地址的请求做固定定向转发

4》Source hashing 源地址哈希（散列）

---实现针对同一源地址的请求做固定定向转发

2）六种动态调度方法（检查realserver的连接数和连接状态）

两种状态 active inactive

1》LC（Least-connection）同时检查active连接和inactive连接，谁的连接数目少就把请求转发给谁（退出了不一定断开连接了）。

公式：最大连接数=活动连接数*256 非活动连接

2》WLC（weighted least-connection）加权最少连接数

在集群系统中的服务器性能差异较大的情况下，调度器采用"加权最少链接"调度算法优化负载均衡性能，具有较高权值的服务器将承受较大比例的活动连接负载。调度器可以自动问询真实服务器的负载情况，并动态地调整其权值。

公式：最大连接数=活动连接数*256 非活动连接

最大连接数/权重

3》SED（Shortest Expected Delay）最短期望延迟

公式：最大连接数=(活动连接数 1) *256

最大连接数/权重

4》NQ （Never Queue）永不排队算法

5》LBLC

SED的改进

Locality-Based Least-Connection （LBLC）基于本地状态的最少连接

6》LBLCR

Locality-Based Least-Connection with Replication scheduling带复制的基于本地状态的最少连接数

3. LVS的三种工作模式

1)network address translation---LVS-NET

2)netdirect routing ---LVS-DR路由

3)ip tunneling 隧道

三种模式具体解析：

1）Virtual server via NAT（VS-NAT）

基本特点：

         1）DIP RIP 必须在同一子网
         2）RIP通常是私有地址
         3）Director处理请求的数据包和请求的数据包，directory需要两张网卡
         4）所有的RIP必须以DIP为默认网关
         5）net机制可以实现端口映射。
         6）任何操作系统都可以做Realserver
         7）Director压力很大，可能会成为瓶颈

优点：

集群中的物理服务器可以使用任何支持TCP/IP操作系统，物理服务器可以分配Internet的保留私有地址，只有负载均衡器需要一个合法的IP地址。
缺点：

扩展性有限。当服务器节点（普通PC服务器）数据增长到20个或更多时,负载均衡器将成为整个系统的瓶颈，因为所有的请求包和应答包都需要经过负载均衡器再生。假使TCP包的平均长度是536字节的话，平均包再生延迟时间大约为60us（在Pentium处理器上计算的，采用更快的处理器将使得这个延迟时间变短），负载均衡器的最大容许能力为8.93M/s，假定每台物理服务器的平台容许能力为400K/s来计算，负责均衡器能为22台物理服务器计算。

解决办法：

即使是是负载均衡器成为整个系统的瓶颈，如果是这样也有两种方法来解决它。一种是混合处理，另一种是采用Virtual Server via IP tunneling或Virtual Server via direct routing。如果采用混合处理的方法，将需要许多同属单一的RR DNS域。你采用Virtual Server via IP tunneling或Virtual Server via direct routing以获得更好的可扩展性。也可以嵌套使用负载均衡器，在最前端的是VS-Tunneling或VS-Drouting的负载均衡器，然后后面采用VS-NAT的负载均衡器。

2）net direct routing---LVS-DR路由

   基本特点；
       1）Director和Cluster要在同一网络中
       2）RIP的地址可以为公有地址
       3）Director只处理请求的数据包，而不处理响应
       4）Cluster的网关不可为DIP，应是路由ip
       5）不能重新映射端口，端口必须保持一致
       6）大多数操作系统可实现realserver
       7）这种模型可以带动更多的realserver

       7）这种模型可以带动更多的realserver
   模型剖析：
       1）数据包在节点间传输靠的是MAC，通过ARP的广播解析IP到MAC；此种模型中Director仍有VIP、DIP；Real server有VIP、RIP；
       2）Director及real server 都连接到一个Switch上；
       3） Director及real server 都配置的有VIP；
       4）相同的IP，为防止冲突，在 real server 上采取手段隐藏起VIP地址，使其对请求VIP地址解析的ARP请求不作响应，这样解析到的VIP地址即为Director，数据包线传输到Director；
       5） Director 接收到数据包后，根据算法找到某个real server ，并且修改数据包中的目的MAC地址为该real server的Mac，然后通过       Switch转发该数据包；此时，该数据包的源ip仍未CIP，目标ip为VIP；
       6）real server接收到数据包后（包中的VIP、目的MAC均匹配自己），处理该包，返回的数据直接通过Switch出去并过Router传回Client。

优点：

负载均衡器只是分发请求，应答包通过单独的路由方法返回给客户端。与VS-TUN相比，VS-DR这种实现方式不需要隧道结构，因此可以使用大多数操作系统做为物理服务器，其中包括：Linux、Solaris 、FreeBSD 、windows、IRIX 6.5；HPUX11等。
不足：

要求负载均衡器的网卡必须与物理网卡在一个物理段上。
3）ip tunneling隧道

   基本特点：
        Director和Cluster不在同一网络中
        RIP必须是公网地址，不能是私有地址
        Director只处理请求的数据包，不处理响应数据包
        不能重新映射端口，端口必须保持一致
        只有支持隧道协议的服务器才能作为RealServer

优点：

负载均衡器只负责将请求包分发给物理服务器，而物理服务器将应答包直接发给用户。所以，负载均衡器能处理很巨大的请求量，这种方式，一台负载均衡能为超过100台的物理服务器服务，负载均衡器不再是系统的瓶颈。使用VS-TUN方式，如果你的负载均衡器拥有100M的全双工网卡的话，就能使得整个 Virtual Server能达到1G的吞吐量。
缺点：

但是，这种方式需要所有的服务器支持”IP Tunneling”(IP Encapsulation)协议

三种IP负载均衡技术的优缺点比较:
　　　　　　　　　 | VS/NAT　　　　 VS/TUN　　　　　　VS/DR

---------------------|--------------------------------------------------
服务器操作系统　　　 |任意　　　　　　支持隧道　　　多数
服务器网络　　　　　 |　私有网络　　　　局域网/广域网　　局域网
服务器数目(100M网络) |10-20　　　　　　100　　　　　　　多(100)
服务器网关　　　　　 |负载均衡器　　　自己的路由　　　　自己的路由
效率　　　　　　　　 |一般　　　　　　高　　　　　　　　最高

------------------------------------------------------------------------#

LVS的调度算法：

------------------------------------------------------------------------#

1.静态调度方法（不检查realserver的连接状态）
1）Round-robin（RR）轮调
2）Weighted round-robin（WRR）加权轮调

---根据处理能力的大小来分配权重，从而分配调度次数。
3）Destination hashing目标地址哈希（散列）

---实现针对同一目标地址的请求做固定定向转发
4）Source hashing 源地址哈希（散列）

           ---实现针对同一源地址的请求做固定定向转发
2.动态调度方法（检查realserver的连接数和连接状态）
      两种状态 active inactive
      1）LC（Least-connection）最少连接数

           同时检查active连接和inactive连接，谁的连接数目少就把请求转发给谁（退出了不一定断开连接了）。
        公式：最大连接数=活动连接数*256+非活动连接
      2）WLC（weighted least-connection）加权最少连接数
           lvs需要装在调度节点上，接受用户发来的请求并将其转发到后台真正提供服务的服务器（real server）
        公式：最大连接数=活动连接数*256+非活动连接
              最大连接数/权重
      3）SED（Shortest Expected Delay）最短期望延迟
        公式：最大连接数=(活动连接数+1) *256
              最大连接数/权重
      4）NQ （Never Queue）永不排队算法

            无需队列。如果有台 realserver的连接数＝0就直接分配过去，不需要在进行sed运算
      5）LBLC 基于局部性的最少链接
         SED的改进
         Locality-Based Least-Connection （LBLC）“基于局部性的最少链接”

调度算法是针对目标IP地址的负载均衡，目前主要用于Cache集群系统。该算法根据请求的目标IP地址找出该目标IP地址最近使用的服务器，若该服务器是可用的且没有超载，将请求发送到该服务器；若服务器不存在，或者该服务器超载且有服务器处于一半的工作负载，则用“最少链接” 的原则选出一个可用的服务器，将请求发送到该服务器。基于本地状态的最少连接

      6）LBLCR 带复制的基于局部性最少链接
         Locality-Based Least-Connection with Replication scheduling

调度算法也是针对目标IP地址的负载均衡，目前主要用于Cache集群系统。它与LBLC算法的不同之处是它要维护从一个目标 IP地址到一组服务器的映射，而LBLC算法维护从一个目标IP地址到一台服务器的映射。该算法根据请求的目标IP地址找出该目标IP地址对应的服务器组，按“最小连接”原则从服务器组中选出一台服务器，若服务器没有超载，将请求发送到该服务器；若服务器超载，则按“最小连接”原则从这个集群中选出一台服务器，将该服务器加入到服务器组中，将请求发送到该服务器。同时，当该服务器组有一段时间没有被修改，将最忙的服务器从服务器组中删除，以降低复制的程度。

------------------------------------------------------------------------#

阅读(1824) | 评论(0) | 转发(0) |

上一篇：mysql练习题小结

下一篇：linux学习笔记之mysql总结

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6