服务器双机热备 heartbeat+lvs安装详解-pk-feiyang-ChinaUnix博客

feiyangpkit.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

pk-feiyang

博客访问： 976586
博文数量： 245
博客积分： 11429
博客等级：上将
技术积分： 2662
用户组：普通用户
注册时间： 2009-08-15 00:16

文章分类

全部博文（245）

php 开发（0）
家乡照（0）
视频相关资料（1）
云计算（1）
生活点滴（4）
存储相关（6）
安全工具介绍（6）
博客链接（0）
perl、shell、pyt（16）
版本控制（4）
工作中错误记录（39）
网络系统安全（25）
服务优化（17）
web 服务（38）
虚拟化（10）
mysql 数据库（7）
13个有用的测试网（1）
邮件（0）
自创诗歌（4）
缓存 cdn squid（19）
系统维护（26）
集群负载（6）
网络监控（10）
未分配的博文（5）

文章存档

2011年（56）

2010年（174）

2009年（15）

我的朋友

相关博文

服务器双机热备 heartbeat+lvs安装详解

分类： LINUX

2010-09-16 10:51:07

服务器双机热备安装详解

首先介绍下heartbeat 的工作原理

1．Heartbeat的组成

Heartbeat提供了高可用集群最基本的功能，例如，节点间的内部通信方式、集群合作管理机制、监控工具和失效切换功能等。目前的最新版本是 Heartbeat 2.x，这里的讲述也是以Heartbeat 2.x为主。下面介绍Heartbeat 2.0的内部组成，主要分为以下几大部分。

heartbeat：节点间通信检测模块。

ha-logd：集群事件日志服务。

CCM（Consensus Cluster Membership）：集群成员一致性管理模块。

LRM（Local Resource Manager）：本地资源管理模块。

Stonith Daemon：使出现问题的节点从集群环境中脱离。

CRM（Cluster Resource Management）：集群资源管理模块。

Cluster policy engine：集群策略引擎。

Cluster transition engine：集群转移引擎。

图18.1显示了Heartbeat 2.0内部结构组成。

（点击查看大图）图18.1 Heartbeat 2.0内部结构图

Heartbeat仅仅是个HA软件，它仅能完成心跳监控和资源接管，不会监视它控制的资源或应用程序。要监控资源和应用程序是否运行正常，必须使用第三方的插件，例如ipfail、Mon和Ldirector等。Heartbeat自身包含了几个插件，分别是ipfail、Stonith和 Ldirectord，介绍如下。

ipfail的功能直接包含在Heartbeat里面，主要用于检测网络故障，并做出合理的反应。为了实现这个功能，ipfail使用ping节点或者ping节点组来检测网络连接是否出现故障，从而及时做出转移措施。

Stonith插件可以在一个没有响应的节点恢复后，合理接管集群服务资源，防止数据冲突。当一个节点失效后，会从集群中删除。如果不使用 Stonith插件，那么失效的节点可能会导致集群服务在多于一个节点运行，从而造成数据冲突甚至是系统崩溃。因此，使用Stonith插件可以保证共享存储环境中的数据完整性。

Ldirector是一个监控集群服务节点运行状态的插件。Ldirector如果监控到集群节点中某个服务出现故障，就屏蔽此节点的对外连接功能，同时将后续请求转移到正常的节点提供服务。这个插件经常用在LVS负载均衡集群中。关于Ldirector插件的使用，将在后续章节详细讲述。

同样，对于操作系统自身出现的问题，Heartbeat也无法监控。如果主节点操作系统挂起，一方面可能导致服务中断，另一方面由于主节点资源无法释放，而备份节点却接管了主节点的资源，此时就发生了两个节点同时争用一个资源的状况。

针对这个问题，就需要在Linux内核中启用一个叫watchdog的模块。watchdog是一个Linux内核模块，它通过定时向/dev /watchdog设备文件执行写操作，从而确定系统是否正常运行。如果watchdog认为内核挂起，就会重新启动系统，进而释放节点资源。

在Linux中完成watchdog功能的软件叫softdog。softdog维护一个内部计时器，此计时器在一个进程写入/dev /watchdog设备文件时更新。如果softdog没有看到进程写入/dev/watchdog文件，就认为内核可能出了故障。watchdog超时周期默认是一分钟，可以通过将watchdog集成到Heartbeat中，从而通过Heartbeat来监控系统是否正常运行。

2．Heartbeat的工作原理

从图18.1中可以看出，Heartbeat内部结构由三大部分组成。

（1）集群成员一致性管理模块（CCM）

CCM用于管理集群节点成员，同时管理成员之间的关系和节点间资源的分配。Heartbeat模块负责检测主次节点的运行状态，以决定节点是否失效。ha-logd模块用于记录集群中所有模块和服务的运行信息。

（2）本地资源管理器（LRM）

LRM负责本地资源的启动、停止和监控，一般由LRM守护进程lrmd和节点监控进程Stonith Daemon组成。lrmd守护进程负责节点间的通信；Stonith Daemon通常是一个Fence设备，主要用于监控节点状态，当一个节点出现问题时处于正常状态的节点会通过Fence设备将其重启或关机以释放IP、磁盘等资源，始终保持资源被一个节点拥有，防止资源争用的发生。

（3）集群资源管理模块（CRM）

CRM用于处理节点和资源之间的依赖关系，同时，管理节点对资源的使用，一般由CRM守护进程crmd、集群策略引擎和集群转移引擎3个部分组成。集群策略引擎（Cluster policy engine）具体实施这些管理和依赖；集群转移引擎（Cluster transition engine）监控CRM模块的状态，当一个节点出现故障时，负责协调另一个节点上的进程进行合理的资源接管。

在Heartbeat集群中，最核心的是Heartbeat模块的心跳监测部分和集群资源管理模块的资源接管部分。心跳监测一般由串行接口通过串口线来实现，两个节点之间通过串口线相互发送报文来告诉对方自己当前的状态。如果在指定的时间内未受到对方发送的报文，就认为对方失效，这时资源接管模块将启动，用来接管运行在对方主机上的资源或者服务。

图18.2是一个Heartbeat集群的一般拓扑图。在实际应用中，由于节点的数目、网络结构和磁盘类型配置的不同，拓扑结构可能会有不同。

下面介绍安装吧
环境准备
   主机名    eth0                 eth1
monitor 192.168.188.138      10.10.10.145    主服务器
daniel   192.168.188.139      10。10.10.147    从服务器
共同的虚拟ip vip 为192.168.188.131

yum -y install pkgconfig   glib2-devel   e2fsprogs libnet* 安装库文件

下载软件包并解压
软件下载地址：
创建用户和组
groupadd haclient
useradd -g haclient hacluster
tar -xzf heartbeat-2.0.7.tar.gz
./configure

--with-ccmuser-name=hacluster

make && make install

也可以用yum install heartbeat*
然后 rpm -qa | grep heartbeat 如果有下面的软件包说明可以进行下一步了
heartbeat-2.1.3-3.el5.centos

heartbeat-devel-2.1.3-3.el5.centos
heartbeat-stonith-2.1.3-3.el5.centos
heartbeat-ldirectord-2.1.3-3.el5.centos
heartbeat-pils-2.1.3-3.el5.centos
heartbeat-gui-2.1.3-3.el5.centos

编辑hosts 文件

monitor 的主机上

10.10.10.147 daniel
10.10.10.145 monitor
192.168.188.138 monitor
192.168.188.139 daniel
daniel 从服务器上的
10.10.10.147 daniel
10.10.10.145 monitor
192.168.188.138 monitor
192.168.188.139 daniel

将这几个文件拷贝到/etc/ha.d/下面

cd /usr/share/doc/heartbeat-2.0.7/

cp ha.cf /etc/ha.d/

cp haresources /etc/ha.d/

cp authkeys /etc/ha.d/

编辑文件

编辑/etc/ha.d/ha.cf

logfile /var/log/ha-log ha的日志文件记录位置。如没有该目录，则需要手动添加
keepalive 2 ##设定心跳(监测)时间时间为2秒
deadtime 30#指定若备用节点在30秒内没有收到主节点的心跳信号，则立即接管主节点的服务资源

warntime 10#指定心跳延迟的时间为10秒。当10秒钟内备份节点不能接收到主节点的

initdead 120

#在某些系统上，系统启动或重启之后需要经过一段时间网络才
能正常工作，该选项用于解决这种情况产生的时间间隔。取值至少为deadtime的两倍

udpport 694 ##使用udp端口694 进行心跳监测
baud 19200
#serial /dev/ttyS0 # Linux #选择串行通信设备，用于双机使用串口线连接的情况。

如果双机使用以太网连接，则应该关闭该选项。

#serial /dev/cuaa0      # FreeBSD
#serial /dev/cua/a      # Solaris
bcast   eth1            # Linux
#mcast eth0 225.0.0.1 694 1 0
#ucast eth0 192.168.188.138
auto_failback on
#crm on
node    monitor ##节点1，必须要与 uname -n 指令得到的结果一致。
node    daniel
ping 10.10.10.145 10.10.10.147 ##通过ping 网关来监测心跳是否正常。

respawn hacluster /usr/lib/heartbeat/ccm
respawn hacluster /usr/lib/heartbeat/ipfail
apiauth ipfail gid=haclient uid=hacluster
#apiauth ipfail uid=hacluster

编辑vi /etc/ha.d/haresources

主服务器主机名两个机器的虚拟ip 服务
monitor 192.168.188.131 httpd

编辑认证密码authkeys(自行修改）
authkeys文件用于设定Heartbeat的认证方式，共有3种可用的认证方式，即crc、 md5和sha1。3种认证方式的安全性依次提高，但是占用的系统资源也依次增加。如果Heartbeat集群运行在安全的网络上，可以使用crc方式；如果HA每个节点的硬件配置很高，建议使用sha1，这种认证方式安全级别最高；如果是处于网络安全和系统资源之间，可以使用md5认证方式。这里我们使用crc认证方式，设置如下：
auth 1
1 sha1 123

#1 crc 123
#2 sha1 HI!
#3 md5 Hello!

chmod 600 authkeys
将修改的这些文件复制到从服务器上

scp -r node1:/etc/ha.d/*  /etc/ha.d/ 
启动

/etc/init.d/heartbeat    
Usage: /etc/init.d/heartbeat {start|stop|status|restart|reload|force-reloa

这样就启动了主节点的Heartbeat服务，为了让Heartbeat能在开机自动运行以及关机自动关闭，可以手动创建以下软连接：

[root@monitor ~]#ln -s  /etc/init.d/heartbeat  /etc/rc.d/rc0.d/K05heartbeat  
[root@monitor ~]#ln -s  /etc/init.d/heartbeat  /etc/rc.d/rc3.d/S75heartbeat  
[root@monitor ~]#ln -s  /etc/init.d/heartbeat  /etc/rc.d/rc5.d/S75heartbeat  
[root@monitor ~]#ln -s  /etc/init.d/heartbeat  /etc/rc.d/rc6.d/K05heartbeat

  记住要修改防火墙哦
#vi /etc/sysconfig/iptables
加入以下内容
-A RH-Firewall-1-INPUT -p udp -m udp --dport 694 -d 10.10.10.0/24 -j ACCEPT 
意思是udp 694端口对 对方的心跳网卡地址 10.10.10.0 段 开放。
#service iptables restart

测试

在服务器上将网卡禁用 ifdown eth1

在进行访问会时从服务器的服务

当主服务器启动时会将主动权从从服务器上抢回

先启动httpd

在浏览器输入
192.168.188。131  就会看到了

设置lvs
heartbeat 文件可改可不改改的话
编辑ha.cf如下

crm on 设置为on
heartbeat 也可以用ldirectord 来管理
5.建立软连接让HA自动接管lvs-dr.sh,ldirectord等资源.

#ln -s /etc/init.d/lvs /etc/ha.d/resource.d/ //etc/init.d/lvs 存放LVS启动相关脚本
#ln -s /usr/sbin/ldirectord /etc/ha.d/resource.d

6．采用Heartbeat2.x style,利用crm 来管理资源.

#/usr/lib/heartbeat/haresources2cib.py -stout -c /etc/ha.d/ha.cf/etc/ha.d/haresources

将生成的cib.xml文件在/var/lib/heartbeat/crm目录
【注意】
关于crm（ClusterResource Manager）：crm资源配置方法是在新的版本中引入的，如果想使用该格式来配置资源（ip，服务，共享磁盘等），可以参看配置示例：。
/var/lib/heartbeat/crm/cib.xml 文件的作用与/etc/ha.d/haresources相同，是二者择一的关系。
# cat/dev/null > haresources
//把haresources清空，采用crm来管理资源
修改vi /etc/ha.d/ldirectord.cf
# Global Directives
checktimeout=3
checkinterval=1
#fallback=127.0.0.1:80
autoreload=yes
#logfile="/var/log/ldirectord.log"
#logfile="local0"
#emailalert="admin@x.y.z"
#emailalertfreq=3600
#emailalertstatus=all
quiescent=no

# Sample for an http virtual service
virtual=192.168.188.131:80
        real=192.168.188.131.138:80 gate
        real=192.168.188.131.139:80 gate
#       real=192.168.6.6:80 gate
#       fallback=127.0.0.1:80 gate
#       service=http
#       request="index.html"
#       receive="Test Page"
#       virtualhost=some.domain.com.au
        scheduler=wrr
        persistent=6
        #netmask=255.255.255.255
        protocol=tcp
        checktype=connect
        checkport=80
#       request="index.html"
#       receive="Test Page"
#       virtualhost=

设置lvs
pvsadm -A -t 192.168.188.131:80 -s wrr
[root@monitor ~]# ipvsadm -a -t 192.168.188.131:80 -r 192.168.188.138:80 -g -w 1
[root@monitor ~]# ipvsadm -a -t 192.168.188.131:80 -r 192.168.188.139:80 -g -w 1
[root@monitor ~]# route add -host 192.168.188.131 dev eth0:0
[root@monitor ~]# ifconfig eth0:0 192.168.188.131 broadcast 192.168.188.131 netmask 255.255.255.245 up

假如两台VS之间使用的互备关系，那么当一台VS接管LVS服务时，可能会网络不通，这时因为路由器的MAC缓存表里无法及时刷新MAC.关于vip这个地址的MAC地址还是替换的VS的MAC，有两种解决方法，一种是修改新VS的MAC地址，另一种是使用send_arp /arpiing命令.
以arping命令为例.

/sbin/arping -I eth0 -c 3 -s ${vip}${gateway_ip} > /dev/null 2>&1
例如:

/sbin/arping -I eth0 -c 3 -s 192.168.1.6192.168.1.1

b)某台Realserver服务down掉以后如何从IPVS列表自动中删除恢复时如何自动添加？配置ldirectord.conf
quiescent=no或 echo 1 >/proc/sys/net/ipv4/vs/expire_nodest_conn

2．ha.cf相关注释
auto_failback设置为on时，一旦主节点重新恢复联机，将从从节点取回所有资源。
Stonith设备是一种能够自动关闭电源来响应软件命令的设备
Watchdog在实现上可以是硬件电路也可以是软件定时器，能够在系统出现故障时自动重新启动系统。

3．lvs状态查看
操作步骤详细到命令行级别
查看LVS的连接情况:ipvsadm -L -n
查看LVS的吞吐量情况: ipvsadm -L -n --rate
查看LVS的统计信息:ipvsadm -L -n --stats
实时查看LVS连接状态变化: watch ipvsadm ?ln

参考：
官方文档：

阅读(2523) | 评论(1) | 转发(0) |

上一篇：在安装heartbeat 时候报错

下一篇：centos-5.4编译ipvsadm make时libipvs出错解决方法

给主人留下些什么吧！~~

chinaunix网友2010-09-16 15:31:34

很好的, 收藏了推荐一个博客，提供很多免费软件编程电子书下载： http://free-ebooks.appspot.com

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6