【转】HeartBeat搭建MySQL数据库双主热备高可用环境-zhangshengdong-ChinaUnix博客

1. 简介

HeartBeat用于搭建双机热备环境，可以通过专门的心跳线来连接双机，也可以通过普通的网线来连接。

官方网站：

本文所提到试验环境为：

[root@alsme_probe3 tmp]# cat /etc/redhat-release

Red Hat Enterprise Linux AS release 4 (Nahant Update 6)

heartbeat 2.1.3

2.安装

2.1. 准备

本试验环境共有2个主机，其IP分别为：

主机名 IP地址

alssme_probe3 172.18.158.23

alssme_probe4 172.18.158.24

如果/etc/hosts中没有配置的话，则需要先配置/etc/hosts文件

2.2 创建用户和用户组

heartbeat需要haclient用户组和hacluster用户。

两个节点做同样的操作，并保证haclient和hacluster的ID一样。

groupadd haclient -g 1001

useradd -g haclient hacluster -u 1002

2.3. 安装

可以直接下载rpm包，或者自己下载源码包进行编译，在这里，我采用自己编译源码的方式。

安装heartbeat前，需要先安装libnet包。

tar zxvf heartbeat-2.1.3.tar.gz

rpm -ivh libnet-1.1.2.1-2.2.el4.rf.rpm

[root@alsme_probe3 tmp]# cd heartbeat-2.1.3
[root@alsme_probe3 tmp]# ./configure

[root@alsme_probe3 tmp]# make

[root@alsme_probe3 tmp]# make install

同样地，在另一个主机上也是这么安装。

libnet包可以在这里搜索到。

3. 配置

heartbeat有三个配置文件：

— ha.cf

— authkyes

— haresources

这些文件在每台机器都要保持一致.下面将一一介绍.

cp /usr/local/share/doc/heartbeat-2.1.3/ha.cf /usr/local/etc/ha.d

cp /usr/local/share/doc/heartbeat-2.1.3/haresources /usr/local/etc/ha.d

cp /usr/local/share/doc/heartbeat-2.1.3/authkeys /usr/local/etc/ha.d

3.1 编辑hertbeat主配置文件ha.cf，2个主机上的内容一样。

以下是需要打开的配置，ha.cf里面有详细说明。

[root@alsme_probe3 tmp]# vi /usr/local/etc/ha.d/ha.cf

## ha的日志文件记录位置。如没有该目录，则需要手动添加
logfile /var/log/ha-log #File to write other messages to
logfacility local0 #这个是设置heartbeat的日志，这里是用的系统日志

##设定心跳(监测)时间时间为2秒
keepalive 2 #多长时间检测一次
warntime 5 #连续多长时间联系不上后开始警告提示

deadtime 20 #连续多长时间联系不上后认为对方挂掉了（单位是妙）

initdead 120 #这里主要是给重启后预留的一段忽略时间段（比如：重启后启动网络等，如果在网络还没有通，keepalive检测肯定通不过，但这时候并不能切换）

#采用bond0的udp广播用来发送心跳信息

#bcast bond0

#采用网卡eth0的udp单播来通知心跳，ip应为对方IP，建议采用单播。当一个网段有多台这样cluster话，则一定要采用单播，否则每组cluster都会看到对方的节点，从而报错。

ucast eth0 172.18.57.154

##使用udp端口694 进行心跳监测
udpport 694
auto_failback off #恢复正常后是否需要再自动切换回来，一般都设为off。

##节点1的HOSTNAME，必须要与 uname -n 指令得到的结果一致。
node alsme_probe3

##节点2的HOSTNAME
node alssme_probe4

##通过ping 网关来监测心跳是否正常
ping 172.18.158.254

hopfudge 1

deadping 5

#指定和heartbeat一起启动、关闭的进程
#respawn hacluster /usr/local/lib64/heartbeat/ipfail
#apiauth ipfail gid=haclient uid=hacluster

#是否采用v2 style模式，在三节点以上时一定要打开

#crm on

3.2 编辑双机互联验证文件：authkeys

[root@alsme_probe3 heartbeat-2.1.3]# vi /usr/local/etc/ha.d/authkeys
auth 1
1 crc
[root@alsme_probe3 heartbeat-2.1.3]# chmod 600 /usr/local/etc/ha.d/authkeys

注意: authkeys的权限一定要是600.

3.3 编辑集群资源文件：haresources (切换时备机需要做的事情)

[root@alsme_probe3 heartbeat-2.1.3]# vi /usr/local/etc/ha.d/haresources
alssme_probe3 IPaddr::172.18.158.111/24/bond0 mysql

#其中,172.18.158.111为VIP

如何配置，可以参见haresources，里面也有详细的说明。

有几个注意事项：

1).资源组的第一列是我们在ha.cf配置文件中的node之一，而且应该是当前准备作为primary节点的那一个node。

2).每一行代表一个资源组，如果一行写不下可以用” “换行

3).资源组启动顺序是从左往右，关闭的顺序是从右往左

4).脚本的参数通过::来分隔和传递

5).一个资源组里面不同资源之间以空格分隔

6).不同的资源组之间没有必然关系

7).每个资源都是一个角本，可以是在/etc/init.d目录下面的，也可以是/usr/local/etc/ha.d/resource.d目录下面的角本。这些角本必须要支持xxx start；xxx stop;模式。

8).关于service IP的资源设置格式详见haresources文件。

9).如果mysql是编译安装的话，则需要修改/etc/init.d/mysql文件中的basedir和datadir两个参数

3.4 资源角本例子—drbd

下面是drbd的资源管理角本的例子：

[root@alsme_probe3 heartbeat-2.1.3]# vi /usr/local/etc/ha.d/resource.d/drbd
#!/bin/sh
case “$1″ in
start)
#声明为drbd的primary节点
drbdadm primary db
#挂载文件系统
mount /dev/drbd0 /data
#启动相关服务
service mysql start
;;
stop)
#上面操作的反向
service mysql stop
umount /dev/drbd0 /data
drbdadm secondary db
;;esac
exit 0

我们测试的mysql是安装mysql时自带的，在/etc/init.d目录下面，它可以实现mysql的启动和关闭。

如果我们采用的是heartbeat+双master模式的话，则不需要加上mysql资源组。

如果我们采用的是heartbeat+master/slave模式的话，则需要重新mysql角本，在start时将slave变成master。在stop时将master变成slave。

建议还是采用heartbeat+双master模式,这样将数据丢失降到最低。

4. 测试

测试切换不外乎以下几种：
1).手工调用heartbeat的节点切换脚本

2).拔掉网线，测试在primary节点的网络断开后的切换情况，通过测试，在拔掉网线后，当主节点发现无法和standby节点无法通信后，会在log中记录warn信息，如果延续时间达到在ha.cf中设定的时长后，会开始释放资源，standby节点发现无法和主节点通信一段时间（ha.cf设定）后，开始尝试启动资源并将自己active成primary节点。切换过程除ha.cf中设定的时长之外的时间段同样非常短。这里容易出现custer脑分裂的问题。如果采用双master的话，就不存在这个问题。

3). shutdown primary主机，测试是否能够正常切换。
4). 主节点机器掉电，是否能够正常切换。

第一种和第三种测试方法一定要测一下。

5.管理

启动和关闭heartbeat的方法：

# /etc/init.d/hearbeat start 或 service heartbeat start

# /etc/init.d/hearbeat stop 或 service heartbeat stop

….. 命令整理

6.其他

实际测试结果表明：如果采用myisam存储引擎，则在primary节点当掉的时候，总会丢失数据；而采用innodb存储引擎时，如果 primary节点本身没有程序往本机写数据的话，那么基本上不会发生数据丢失；而如果primary节点本身有程序在写数据，则在当机瞬间，本机上的程序可能还会写入部分数据，而如果是其他主机程序连接过来的话，基本上不会发生丢数据的情况。

建议：在drbd+hb的环境中，最好是采用innodb存储引擎，并且设置innodb_flush_log_at_trx_commit = 1，这使得几乎每个提交的事务都能记录在 ib_logfile* 中，在 secondary 节点上能得到恢复，减小损失。

heartbeat有两种模式，默认的模式只支持两个节点。如果cluster里面有2个以上节点的话，则需要采用cib模式，即v2 style：

1).把三个节点都加到ha.cf里，然后在ha.cf里加上”crm 1″

2).然后用/usr/local/lib64/heartbeat/haresources2cib.py 把原来的/usr/local/etc/ha.d/haresources 转换成 /usr/local/var/lib/heartbeat/crm/cib.xml.

“/usr/local/lib64/heartbeat/haresources2cib.py /usr/local/etc/ha.d/haresources /usr/local/var/lib/heartbeat/crm/cib.xml”

3).把haresources清空

另外如果只起一个节点的话，则service IP地址需要2分钟才能生效。这个时间不知道是如何控制的。

heartbeat默认模式是没法监控资源的，也就是说其中某个资源要是crash掉了，也不会发生任何动作，它只有当它认为对方机器dead后才会发生动作。也就是机器crashed，网络断掉了之类。这显然没法达到我们的目标。

为了达到我们的目标就要采用crm(cluster resource management)模式了。

首先，先按默认模式配置heartbeat(详见heartbeat新手上路)。

默认模式配置成功后，再按下面的步骤操作：

1)在ha.cf里面增加

crm on

2)将haresources资源文件转换成cib.xml文件,2.1.3自带有转换脚本

/usr/local/lib64/heartbeat/haresources2cib.py /usr/local/etc/ha.d/haresources

输出文件在/usr/local/var/lib/heartbeat/crm/cib.xml

3)如果hacluster和haclient用户和用户组是在安装heartbeat之后创建的话，则需要执行下面命令修改权限

修改heartbeat目录权限，可以用以下命令：

find / -type d -name “heartbeat” -exec chown -R hacluster {} ;

find / -type d -name “heartbeat” -exec chgrp -R haclient {} ;

4)在2.0的版本中ipfail与crm 模式有冲突，所以在ha.cf中不可打开ipfail。

5) cib.xml文件的修改

如果在IPaddr中有下面两行，则删除：

2.1.3版本生成的cib.xml文件中,mysql资源是ocf格式的，而它自带的mysql角本是无法启动mysql的，所以需要修改，有两种方法。在修改前先介绍一下ocf和lsb格式的区别：

LSB格式的角本必须支持status功能，必须能接收start,stop,status,三个参数；而如果是OCF格式,则必须支持start,stop,monitor三个参数.其中status和monitor参数是用来监控资源的,非常重要.

例如LSB风格的脚本,运行./mysql status时候，

返回值包含OK或则running则表示资源正常

返回值包含stopped或者No则表示资源不正常。

假如是OCF风格的脚本,运行./mysql monitor时候,

返回0表示资源是正常的,

返回7表示资源出现问题.

ocf格式的启动角本在/usr/lib/ocf/resource.d/heartbeat(也许你的机器上目录不是这个，可以搜索ocf来查找)

lsb格式的启动角本在/usr/lib/lsb/resource.d/heartbeat目录下。

两种修改方法

1.修改cib.xml，将mysql的ocf改成lsb。然后在/usr/lib/lsb/resource.d/heartbeat(如果该目录不存在，则手工创建，并将权限赋给hacluster:haclient)下面执行ln -s /etc/init.d/mysql mysql。

# rm /usr/heartbeat/var/lib/heartbeat/crm/cib.xml.* -f
# vi /usr/heartbeat/var/lib/heartbeat/crm/cib.xml

2.修改/usr/lib/ocf/resource.d/heartbeat下面的mysql的角本，使之能正常工作。或者将/etc/init.d/mysql拷过来，修改使它支持monitor操作

6) 然后启动heartbeat即可。Service heartbeat start.

7)如果mysql采用双master的话，则在stop资源后，记的将mysql手动起来。

Heartbeat CRM模式管理

1)查看所有资源

[root@alssme_probe3 sbin]# crm_resource -L

Resource Group: group_1

IPaddr_172_18_158_111 (heartbeat::ocf:IPaddr)

mysql_2 (lsb:mysql)

2)查看资源跑在哪个节点上

[root@alssme_probe3 sbin]# crm_resource -W -r mysql_2

resource mysql_2 is running on: alssme_probe3

4)启动/停止资源(cluster不会发生切换，手工停mysql，将会重新启动或者发生切换)

[root@alssme_probe4 crm]# crm_resource -r mysql_2 -p target_role -v started

[root@alssme_probe3 sbin]# crm_resource -r mysql_2 -p target_role -v stopped

5)查看资源在cib.xml中的定义

[root@alssme_probe3 sbin]# crm_resource -x -r mysql_2

mysql_2 (lsb:mysql): Started alssme_probe3

raw xml:

即每60秒检测资源运行情况，如果发现资源不在，则尝试启动资源，如果30s后还未启动成功，则资源切换向另节点。时间可以修改( mysql一般建议采用这个时间值)。

6)将资源移向指定节点

crm_resource -M -r mysql_2 -H alssme_probe4