@HUST张友东 work@taobao zyd_com@126.com
分类: LINUX
2014-03-05 19:59:46
作者:zyd_com@126.com
博客:ydzhang.blog.chinaunix.net | blog.yunnotes.net
微博:
TFS里的Nameserver(NS)是系统里的单点,目前采用主备的方式来保证其高可用性,当主NS挂掉时,vip会切换到备NS上,从而备NS接管服务。本文主要介绍(使用)。
NS主备原理
主备NS共享一个虚拟vip,NS启动时,检查vip是否拥有vip,如果不再,NS将以slave的身份运行;否则如果NS拥有vip,NS就会认为自己是master。
为了避免出现多master的情况,当NS认为自己是master时,会向对端NS节点发送一个确认消息,获取其身份信息,如果发现对端也是master,此时就出现了多master的情况,通常是主备的配置有问题才会出现,这时NS会主动退出,NS启动失败;如果发现对端是slave,则NS正常启动,此时集群里NS正好一主一备。
NS运行过程中,会有后台线程不断检查是否自己拥有vip,当主发现自己不再拥有vip时,就将自己切换为备继续运行;当备发现自己拥有vip时,就会将自己切换为主,同样的,切换前要先确认对端的身份,避免出现两个master的情况。
硬件说明
两台物理机分别部署主备NS服务、主机名分别为tfs036201.sqa.cm4、tfs036203.sqa.cm4,虚拟ip为10.232.36.240,两个物理机的bond0网卡通过交换机连接,并没有使用直连线连接的方式(线上服务强烈建议使用直连线方式,否则如果公用的网络不稳定,容易出现脑裂的情况)。
软件安装
在两台机器上分别安装heartbeat和pacemaker,前者提供多个节点间通讯的基础设施,后者提供集群资源管理的功能。
[linqing.zyd@tfs036203.sqa.cm4 ~]$ rpm -q heartbeat
heartbeat-3.0.3-2.el5
[linqing.zyd@tfs036203.sqa.cm4 ~]$ rpm -q pacemaker
pacemaker-1.0.8-6.el5
主备NS的配置
修改两台机器上的ns.conf,主要是ip_addr和ip_addr_list两个配置项
[public]
# 这里配置NS的vip
ip_addr = 10.232.36.240
# NS监听端口
port =8100
[nameserver]
# 主备NS的实际ip地址列表
ip_addr_list = 10.232.36.201|10.232.36.203
Heartbeat的配置
tfs-home/scripts/ha目录里包含一些配置模板和工具,进入该目录
修改ha.cf,
debugfile /var/log/ha-debug
debug 1
keepalive 2
warntime 5
deadtime 10
initdead 30
auto_failback off
autojoin none
#bcast eth1
ucast bond0 10.232.36.201
udpport 694
node tfs036201.sqa.cm4
node tfs036203.sqa.cm4
compression bz2
logfile /var/log/ha-log
logfacility local0
crm respawn
几个重要的参数说明
keepalive 2 节点间的心跳包为2s
warntime 5 5s没有心跳包,就发出警告
deadtime 10 10s没有心跳包,认为节点挂了
udpport 694 发送心跳包使用的udp端口
node tfs036201.sqa.cm4 集群里的节点
node tfs036203.sqa.cm4
autojoin none 不允许节点自动加入,必须使用上述node指令来配置
ucast bond0 10.232.36.201 使用单播的方式来发送心跳包,两台机器分别指定对端的地址
如果是直连线的方式,可以使用bcast的方式来发送心跳包
生成authkeys
配置authkeys主要是为了节点间做认证,ha目录下包含了配置工具deploy,直接执行即可。这个脚本的主要工作是生成authkeys,并将ha.cf、authkeys拷贝到/etc/ha.d目录下。
在一个节点配置好之后,将/etc/ha.d/ha.cf、/etc/ha.d/authkeys拷贝到另一个节点的/etc/ha.d目录,因为这里没有采用直连线,ha.cf里ucast那行配置,要稍作修改,设置为对端的ip地址。
配置NameServer资源
主备NS对HA的要求,除了机器宕机时,vip要切换;还要求NS的服务挂掉时,vip也要能切换到备NS,为了实现这个需求,首先要给heartbeat增加一种NameServer的资源,在主备两台机器上直接执行ha目录下的nsdep工具,其将ha/NameServer文件(提供了start、stop、monitor NS服务的功能)拷贝到/usr/lib/ocf/resource.d/heartbeat/目录下。
最后修改ha目录下的ns.xml,配置一下vip资源信息,以及ns服务的资源。
主要修改如下
ip的属性值设置为10.232.36.240
nic的属性值为bond0:0
basedir配置为/home/admin/tfs (设置为tfs的安装目录)
nsip配置为10.232.36.204 (ns vip)
nsport配置为8100 (ns port)
user设置为admin (用于启动服务的用户)
ns.xml准备好后,在主备NS机器上分别执行
crm_attribute --type crm_config --attr-name symmetric-cluster --attr-value true
crm_attribute --type crm_config --attr-name stonith-enabled --attr-value false
crm_attribute --type rsc_defaults --name resource-stickiness --update 100
cibadmin --replace --obj_type=resources --xml-file /home/admin/tfs/scripts/ha/ns.xml
上述命令做到主要工作包含
1. 配置所有的节点为对等关系,即所有的节点都能接管服务
2. 禁用stonish
3. 应用ns.xml里的配置
最后启动主备NS服务,并在两台机器上启动heartbeat服务
service heartbeat start 或 /etc/init.d/heartbeat start
此时vip落在其中一台机器上,这台机器以主NS的身份运行,另外一个以备NS的身份运行。
测试主备切换
将主NS上的nameserver进程kill掉后会发现,vip已经切换到原来的备NS,原来的备NS(如果备上NS没有启动,会被heartbeat启动起来)检测到vip落在自己身上,切换为主的身份运行。
原来主NS的机器,查看其资源状态,会发现其failcount已经变为1了,该节点被heartbeat认为不可用了。
[linqing.zyd@tfs036201.sqa.cm4 tfs_new]$ sudo crm resource failcount tfs-name-server show tfs036201.sqa.cm4 scope=status name=fail-count-tfs-name-server value=1
此时如果原来的备NS接管服务后,再次宕机了,服务将不能切回到原来的主,必须先将其failcount清0,才能正确的切回。
sudo crm resource failcount tfs-name-server set tfs036201.sqa.cm4 0