分享一下VCS 切换测试经验-zhshujun-ChinaUnix博客

为理想而奋斗zhshujun.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

zhshujun

博客访问： 2023653
博文数量： 346
博客积分： 10221
博客等级：上将
技术积分： 4079
用户组：普通用户
注册时间： 2009-06-01 19:43

文章分类

全部博文（346）

shell（4）
下载（0）
编程（2）

vi（1）

perl（0）
Database（50）

asm（2）

ocfs2（4）

rac（17）

informix（2）

trouble（1）

sybase（0）

RMAN（16）

MS-sql（0）

DB2（3）

Oracle（5）
commvault（3）
考证（1）
SAN&NAS（2）
Veritas（77）

BESR（1）

错误处理（7）

RE（1）

VVR（2）

SF（2）

CCS（1）

EV（2）

VxVM（8）

BE（12）

NBU（30）

VCS（10）
数据备份（2）
TSM（1）
理财点滴（0）
ERP（1）

SAP（0）
OS 对比（1）
Windows（4）

Powershell（2）
虚拟化（40）

ha（0）

drs（0）

vc（0）

vsphere（2）

高手的blog（2）

hyper-v（1）

citrix（1）

vmware（33）
邮件系统（4）

Exchange（1）

lotus notes（3）
安全（18）

MVM（0）

ePO（5）

McAfee（3）

Other（9）

sep（1）
Linux（16）

ubuntu（1）

iscsi（3）

centos（1）

Suse（1）

Redhat（5）
Unix（29）

link（1）

FreeBSD（0）

HP-UX（4）

Solaris（17）

Aix（7）
带库（2）

IBM带库（0）

Quantum（1）
生活琐碎（9）
存储基础（12）
网络（1）

Brocade（0）

cisco（0）
磁盘阵列（32）

xiv（0）

ds5000（0）

ds4000（0）

ds3000（4）

CX系列（2）

data ontap（3）

HP存储（0）

IBM存储（7）

HDS（2）

NetApp（10）

EMC（1）
legato（4）

autostart（0）

networker（4）
未分配的博文（31）

文章存档

2012年（1）

2011年（102）

2010年（116）

2009年（127）

我的朋友

相关博文

分享一下VCS 切换测试经验

分类：服务器与存储

2009-07-17 17:16:21

本测试是在有两条心跳链路，两个节点的cluster情况下测试的。
　　1.首先研究一下怎样测试system down的情况，这是个极端的情况，例如一个节点突然的断电。一般我们在客户环境中不会做这种测试，所以，我找了一些模拟system down的做法。
　　
　　Failover simulation is an important part of configuration testing. Failover can be tested in several ways:

　　1. Removing the power from the cluster node
　　2. Generating a STOP error or blue screen
　　3. Removing ALL connections to the server to be tested. This means removing all cables from network interface cards (NICs) and host bus adapters (fibre or SCSI). Public and private NICs must be removed simultaneously. All fibre or SCSI cables must be removed simultaneously. This leaves no connectivity to the server to be tested. This will simulate a server leaving a cluster. 注意这里提到的是同时拔掉所有线，这一点很难做到。

　　实际上看到上面官方的说法，在实际情况下也是很难模拟的。
　　那么官方对于system down的情况下，cluster会出现的情况是怎么解释的呢？当正在接管应用的节点A出现system down，并且autofailover参数为true（默认），那么节点B会接管应用。

　　2. 应用在节点a上，将节点A的的所有网卡，HBA卡，拔掉（最后拔心跳）。节点B会接管应用。
　　请注意这里提到了最后拔掉心跳，资源先出现故障，由于有心跳在，所以B节点会知道A节点资源的fault，B节点会接管应用。
　　
　　3. 应用在节点A上，将一条心跳拔掉，不影响节点A上的应用，此时如果节点A上某一资源有故障，会发生切换，节点B会接管应用。当心跳拔掉之后，应用仍然在A机上online。这时VCS处于jeopardy状态，资源故障会切换，但system down不会切换。

　　4.两条心跳同时断掉，这时系统将变成2个互相不知道对方状态的子cluster。这时如果应用在A节点上online，则A节点保持online；B节点会认为A节点宕机，会试图把应用online；这时，会导致存储的split brain。B节点的online操作：B机会在让ip资源online之前去ping一下IP地址，当发现这个IP地址实际上是存在的（应为A节点现在ip资源是online状态），那么B节点放弃对IP资源的online，但是如果是共享存储就不那么幸运了，因为B节点不知道存储是否是被A节点接管，那么就会出现两个节点都争用存储的情况，即发生split brain。为了避免这个情况的发生，VCS提出了IO fencing的方法，但是这个需要底层的VxVM的支持，也就是说共享卷是要由VxVM管理的。
　　
　　5.心跳是好的，任意一个资源有故障，只要这个资源是 critical的，会发生切换。

阅读(5435) | 评论(2) | 转发(0) |

上一篇：volume manager常用命令速查

下一篇：solaris系统中关闭和开启系统服务ftp，telnet，ssh，sendmail

给主人留下些什么吧！~~

guoyongcheng2013-08-30 00:52:48

问个问题，vcs 6.0，做windows的ha集群，当其中一台服务器直接掉电的时候，为什么没有掉电的服务器，也没有办法挂载共享存储，手动联机提示“该资源正在被占用”，当两台机器正常的时候，手动可以成功自由切换，

回复 | 举报

chinaunix网友2010-11-28 19:58:54

谢谢分享。但有一点不理解，第3条，“这时VCS处于jeopardy状态，资源故障会切换，但system down不会切换”，为何system down不会切换呢？

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6