分类: 服务器与存储
2008-06-07 18:42:43
(1)前言
容错系统定义:对系统中的关键部件进行冗余备份,并且通过一定的检测手段,能够在系统中的软件和硬件故障时,切换到冗余部件工作,以保证整个系统能够不因这些故障而导致业务处理中断;在故障修复后,又能够恢复到冗余备份状态。具备此种能力的系统即为容错系统。
使用容错系统的目的是:将可能的软件和硬件故障给整个系统带来的风险降至最低。
容错系统的评价指标:表述一个系统容错能力的两个常用指标是可靠性(Reliability)和可用性(Availability)。可靠性指一个系统在一定时间内工作时发生故障的可能性。如一个系统一年内的可靠性为99.99%意味者系统一年中工作时失败的概率为0.01%。可用性指一个系统故障中断工作时间与可持续工作时间的比率。如一个系统的可用性为99.99%意味者在一万小时的工作中将有一个小时的故障中断时间。
(2)系统整体可靠性分析
目前SCOUnix操作系统市场上常见的容错系统可以分为两种:一种是共享磁盘阵列模式,数据放在共享的磁盘阵列子系统中,这种产品种类很多,这类方式的系统结构如下图所示:
另一种是纯软件实现的,数据可以在两个系统上保持实时的一致,代表产品是SavWareHA,系统结构如下图所示:
纯软件方式下,真正将风险分散到两台服务器上,使系统可靠性真正得到提高。从可靠性指标来看,假设单台PC服务器的可靠性为90%,使用了纯软件方式后,主备机同时损坏整个系统才不可用,主备机的故障互不相关,根据条件概率,整个系统完好可用的概率为:
1-(1-90%)*(1-90%)=99%
可以得到结论:使用了SavWareHA后,整个系统的可靠性为99%。
如果使用了共享磁盘阵列柜,我们暂假设盘阵质量高与主机质量,假设共享磁盘阵列子系统的可靠性为99%,根据条件概率,主备机同时损坏或磁盘阵列柜损坏即双机系统和磁盘阵列子系统同时完好的概率为:
(1-(1-90%)*(1-90%))*99%=98.01%
可以得到结论:使用了可靠性高于主机的共享磁盘柜容错系统,可靠性仍低于采用了纯软件的双机容错系统;如果采用了100%可靠的磁盘阵列柜,则可靠性与纯软件方式相等;如果采用了可靠性较差的磁盘阵列柜,如磁盘阵列柜的可靠性比所用的主备机可靠性还差或相当,那么根据条件概率计算整个系统可靠性还不如单机运行。
(1-(1-90%)*(1-90%))*90%=89.1%<90%
从可用性指标来看,使用了纯软件的双机系统允许系统中任意部件故障而不会导致整个系统停机及破坏数据,而共享磁盘阵列柜则存在其本身的单点故障而可能导致整个系统不能工作及破坏数据,其可用性指标必然会小于纯软件的方案。
从以上分析可知:选用双机热备容错系统的主要目的,是将单主机系统运行所带来的系统风险降至最低。采用以共享磁盘阵列柜为核心的方案,却是为了备份主机而添加了一台备机和一个共享磁盘阵列,数据集中存储在共享设备上,所以系统风险实际上从主机转移至共享磁盘阵列柜上,此设备的可靠性,直接决定整个系统的可靠性。即使假定磁盘阵列柜的可靠性为100%,数据也只是一份(RAID5)存放在一个硬件设备上,如果主机在运行时,备机一旦发生了错误切换,主备机同时对一个数据库进行读写,会导致数据完全损坏。在此情况下,因数据损坏而导致的经济损失对用户而言更是难以估量的。而纯软件双机容错系统无需共享设备,数据被实时的镜像到备机上,在两个系统上具有完全一致的双份数据,从而将系统风险平均分散到两台服务器上,真正了提高整个系统的可靠性。
(3)典型的容错系统的投资额度分析
在同样的服务器、操作系统和数据库环境下,下面我们分析对于不同的容错系统,都增加了那些投资,投资额时多少。假设采用同样的HP20GSCSI硬盘,每块价格为3,000RMB。对于纯软件方式,需要两套数据磁盘,对于共享磁盘阵列方式,只需1套数据磁盘。
3.1 采用纯软件方式实现双机容错系统,需要增加投资的软硬件如下所示:
数量
总价(RMB)
SavWareHA软件(双CPU版)
1套
50,000
(CNAPS支付系统特价)
数据硬盘(3块)
(注:CNAPS系统建议的硬盘数)
2套
18,000
(3,000/块)
10/100兆以太网卡
(3Com 3C905)
2块
800
(400/块)
CAT5直连网线
1根
10
合计
68,810
如果在镜像网上采用千兆光纤网卡,我们建议采用Intel EtherExpress PRO/1000 Gigabit Server Adapter(只支持SCO UnixWare7操作系统),需要增加投资9000元。采用这种网卡的会获得更高的镜像效率。
3.2 如果采用共享磁盘阵列模式,需要购买磁盘阵列柜一套,磁盘阵列柜产品市场上种类非常多,大致可以分为三类,区别如下(资料只做参考):
普通
中档
高档
总线接口
Ultra 2 SCSI
Ultra 3 SCSI
光纤通道
数据传输速率
80Mb/s
160Mb/s
2Gb/s
冗余均衡负载电源
无
有
有
内部连接
线缆连接
无线缆连接
无线缆连接
RAID控制器
1个
2个冗余备份
2个冗余备份
价格范围(RMB)
(市场参考价)
10万以下
10万——30万
30万以上
普通的磁盘阵列柜很多关键部件如电源、RAID控制器等没有采用冗余设计,这样当盘阵本身出现故障时,无法对故障进行容错。并且内部连接不是无线缆连接,当连接线缆出故障时,会导致整个系统不可用。对于关键的业务系统,由于数据全部都要放在共享磁盘阵列上,为提高整体系统的可靠性(见(2)整体系统可靠性分析),建议采用中高档盘阵。
需要增加投资的软硬件如下所示:
数量
单价(RMB)
磁盘阵列柜(中档)
1套
150,000
数据硬盘(三块)
1套
9,000
(3,000/块)
HA软件
1套
20,000
合计
179,000
从投资额的角度来看,采用共享磁盘阵列模式代价,要高于纯软件实现的双机容错,甚至是纯软件方式的两倍以上。
(4)结论:
纯软件方式的双机容错系统在系统结构上有明显的优势,把数据通过镜像实时地写到两台服务器的硬盘上,排除了共享盘阵产品数据的可靠性直接依附于盘阵的风险,有效的提高了系统的整体可靠性和可用性。此外,纯软件方式亦可排除因日后硬件升级可能引发的设备兼容性及重覆投资的问题。在价格上,相对于共享盘阵模式的产品也较便宜,节省了用户的投资。