分类: 服务器与存储
2008-06-15 04:04:52
由于是芯片企业,系统可靠性是第一位的,一旦停机损失惨重(每小时的损失高达100万美金,主要是停产的产品销售额和高昂机器设备的折旧),所以在IT系统上是非常舍得投入的。虽然采用了RAC,但负载全部集中在其中一台机器上,采购两台一样配置的机器加RAC就是为了在down机时,能零时间切换到另外一台机器上。
从上图可以看出,200mm和300mm的MES系统互相隔离,两个SAN也没有连接起来。客户的应用部门认为,万一300mm的存储XP12000坏掉,虽然在200mm的XP12000系统上仍然有数据,但是应用并不能自动切换来访问,所以提出了系统容灾的项目。由于系统大部分是HP的,当然HP被邀请提交解决方案。另外客户在其他的系统上还使用了EMC的Symmetrix,有竞争才能获得更好的价格,同时EMC也对这样一个大客户虎视眈眈,所以EMC也参与了方案提交。最后总共提交了三个方案:
方案 1:HP Campuscluster + RAC
方案 2:HP Metrocluster+CA
方案 3:Oracle data guard
方案 1
采用HP的Campuscluster来实现200mm和300mm两套系统的自动切换,利用Mirrordisk实现两个site的数据同步。该方案的系统架构图如下:
方案 1的优点:支持Oracle RAC,可以实现在灾难时,零时间切换到另外一个site。实施不需要停机。
方案 1的缺点:不支持CA,浪费现有投资;需要将两个SAN连接起来,让所有的Server可以访问两个存储,主机利用Mirrordisk同时写两边的存储,对主机的性能有影响。
本来这是一个不错的方案,但是由于XP在LUN上已经配置了条带化Strip(不知道是谁出的主意),Mirrordisk不支持,需要去掉strip,重新划卷,然后重新安装Oracle,从磁带备份恢复数据。这样不但需要停机1天以上,而且风险极大(客户的磁带备份重来没有做过恢复测试),万一数据无法恢复将变成一个大事故。