分类: 服务器与存储
2008-06-23 06:27:15
随着IT技术的深入应用,企业计算机系统的地位越来越重要,如何为客户提供“持续可靠的服务平台”,如何提高计算机系统的整体可靠性就变得非常迫切和有价值了。
高可用集群技术是利用计算机软、硬件的冗余配置,结合故障侦测与转移策略,来保护用户的关键业不间断运行,不难看出,如何准确界定“故障”,如何分析业务系统的“可用性”。就成为高可用集群技术的核心问题了。
联鼎软件提出了新一代智能集群的理论体系,认为只有提高对故障因子的采集、推导、分析及预测能力,才能真正提高主机系统的容灾容错能力,故障的如下属性,这也是智能集群的概念基础。
故障应具有“相对性”:
业务系统是否正常工作,在系统指标的呈现上并不是绝对的,有些用户认为业务系统的访问请求应该在5秒之内获得响应,这样的系统才是可用的,然而有的用户则认为10秒之内获得响应也可以接受,因此联鼎软件认为对系统不可用的定义并无绝对,集群软件应适应硬件环境和应用类型的变化,可灵活设置。
故障应具有“等级性”:
系统资源的变化,对业务系统的影响程度各不相同,也就是说权重不一样,对于Web服务器而言,网络链路的连通性,对业务的影响是最直接的,也是关键的,因此网络故障对于Web应用系统而言,应该作为最高级故障级处理,然而内存剩余量的高低,对Web应用系统而言,影响是间接的,是次要的,因此作为一般性警告响应就足够了。由此可见,对于不同权重的事件,作分级的响应是科学合理的。
故障应具有“推导性”:
传统集群软件考量一个业务系统是否可用,通常情况下是检查必要条件,如果必要条件都具备,那么可以不严谨地推断系统是可用的,但该方法简单易行。
另一种常用的方法是应用插件侦测技术,用插件的感知结果状态衡量系统是否健康,该做法的优点是方法直接,结论可靠,但对于一个关键业务系统而言,当前能访问并不表示系统无故障,忽略了潜在风险。
联鼎软件认为对于系统故障的判定应该考虑显性因素和隐性因素,两种特性的故障综合分析,才能提高系统的抗风险能力。
故障应具有“参照性”:
衡量一个业务系统是否健康,是否安全,是否可持续工作,联鼎软件认为必须有一套科学合理的安全评价体系。集群软件实时采集系统的各项运行指标,但其本身并不知道业务系统是否正常,或者是否存在潜在风险,科学合理的指标体系,是集群智慧大脑的判断标尺,有了它,集群不但能够准确掌握关键业务系统的健康状况,还能对潜在宕机风险发出警示,有效预报,防范故障于未然。
全新LanderClsuter6应对全新挑战
联鼎软件于今年发布的全新高可用产品LanderClsuter 6就是基于对“故障”概念的全新理解而设计,令高可用系统走向“防”时代。传统高可用产品只有当系统完全瘫痪时再进行拯救,犹如为心脏停止跳动的病人进行复苏,难道不觉得太晚了吗,全新LanderClsuter6能够预知系统将逐渐变得不稳定,而提前作出应对,防止系统崩溃,或者将突发性宕机转化为计划性维护,将对您产生更多益处。LanderCluster6全新的系统智能预警体系,通过采集“系统健康评价体系”的数据,持续监控维持核心系统稳定运作的重要指标变化,包括处理器、内存、LAN介质、存储设备、网卡、进程、应用程序实时状态,任意指标出现异常状况,即可快速作出响应,防患于未然。