Chinaunix首页 | 论坛 | 博客
  • 博客访问: 676759
  • 博文数量: 535
  • 博客积分: 9970
  • 博客等级: 中将
  • 技术积分: 7260
  • 用 户 组: 普通用户
  • 注册时间: 2008-06-15 03:47
文章分类

全部博文(535)

文章存档

2011年(1)

2008年(534)

我的朋友

分类: 服务器与存储

2008-06-15 05:03:48

容灾技术背景
      随着各行业信息化建设的快速推进,越来越多的行业核心业务系统都基本实现了 “ 信息化 ” 。尤其是电信、金融等领域,其关键业务流程和关键业务数据几乎完全依赖于 IT 系统架构来运转。随着 IT 系统的业务量和数据量的不断积累,系统和数据的可靠性和安全性将直接威胁到业务的可用性,甚至影响到企业可持续发展。如果一次事故导致关键业务的中断、关键业务数据的丢失,将是无可挽回致命损失。这就迫使各行各业对 IT 系统的可靠性保障提出越来越高的要求。
     
      为了充分保障业务系统的高可靠性,一方面纷纷加大对运维监测的投入力度,为生产系统建立 “7x24” 小时的监控制度,实时监测运行状态和性能,并在异常发生时发出预警。另一方面,近几年容灾备份系统的建设已经悄然成为 IT 建设的最大热点,这包括了:为生产系统建立 HA 热备机制,建立基于 SAN 网络的异地数据备份机制,在生产机房以外为业务和数据建立异地容灾备份中心等等。
容灾技术监控管理需求分析
       首先,容灾备份系统本身也是一个复杂的 IT 系统。我们不敢想像一旦容灾系统本身的服务异常没有及时发现,一旦导致灾难发生时备份业务系统切换失败、业务数据和服务无法恢复,将造成不可弥补的严重后果。所以,非常有必要对容灾系统进行全面实时的监控。时刻掌握包括容灾体系在内的整个业务 IT 支撑系统的运行状态和性能,及时发出系统异常的预警,确保容灾系统和数据备份系统工作正常,保障各个容灾备份系统在主生产机发生意外故障时能够顺利进行切换。
容灾备份系统对于监测和报警的实时性要求很高,如何在第一时间发现故障,并通知用户是非常关键的。容灾系统同时又是非常关键的系统,所以,附加的监测手段一定要尽可能小的影响系统运行,不能再给系统的运行带来任何的额外压力。
技术挑战
• 多中心容灾体系使监测逻辑更加复杂,使局部设备级监测显的毫无意义
• 容灾系统本身的多中心监控课题
• 业务系统的多中心监控课题
• 如何屏蔽容灾系统中的备机告警
    解决方案
      面对业务及容灾体系对监控管理的复杂需求,在众多的方案中新加坡网利系统公司提供的 NetGain EM ( IT 架构管理器)成功在多个容灾监控案例中巧妙攻克了上述技术难题。并获得非常理想的预期效果,尤其是 NetGain EM 提供的 “ 业务视图 ” 功能和 “ 告警反依赖机制 ” 。
NetGain EM 是新加坡网利系统有限公司提供的一款即插即用的硬件 IT 架构管理设备。以业务视图为主线,通过对容灾系统 IT 架构的各个层次全面监控,建立客户业务和容灾业务的管理模型,提供管理者从宏观到微观、从业务逻辑层到设备技术层的整体运行状态。同时 NetGain EM 包含了电信运维管理平台所应具备的性能管理、故障管理、报表管理、拓朴管理、资源管理等规范的功能模块。
NetGain EM 产品特色:
1. 以业务为主线的监测管理 ―― 以保障业务为目的
2. 友好的用户操作界面 ―― 无需专业培训
3. 随需应变,降低运维风险
4. 专业、规范的告警管理
5. 积累有效的知识库
6. 多级用户管理:分工明确,提高管理效率
   案例分享
       本身容灾系统是一个庞大的体系结构,涉及到网络设备、远程数据链路、数据备份系统、存储系统,以及支撑和运行上述容灾系统和客户业务系统的服务器平台等等多个层次。任何一个环节发生异常都可能导致严重后果。


       只有对容灾系统中的各个关键元素进行全面的综合的监控,才能有效判断业务容灾系统是否运行正常。同时也能清楚的了解到是哪些因素导致备份切换的发生,从而有效的避免错误的重复发生。
如图是容灾系统跨层次整体监控需求的架构图。这里最大的突破在于实现对多个服务器互为热备份的系统环境的智能化监控管理,成功屏蔽备机告警的干扰。
同时, NetGain EM 告警管理平台提供了完善的告警规则配置机制,对主机和备机同样进行 7x24 小时的监测的前提下,充分利用事件平台提供的 “ 反依赖 ” 规则建立主备机之间的关联,当监测到其中一台服务中断或宕机时不会立即发出告警,而是首先检查被关联的另外一台主机或服务是否在正常运行,如果正常,则屏蔽告警。
        另外, NetGain EM 最新推出的 “ 服务组 ” 状态监测器,还将分别位于多个主备服务器上的相同业务作为一个 “ 服务组 ” ,能够合理配置服务组的总状态与多个主备系统状态的映射关系。当 “ 服务组 ” 总状态正常时,将忽略单个设备上的服务告警。正常主备切换时, “ 服务组 ” 的总状态仍为正常,所以系统不会误报告警。这一解决方案的成功实施,尤其为拥有大量灾备系统的用户彻底解决了困扰已久的监控难题。
总结
  面对关键业务在不断扩展的快速发展阶段,相应的容灾和容灾监控系统也必须能够适应不断的扩充,在高度复杂的环境中又将不断引进新的复杂性。 NetGain EM 提供的 “ 业务视图 ” 和 “ 告警规则 ” 等均基于先进的面向对象体系结构,使得管理系统具备高度灵活性。当客户的网络设备、网络结构、业务结构、关联规则发生变化和调整时,只需要在管理系统中进行简单的拖拽操作,就能够完成相应的管理模型调整。整个管理系统能够不断自适应日后客户的网络调整和业务调整。
阅读(334) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~