随着计算机网络技术的日新月异以及计算机系统处理能力的飞速提高,网络带宽和系统处理能力已经不再成为制约企业IT化集中建设的因素。同时,随着企业信息化数据共享的需求日益迫切,全面解决企业中广泛存在的"信息孤岛"问题,建设集中的计算机业务系统的需求也日益迫切,集中化已经成为当今系统建设的一个潮流。
针对电信企业,建设全省集中的计费帐务系统已成为大势所趋。在当今电信运营企业以客户服务为中心、以灵活方便的用户服务政策为经营发展重点的形势下,计费帐务系统集中化建设为之提供了坚强的后台支撑保障。集中化的企业计费数据一方面为客户提供了综合的、全省性的、全业务的资费政策,另一方面也为企业自身提供了宝贵的数据资源,为数据挖掘和经营分析提供了技术保障,为企业全面提高经营管理水平,更好地服务电信客户起到了举足轻重的作用。
正是因为建设集中的计费系统才带来了容灾系统建设的问题,随着企业系统集中化的建设,企业对系统依赖程度也大幅度提高,对系统可用度要求日益苛刻,针对集中系统建设应用级容灾系统已经成为建设集中系统中的一项不可缺少的内容。建设应用级容灾系统的思想也是近几年发展起来的,以往并没有太多的经验可以借鉴,山西通信在2001年开始建设全省集中的计费帐务系统及容灾系统,起步较早,也积累了一些经验。下面针对山西通信容灾系统建设的几个方面作一个概述。
一、 集中方案的提出背景
山西通信全省集中计费及容灾系统建设的提出是在2000年9月在详细讨论了全省各本地网计费现状及相关厂商的软硬件特点提出的,方案充分考虑了当时电总新的计费规范和相关软硬件的新的技术特点,在较高的系统建设水平上提出的设想。通过建设集中系统可以有效地解决各本地网之间用户量以及对系统需求方面的差异,使我们可以采用当今高端技术与设备来建设计费系统;另一方面,采用全省集中的计费系统,在业务管理、资费统一、机房场地、系统维护等方面都有十分明显的优势。虽然采用集中方案后带来了一些新的问题与挑战,比如,集中系统的安全运行需要一个坚强的软硬件支持、需要建设一个高效、安全、方便、综合的应用级容灾系统作保障、需要建立全省标准化的业务流程和管理模式、需要依靠高质量的容灾系统软件、应用软件、完善的系统架构和全省坚强的计费业务管理。
二、 集中计费容灾系统的容灾目标
在建设全省集中的计费帐务系统中,容灾备用系统的建设起着举足轻重的作用。建设全省集中的计费帐务系统在中国电信固网运营商中史无前例,而且建设容灾备用系统在国内、国际的大型计算机系统中也是最近几年才逐步采用的方案,因为应用级容灾技术的高难度和复杂性,其中绝大多数仅是完成数据级容灾功能。数据级容灾是建设容灾系统的基础,但对于同步数据的可用性验证以及利用容灾备用系统减轻主运行系统的负担等方面存在不足;同时在系统出现严重故障和灾难时,也无法保证应用系统的正常运行。因此对于山西通信全省集中的计费系统来说,只有建设应用级容灾备用系统,才能满足集中计费帐务的业务需求。
根据集中计费系统的特点以及容灾系统软硬件的实际状况,我们定出了山西通信集中计费帐务系统的容灾指标。
1. 灾难的定义:
目前凡是主中心系统突然失去70%以上的业务运行能力或全系统业务停止可能超过1天以上的故障认为是灾难。
2. 切换时间指标(RTO):
从决定进行切换到备用系统完全运行之间不超过30分钟的目标。
3. 容灾系统数据保护的指标(RPO) :
在一般情况下应做到不丢失数据,但相应可能会增加恢复时间,因此数据损失越少,恢复时间将越长,因而系统可用度将越低。
容灾系统一开始提出的初衷主要是备用,即出现主运行中心系统不能正常运行时,由容灾备用中心完成系统功能。但在具体建设容灾系统时将面临我们具体要容什么灾的问题,这将直接影响到容灾系统机房的选址问题。对于集中计费系统,容灾系统不应当针对自然灾进行设计,而应当根据容灾设备的技术特点适当 考虑地理因素进行建设,避免产生不必要的网络投资以及给后续维护带来麻烦。针对容灾系统要容什么灾,概括如下。
1) 自然灾:主要是地震、洪水、火灾或供电故障等外界因素造成的灾害,出现机率微乎其微。
2) 硬件灾:主要是系统硬件系统大面积损坏造成的整个系统瘫痪,目前在硬件系统的建设中有众多的技术可以保证硬件系统具有极高的可靠性及冗余故障的能力,山西通信使用了IBM最高端P680服务器,并采用了双机集群,存贮设备使用EMC专业存贮服务器Symmetrix8730,并采用Raid0+1技术。但毕竟在应用数据上还是单点。在网络的设计中采用多路由的冗余技术,因此在硬件上出现大面积故障或存贮设备出现故障的可能性不太大,但这类型的故障出现也是正常的,对系统运行将是致命的,要提高其可靠性还得要增加设备,并最终建设容灾系统。
3) 软件灾:主要包括操作系统、数据库、中间件、应用软件、人为误操作(包括黑客行为)造成的整个系统瘫痪,出现的可能性比前两种要多许多,人为误操作是最容易出现的灾害,我们的系统高度集中,数据库、应用软件两者的配合现在还无法达到严格的安全级别,网络及操作系统及数据被攻击的实例屡见不鲜。
对于我们的计费系统,主要容的是后两种灾。如果没有这两种考虑,我们没有必要花巨资建设容灾系统。这两种灾是我们建设高级别容灾系统(应用级容灾)的原因所在。
三、 建设省集中计费的容灾系统所起的作用
山西通信建设容灾备用系统的方案经过近一年的讨论以及相关专家、厂商的论证,认为目前的容灾方案成熟可行,和分散方案与建立全省三大区方案相比,节约了资金投入。在容灾方面也考虑到容灾系统的特点,进行了合理的设备配置,将根据网间结算系统的特点将其移到容灾中心运行;容灾中心基于EMC的BCV以及SRDF技术对Symmetrix8730存贮服务器的磁盘不使用Raid保护等,节约了投资,使容灾系统发挥最大作用。容灾备用系统在整个系统所起的作用是多方面的,它的作用决不仅仅限于容灾作用,其建设为集中系统的安全实现提供了坚强的后备保障基础,还为系统建设的前期、中期、后期提供多方面的支持,容灾系统主要作用表现在如下方面。
1.完成运行数据的可靠实时复制,确保应用所有数据的安全。
2.完成应用软件及数据的脱机备份,从根本上将备份工作从生产系统中解放出来,提高了备份效率,降低了备份工作对主运行系统的性能影响。
3.利用容灾备用系统的可分离生产备份数据(BCV)可以从很高级别上解决数据级容灾中存在的备份数据可用性不能进行验证的问题。同时,可以进行应用一级的数据备份与恢复(EXP&IMP等)。
4.容灾系统不应仅仅是容灾、备用和备份,它还可以完成一些在主中心难以完成的事情,并可以降低主中心的运行负荷。这主要是将利用空分和时分的原理将主中心的部分业务(时效性不十分强,但最消耗资源,如查询、统计、数据挖掘等)分流到容灾备用系统上运行,当容灾中心有问题时移回主中心工作。
5.作为每个本地网开通前的验证场所,同时也为测试提供最贴近的应用数据真实环境,最大程度保证了每个本地网进入集中系统时的可靠性,降低对主系统带来的风险。
6.在计费系统以后的扩展中,不便在主中心建设的系统,可以在容灾备用系统(准确点应叫作辅系统)上建设,可以利用主系统存贮设备进行数据级容灾,因此,建设一个完整的容灾备用系统对以后系统的扩展具有极大的灵活性。
7.以后针对计费数据分析系统(数据仓库技术)的建设可以十分容易地扩展容灾备用中心的硬盘后建成,而不用另建系统或在主系统上进行扩容,在主系统再建立数据挖掘系统将是一个十分危险的事情;另建设一个系统效果一定不好,因为这些系统的基础数据基本都是计费系统数据,大数据的迁移很困难,实时性无法保障。
8.应用级容灾系统从最高水平上达到计费业务的连续性。
9.容灾备用系统与主系统在空间的分割可以有效地防止火灾、电源故障、大部分自然灾害和全部的硬件、软件故障引起的业务停顿。
四、 建立容灾系统后要重点注意的事情
1.建设容灾系统后对容灾系统的运行效果和状况的了解至关重要,随着系统集中化程度的提高,数据同步以及备份的复杂度也在提高,因此要加强对数据可用性的验证工作,并定期进行容灾系统的模拟演练。
2.建立完善的容灾操作流程,在容灾模拟演练中逐步完善,确保在灾难发生时各项操作做到有条不紊。
3.应用级容灾更大要求业务的连续性,因此在建设容灾系统时单纯依靠硬件及存贮的数据同步与复制功能还远远不够,多种类、多级别、自动化的备份是提高容灾水平的一项重要措施。
4.尽量减小主系统与容灾系统、生产数据与备份数据之间的耦合度和关联性,在数据恢复和灾难切换方面要注意人的因素,制定切实可靠的针对不同情况的数据恢复及容灾切换方案。
阅读(288) | 评论(0) | 转发(0) |