Chinaunix首页 | 论坛 | 博客
  • 博客访问: 339614
  • 博文数量: 282
  • 博客积分: 10010
  • 博客等级: 上将
  • 技术积分: 3260
  • 用 户 组: 普通用户
  • 注册时间: 2008-07-26 14:38
文章分类

全部博文(282)

文章存档

2011年(1)

2008年(281)

我的朋友
最近访客

分类: 服务器与存储

2008-07-26 15:11:56

如何能保证数据中心迁移过程中数据不丢失?如何确保数据中心迁移过程中业务系统基本不停顿?这些都是我们银行要面对的问题。本文将基于EMC SRDF技术,以中国建设银行厦门市分行数据中心新旧大楼搬迁和灾备系统实施为例,讨论数据中心数据迁移和搬迁的方案规划、设计和实施。

银行数据中心的特点是: 业务集中、数据集中、海量数据容量(至少TB量级)、大业务量、业务连续性要求极高、关键业务数据可用性高。随着银行数据集中,旧数据中心由于容量、性能、运行环境等限制,已不能满足业务系统发展的需要,这时各银行就可能建立一个新的数据中心。由于业务24×7的连续性需求和客户数据的重要性,保证业务连续性是数据中心迁移的核心要求,迁移数据的高可靠性是数据中心迁移成败的关键。数据迁移过程中对业务的影响、迁移的数据完整性保证是迁移技术选型、方案设计的依据。

厦门建行原数据中心主机系统基本上是基于IBM RS/6000主机和EMC存储平台,主要的银行业务系统包括对公、储蓄、银行卡等核心业务,还包括有代理业务和中间业务等。应用系统基于Tuxedo中间件和Informix、DB2数据库进行构建,生产数据集中存放在一台EMC Symmetrix 3830 磁盘机中,可用空间大约600GB。在新数据中心厦门建行选用一台EMC Symmetrix 8530磁盘机作为主存储设备,同时还购买了SRDF、TIMEFINDER、PowerPath、ECC等软件,并利用SRDF进行数据迁移的服务。

需求分析

厦门建行数据中心由核心业务系统和大量的前置系统组成。其中,数据中心的核心主机系统由IBM RS6000和EMC存储系统组成,数据库系统采用Informix IDS,应用系统是自行开发的。厦门建行新旧数据中心物理距离大约6公里,旧数据中心有多套的双机互备的主机系统,包括核心业务系统双机系统、信息系统双机系统、前置系统双机系统(包括多种前置应用系统)等,这些机器都通过SAN连接到核心存储上。而在新数据中心准备新购置一套新的存储系统,但在新的数据中心没有主机系统,只是用一台小配置的机器用于测试,新购置一台与旧中心一样的SAN Switch作为测试。

此外,数据中心还有大量的前置机大部分是独立的系统,涉及的操作系统包括:HP-UX、SCO Openserver、Linux、Windows NT、Windows 2000等; 涉及的数据库包括: Informix、Lotus Notes、SQL Server等。这些系统大多是属于可以单独搬迁的系统,其设备的搬迁不与核心系统的搬迁同时进行。

业务数据分析:因为灾备系统需要有一套存储系统,相应的主机系统,要有机房运行条件、网络系统等,因此建立灾备系统需要有较高的投入。所以,要在成本允许的情况下,进行综合考虑,尽可能将比较重要的业务放入灾备系统中。因此我们要将业务数据根据重要性进行划分,一般可以分为: 核心业务、重要业务、一般业务。

核心业务要求24小时不间断运行,其重要性不言而喻,这些业务数据肯定要进入灾备系统,才能在数据中心迁移时以最短的中断时间实现迁移的目的;重要业务中,要根据允许中断时间、业务重要程度进行划分,将重要程度高、中断时间要求短的业务,尽可能放到灾备系统中,而重要程度一般的业务系统考虑不放在灾备系统中。如图1连接到SAN环境中的“前置系统1”、“前置系统2”;

一般业务正常情况下都不进入灾备系统,在数据中心迁移时要进行较长时间的业务中断,中断时间就是一般业务的系统关机、物理搬迁、开机的时间。

迁移需求分析 按厦门建行的需求,整个系统迁移只能在凌晨进行,而且系统迁移造成的业务中断时间不能超过2小时。也就是说在系统迁移过程中,应用系统关闭——数据迁移——应用系统启动的整个过程占用的时间不能超过2小时。按此要求,在设计中要特别注意系统迁移的性能。

性能需求分析 厦门建行对SRDF性能的要求是系统响应时间不得超过原来的5%,这个需求是针对数据中心搬迁后,新旧数据中心的灾备系统而提出的。基于这个需求,需要对传输的数据量进行估算。通过对数据量的分析,发现系统在正常运行中的I/O量不大,SRDF完全能满足要求,但是,当应用系统数据库在做Checkpoint的时候,I/O量急剧增加,假设每秒I/O数据量为10MB,则SRDF性能要求应用是10×8=80 Mbps。

数据中心迁移系统设计

数据中心要进行迁移,既要考虑未来使用的情况,也要考虑数据迁移过程的现实。厦门建行的总体设计思路是: 建立新数据中心,新旧数据中心采用SRDF进行互联,利用SRDF进行异地数据迁移,在数据中心搬迁后建立最终的新旧中心灾备系统。因此,系统总体设计要将重点放在灾备系统设计上,要从硬盘分布、SRDF同步模式的选择、灾备网络方案的确定、灾备软件的匹配等方面的进行分析设计。

盘分布设计 盘分布设计主要包括两方面的考虑:① 确定哪些应用系统放在灾备系统中,业务需求分析完成后,可以确定哪些应用数据需要放到灾备系统中,从而确定硬盘的可用容量;② 在整个主机系统中,I/O的性能至关重要,其中,硬盘的分布是重中之重,在盘分布设计中,主要采用两种思路,首先,核心业务使用的硬盘采用RAID1,而不采用RAID5,使数据在得到双重保护的同时,又不降低性能; 其次,核心业务使用的硬盘尽可能放在不同的物理硬盘上,这样将使核心业务的I/O分摊到不同的I/O通道中,使I/O性能进一步提高; 第三,核心业务硬盘尽可能放在不同的通道上,可使核心业务的I/O分摊到不同的I/O通道中,从而进一步提高I/O性能。

SRDF同步模式选择 SRDF数据镜像技术支持同步模式、半同步模式、异步模式三种工作模式,其中同步模式对于同城灾备最合适,异步或自适应模式适合数据的迁移,对主机端的I/O性能影响最小,而半同步模式使用较少。但是如果一套系统仅用于一次数据迁移,既可以异步模式来实现,也可以用同步模式来实现。厦门建行不仅使用SRDF来实现数据迁移,同时将来还要做同城灾备。因此,为了减少对业务的影响可以提前同步,从而大大缩短数据切换时间。

网络方案的确定 在SRDF灾备实施中,为保证灾备系统的运行,网络传输速度至关重要。在明确迁移需求、系统负载以及联机和批处理对磁盘的更新量以后,就可以进行SRDF带宽设计。一般情况下,10公里以内的两套系统互联,只需要使用裸光纤互联就可以,接口采用长波单模光纤。而对于超过10公里的两套系统互联,可以采用磁盘间SRDF连接为2根ESCON通道,两地采用NORTEL或CISCO等公司提供的DWDM设备作为通道延伸,两端DWDM间用DARK FIBER连接。由于厦门建行新旧大楼之间距离小于10公里,因此采用裸光纤直连方式进行,通过计算超过200Mbps的数据传输速率能满足厦门建行数据传输的需要。

软件版本的匹配 在设计中,需要关注的一点是灾备系统两端的微码版本是否匹配,能否满足SRDF的运行需要。只有EMC公开文档明确支持SRDF运行的微码版本才能发到两端的存储系统上运行,以确保将来SRDF运行的稳定性和可用性。

系统架构 根据需求分析,利用SRDF技术最终的目的是要建立一套数据灾备系统,同时满足数据中心迁移的需要,当新数据中心出现问题时,旧数据中心能得到最新的业务数据,并利用旧数据中心拥有的部分主机实现部分核心业务。因此,总体设计要按照将来是一套SRDF 同步系统来考虑,主存储为EMC 8530、灾备存储为3830(数据中心搬迁后的系统最终总体结构如图2所示)。

数据中心迁移过程

在数据中心的迁移过程中,不仅要将原数据中心大部分设备搬迁到新数据中心,关键还要将数据准确无误地在最短时间内迁移到新中心的存储系统中。因此,在系统架构设计完成后,还要进行系统迁移过程的设计和实施。

主机系统数据分为系统数据、应用数据,系统数据包括操作系统、配置文件等,这些数据与硬件密切相关,实时性要求不高,与客户数据也没有直接的关系; 应用数据指与客户数据密切相关的数据,如数据库数据、应用系统配置文件、中间件系统配置文件等。

对这两种数据应采用不同的迁移方法。系统数据采用一次性磁带拷贝、物理搬迁的方法提前迁移,建立起完整可用的系统平台;而对应用数据应采用SRDF技术进行磁盘同步镜像迁移,同步完成后直接启动应用系统,然后作网络切换,完成数据中心迁移。

以厦门建行的数据中心搬迁为例,一般的数据中心搬迁可以包括以下步骤:

迁移前提

● 新数据中心机房已经验收完成;

● 新数据中心网络系统已经完备,并与旧数据中心互联;

● 新数据中心主机系统、存储系统安装和测试完成。

迁移前的存储系统准备

● 分析、规划、调整应用数据的磁盘卷使用,为迁移准备数据源;

● 在两地主机系统安装、裁剪SRDF软件和其他Symmmetrix相关软件如Timefinder等;

● 升级两端Symmetrix盘机的微码到相同level,根据两端磁盘卷同步映射关系制作盘机的BIN FILE,并装入存储系统;

● 对现有的存储系统进行一致性检查;

● 采用同步贝方式初始同步所有应用数据卷到新中心。

迁移前的主机系统准备

● 要迁移的应用系统都做好一套双机系统,这包括业务主机系统的双机、信息系统双机系统、前置系统的双机系统。

● 双机系统经过演练测试,确保可以将应用放在一台机器上运行。

● 新旧中心进行多次数据迁移切换演练测试。

非核心单独系统的搬迁:这些数据是银行中一些小的前置系统,它们不连接到存储中,是自己独立的小系统,他们的迁移要与核心业务系统的迁移分开。考虑到这些系统的重要性比较低、可中断时间比较长,一般可以选择周末或者夜间提前将这些机器关闭、物理搬迁到新数据中心。

非灾备系统的重要业务系统的迁移:这些数据是银行中非核心业务系统中的数据,它们原来存放在3830上,而新系统要求他们存放到8530上,而且它们的业务可以中断,可以在晚上或者周末进行搬迁。这些数据迁移的做法是: 在8530上建立一样的文件系统,利用磁带或者远程拷贝将数据备份、恢复到8530上;然后在晚上或者周末将对应的主机物理搬迁到新数据中心,然后与8530进行互联,最后将应用系统在主机和8530上运行。

利用SRDF技术进行数据中心核心业务系统的迁移切换

● 搬迁第一步,搬迁一半主机到新中心。原中心变双机为单机运行:将业务主机双机、信息主机双机、前置主机双机系统的应用系统都切换到一台主机上运行,将主机系统中的另一台拆出,搬迁到新中心,与新的存储系统互联;将原数据中心两台SAN 交换机搬迁一台到新中心,与原有一台新的SAN Switch组成新的SAN;确认新存储和主机系统的可用性。将新主机和存储系统连接后,进行必要的应用测试,检查主机、存储系统已经具备运行条件(如图3所示)。

● 搬迁第二步,新旧数据中心的新旧存储进行SRDF数据重新同步,以旧存储为主卷,新存储为备份卷,以确保新存储的数据与旧存储保持一致。

● 搬迁第三步,启用新数据中心。关闭旧数据中心的应用系统,使数据处于某种明确的状态;SRDF分离;修改主机系统配置:包括IP地址、网络路由、应用配置等;启用新中心的主机和存储系统,检查应用系统运行是否正常,这些应用包括核心业务系统、信息系统、两套前置系统等。这时新数据中心处于单机运行状态(新数据中心成为生产中心后的系统结构如图4所示)。

● 搬迁第四步:原数据中心剩余主机搬迁到新数据中心。将原中心主机、备份设备搬迁到新中心,并与生产主机、存储进行互联,形成原有的双机系统。将原来在新数据中心进行测试的主机搬迁到旧中心,作为灾备系统的备份主机。

数据中心搬迁中应注意的问题

数据中心的搬迁是一个复杂的项目,有了详尽的系统设计和搬迁方案,应该说,整个数据中心的搬迁条件已经基本具备,但是我们在实施过程中发现,在数据中心搬迁过程要注意以下问题:

系统等级划分 系统等级划分是系统规划中基础的一环,主要要根据业务系统、信息系统、前置系统、独立业务系统等的重要性不同进行等级划分,核心的系统列入高等级系统,普通的业务系统列入低等级系统。高等级的系统要重点保证,它们要在很短的时间内得到系统恢复。系统等级划分完成后,才能将相关系统的数据按等级不同的需要分别放在灾备系统、非灾备系统、独立系统中。

完善的方案 一个成功的项目的前提是完善的系统方案,数据中心的迁移要成功,要进行全面的系统设计,系统设计至少要有以下要求:① 要有详尽的实施步骤。实施步骤中从实施前、实施过程中、实施完成后续处理等过程中,要有完备的流程,每个步骤要确定责任人、明确实施的时间、实施的前后顺序;② 要有详尽的应急方案。对各种可能出现的异常要做好应急准备,包括物理搬迁问题、硬件故障、操作系统故障、数据库故障、存储故障、网络故障等。

充分的测试 一个成功的项目背后是完备的系统测试,数据中心的迁移也必须经过充分的系统测试,以确保迁移的成功,数据迁移测试至少要包括以下内容:

① 能测试: 主要包括网络传输速率测试和灾备系统的测试。网络传输速率测试主要用于确认网络系统是否满足灾备系统的传输要求。灾备系统测试主要检验灾备系统实施后带来的性能降低是否在用户可忍受的范围内。

② 机切换接管测试: 主要进行原系统的双机接管测试,以确保在搬迁过程中任何一个单机能负责原来双机运行的业务,也确保搬迁过去的机器能连接到新存储中使用。

③ 数据迁移切换测试: 主要在数据中心搬迁之前,先做旧存储到新存储的SRDF同步,然后断开SRDF,在新中心利用测试主机将新存储上的业务系统挂上来,检验能否正常进行应用处理。

良好的项目管理 充分的人员保证和组织管理,由于搬迁工作的复杂性,在项目组中要有专职项目经理,要有网络工程师、系统管理员、数据库管理员、应用系统负责人、业务人员等;良好的沟通机制,沟通不仅要在银行内部,包括业务部门、行领导、行内技术人员等,还要包括合作伙伴,包括厂商、集成商等;严格的进度控制,由于是生产系统的迁移,项目的实施有严格的时间限制,因此在项目实施过程中要对实施进度进行严格控制,并制定详细的应急方案。

完善的质量保证 由于是生产系统的迁移,所有的操作都要保证其准确性,要切保操作流程、操作步骤万无一失。因此,项目实施过程中对所有的实施步骤要进行充分的测试验证和审核,以确保实施的质量。

阅读(607) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~