分类: 服务器与存储
2012-11-04 10:31:05
场景介绍:
生产中心与灾备中心距离200公里,线路带宽20M,要求RPO等于零,实现数据级容灾,容灾系统尽可能减少对原生产系统的性能影响。
要点说明:
l SVC PPRC Global Mirror,应对物理灾难
l GeoRM + Log Shipping,应对逻辑错误,误操作
容灾系统设计:
异地容灾解决方案的核心即在线数据复制,就在其技术而言,我们认为比较成熟的数据复制技术为:基于智能存储设备实现的硬件级别的数据复制,这种数据复制技术无需占用主机设备的系统资源,它对主机系统的资源消耗极小,可以保证主机上的应用高性能运行。
IBM SVC(SAN Volume Controller)存储虚拟化产品具有通用性强、实施简单的特点,透明地加入原有SAN 环境是SVC的基本功能。SVC是整个SAN 网络的控制器,在SAN的分区上,逻辑上主要划分为Host Zone和Disk Zone,从而解除主机与存储设备的紧密耦合。它将整个SAN中的存储设备整合成一个巨大的存储池,可以充分利用所有的存储资源(包含第三方存储设备)并按业务的需求分配存储空间、性能和功能。因此,通过SVC可以很方便的将目前的存储设备进行整合,建立统一的灾备管理和资源分配平台,可以按照应用/业务不断变化的需求来动态配置存储。
IBM SVC目前提供MetroMirror和GlobalMirror两种高级复制功能。异步(Global Mirror)功能的设计目的在于针对业务连续性和灾难恢复提供几乎不受距离限制的长距离异步远程复制能力。在SVC中,同步(MetroMirror)和异步可以作为同一项功能实现,以便灵活地实现远程复制功能。
1. PPRC MetroMirror/同步复制
来自服务器的更新被写往本地连接的集群(Cluster)缓存,该系统将数据转发给远地点连接的SVC集群(Cluster)的缓存。只有当两个集群(Cluster)的缓存都拥有数据的拷贝以后本地系统才会向处理器返回一个I/O完成指示。同步远程拷贝能够在远地点提供最新程度的数据当前值,但应用程序会因等待写I/O操作的完成而被延迟。
MetroMirror将确保如果备份卷不能被更新,那么即使源卷更新成功,整个写操作也会返回失败---彻底保证源卷和目的卷的数据彻底一致。同步方式可以保证数据不会丢失,更重要的是数据的一致性在这种方式下能够得到很好的保证---数据的不一致意味着相关数据的丢失,此时数据库的数据安全机制无法保证数据的安全,严重时有可能造成数据库无法启动。
MetroMirror/同步复制示意图
优点: MetroMirror确保如果备份卷不能被更新,那么即使源卷更新成功,整个写操作也会返回失败,这可以彻底保证源卷和目的卷的数据彻底一致,保证RPO接等于零。
缺点:由于同步复制灾备技术要实现同城灾备磁盘阵列间的备份写,因此对整体性能将存在一定的影响。
缺点规避方法:采用相对高性能容灾功能实现产品平台,确保网络带宽及可靠性。
2. PPRC GlobalMirror/异步复制
在GlobalMirror复制中,来自服务器的更新被写往本地SVC集群(Cluster)的缓存,该系统立即向服务器返回一个I/O完成指示。更新在很短的一段时间(在实际中通常在数秒钟到一分钟左右,依赖于两个数据中心之间的带宽和距离)以后被送往一个远程SVC集群(Cluster)缓存。异步远程拷贝对应用程序性能的影响最小,但远程磁盘系统在数据最新性方面与本地系统相比会有一个延迟。
GlobalMirror/异步复制示意图
全球镜像是以存储为基础的、实时的、与应用和主机无关的数据远程镜像功能,利用这个功能可以实现数据最小丢失(数秒钟到一分钟左右)且具有完全恢复功能的灾难恢复解决方案。
优点:由于实现以存储为基础的、实时的、与应用和主机无关的数据远程镜像功能,因此可以确保应用性能的高效性,基本不受到灾难备份数据工作的影响.理论上可以实现无限远距离的容灾备份.
缺点:为确保应用性能的高效性, 需要实现数据最小丢失(数秒钟到一分钟左右),因此在灾难发生的情况下,将有一定数据的丢失,丢失程度与网络带宽和业务工作量存在关联。
考虑到容灾系统的部署要尽量减小对原生产系统的性能影响,因此推荐采用 Global Mirror的全球镜像异步灾备方案。同时为减少容灾系统对网络带宽的占用量,部署Cisco MDS 9216i冗灾存储网络交换机,9216i可支持FCIP压缩,最大能达到30:1的压缩比。在各种数据源的情况下通常为2:1的压缩比(根据以前的项目经验,压缩比基本在3:1到4:1以上)。
灾备系统结构图:
本地中心机房和异地灾备机房的磁盘阵列分别连接在各自的SAN交换机上,SVC设备通过SAN交换机透明管理两地的存储空间,并通过SVC所具有的PPRC数据复制功能,实现数据中心与异地灾备中心之间的异步数据复制,确保核心数据的安全。核心业务系统对数据的任何修改,均会异步复制到异地灾备中心,以实现关键业务数据从数据中心到异地灾备中心的异地自动复制。这样就可以保证,一旦数据中心发生不可抗力因素等灾难后,可以保障关键数据保存。
SVC PPRC 解决了物理灾难问题,在应对逻辑错误问题上采用GeoRM+ Log Shipping的数据库复制方案。既可以保留传统的数据库本身的数据复制方案的优势,同时又可以针对其局限性作出一定的改进的。
数据复制进程总图
该解决方案的核心思想为,生产中心各个数据库均工作于归档模式,日常生产中各个数据库产生的Archive log将统一由IBM数据复制服务器完成压缩并向灾难备份和恢复中心实施传送,灾难备份和恢复中心将传送至的Archive log解压缩并roll forward 到灾难备份和恢复备份服务器对应的数据库上。
生产系统与数据复制系统完全独立,数据复制系统组件的故障(包括生产端GMD Server故障,数据复制链路故障,灾备端GMD Server故障,灾备端数据库服务器故障),均不会对业务生产产生影响。
根据客户的实际情况,平均每天产生不到100个归档日志,最高到580个,日志大小每个按512MB计算,则平均每天产生50GB日志,最高290GB。将归档日志打包,压缩(按照经验,日志的压缩比一般为3:1~4:1左右)后再传,则所需传送的数据量分别为50/3=16.7GB和290/3=96.7GB(保守起见,下面压缩比按3:1计算)。
在20Mb/s的带宽情况下,则每小时可以传送20Mb/s*3600s/8/1000=9GB的数据,则平常情况下需要16.7/9=1.9小时,最高需要96.7/9=10.7小时。
生产中心写I/O主要集中在白天,晚上20:30到第二天上午8:30期间(约12小时空闲窗口)写I/O较小,可以用于传送归档日志。在20Mb/s的带宽情况下,可以在此时间窗口内完成产生日志最多情况下的日志传送。
不知道为啥没有办法贴图。