2008年(8065)
分类: 服务器与存储
2008-05-09 10:57:00
10.4.1 网站SAN 存储系统
环境: 网络系统由Web 系统、Mail 系统和数据库系统3 部分组成。Web 系统以Windows平台为主,Mail 系统以 平台为主。
存储系统解决方案: 以SAN 结构实现数据的集中和分散数据的LAN Free 备份。
分析隐患: 由于网站各系统主机平台多种多样,为了保护数据必须在SAN 中实现LUN隔离功能。为了节约成本,方案中没有选择具有LUN Masking 功能的磁盘阵列系统,而是通过主机端光纤卡中的设置,手工实现LUN 的屏蔽。同时,光纤交换设备也采用了成本较低的光纤Hub,而不是具有光纤交换机制的光纤交换机。
经过复杂的设计和配置,磁盘阵列终于可以被主机识别和访问了,网站就此开通。
问题: 当将备份磁带库接入系统时,问题产生了。首先是由于系统结构的变动,主机端的手工配置需要完全重新来过; 继而又发现磁带库的光纤接口类型与主机端的光纤卡无法匹配; 然后是光纤Hub 无法将磁带库与磁盘阵列的数据分流,致使系统对磁带库操作时磁盘阵列不可用……
随着这一系列问题的出现,网站最终决定追加投资,将系统全面升级。但是,整个网站在此半个月期间不能对用户提供及时有效的服务,其损失是难以估量的。
10.4.2 某气象单位存储系统
环境: 主要是卫星气象数据的采集和处理。主机系统为IBM SP 并行机,数据库为Oracle。
存储系统解决方案: 主要采用了IBM 7133 磁盘阵列。
问题: 系统在建成并运行了一段时间之后,经历了一次意外断电。结果Oracle 数据库无法对数据进行恢复,致使长达数月的气象数据丢失。
分析隐患: 事后的调查分析发现,问题出在IBM 7133 磁盘阵列。由于IBM 7133 的磁盘数据容错校验并不是硬件实现的,所以主机端磁盘管理软件的逻辑错误会造成整个磁盘阵列系统的数据不可用。即使设法恢复出主机端的磁盘配置方式,但由于IBM 7133 的缓存是基于电池保护的,当意外断电恰巧发生在电池电量不足时,会造成对磁盘阵列系统内部数据完整性的破坏,数据仍然无法恢复。
IBM 7133 属于部门级产品,在很多环境中都能表现出突出的性能优势。但是在本案例中,对数据安全性的要求是第一位的,另外在主机系统方面采用了仅次于IBM S/390 的大型服务器,可见该系统对安全要求之苛刻,因此在投资方面可以采用更高价的高端存储设备。
10.4.3 某电视台非线性编辑系统
该系统环境及系统结构如下: 5 台以Windows NT Workstation 为的非线性编辑工作站,通过光纤交换机共享连接硬盘塔。
需要解决的问题是: 硬盘塔在存储业内也称JBOD,即没有阵列控制器的磁盘组。由于硬盘塔、交换机和主机光纤卡之间配合的问题,系统连接后,主机端总是无法稳定地访问到磁盘,因此系统不能正常工作。
分析隐患: 经过仔细检查发现,问题出在交换机的内部交换机制。是过多的地址转换造成了主机端的超时报错。解决的办法有二,一是增加投资,将硬盘塔换成带有控制器的磁盘阵列; 二是减少投资,将光纤交换机换成光纤Hub。在系统性能和并行性压力不强的情况下,最后决定采取第二种解决办法,不仅节省了资金,而且保证了系统的稳定性。
当然,如果该系统的性能和并行性要求较高的话,还是应该采取第一种解决办法。因为光纤Hub 是共享带宽的交换方式,而且不支持LIP 的隔离。