Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1271042
  • 博文数量: 727
  • 博客积分: 10011
  • 博客等级: 上将
  • 技术积分: 8320
  • 用 户 组: 普通用户
  • 注册时间: 2008-07-13 15:42
文章分类

全部博文(727)

文章存档

2011年(1)

2008年(726)

我的朋友

分类: 服务器与存储

2008-07-15 10:25:58

 

 

中国石油天然气股份有限公司(中国石油)下属的某勘探研究所(以下简称研究所),研究所使用数百台高性能计算集群(PC Cluster)用于石油勘探地质资料处理,由于石油勘探地震资料处理流程复杂、地质原始数据文件很大,通常处理流程的分析要占总时间的60%以上,极大地影响工作的进度和效率。因此,巨大的运算存储空间和存储设备的高I/O吞吐性能才能满足PC Cluster服务器运算对数据I/O带宽的要求。

目前,研究所主要使用NAS产品为PC Cluster提供文件共享服务。但随着计算规模的逐渐扩大(上百台高性能节点同时计算),与之配套的存储设备NAS却无法提供可扩展的带宽和存储容量,计算环境和存储环境的不匹配制约了计算集群规模的进一步扩展。随着国内外地震物探高新技术的快速发展,目前大数据体三维项目越来越多,资料处理过程中所面临的数据量越来越大、覆盖次数越来越高、道距越来越小。存储环境已经成为影响未来石油勘探资料处理规模发展的关键因素。

根据测试情况分析,采用Unix或者Linux操作系统的集群进行高性能计算时的瓶颈主要表现在NFS文件系统上,常规的可安装节点数会有一定的限制。当这个数量超过一定的级数时,系统的性能反而会更差。如:常规处理的I/O带宽需求高,如格式转换作业,每个节点的峰值带宽超过100MB/s,这样,后端存储系统难于支持多个作业同时进行,一般每个NAS连接的计算节点不超过4个,否则性能会急剧下降;并行处理规模达到48个计算节点以上时,对后端网络带宽的需求超过100MB/s。随着数据采集密度的增加,对磁盘和网络带宽的需求总吞吐量将达到数百兆。

经过调优之后,系统的性能仅仅提升了10%左右,对项目而言,最多能够提前1天左右出结果,意义不大。

蓝鲸集群文件系统解决了在高性能计算领域,随着集群的规模不断增长,对I/O性能和存储容量的扩展性不断增加的问题,同时也解决了计算领域跨平台的存储共享。

解决方案

为解决存储系统瓶颈的问题,方案选用BWFS v3.0作为PC Cluster的存储系统。方案拓扑结构请参见下图。

方案中,计算节点、元数据控制器和网络存储设备全部连接到千兆交换机上,并通过千兆以太网与计算节点连接,BWFS v3.0系统为前端的并行计算集群和常规计算集群提供数据集中存储和访问服务。目前,前端计算节点总数超过128个。

BWFS v3.0系统共提供6TB的存储容量,支持400MB/s的总数据带宽,并支持128个以上的计算节点的并行计算和数十个计算节点的常规计算,且存储系统I/O性能呈线性稳定增长。

由于提供了充足的网络带宽,一套BWFS v3.0系统可同时支持多个项目共同作业,不仅提高了计算效率,而且提高了设备利用率。

BWFS v3.0系统采用SATA磁盘作为存储介质,硬件采用全冗余设计,并通过RAID 5和相关软件技术保证数据和系统的可靠性,有效地降低存储系统的投资。

应用效益

研究所采用BWFS v3.0系统后,原有的应用软件未作任何改动,均可正常运行。在并行计算中,128个计算节点同时完成一个作业,其I/O性能呈线性分布,高性能计算得出结果的时间能够比NAS系统缩短一半甚至更多;在常规计算中,计算时间比NAS系统缩短的更多,而且性能呈线性稳定增长。原来需要计算3个月的项目,现在只需要1个月左右就可以完成,极大地缩短了项目完成的总体周期。

 

阅读(464) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~