分类: IT业界
2011-04-28 12:40:58
英特尔高性能计算研讨会上,来自中国石油东方地球物理公司研究院处理中心的总工程师赖能和先生接受记者采访时表示,能源领域的高性能计算更看重利用率、存储效率和功耗。而未来东方地球物理研究院将建的数据中心会在新机房中利用高密度,甚至是GPU众核计算以期获得最佳的地球物理计算性能。
中国石油东方地球物理公司研究院处理中心的总工程师 赖能和先生
1、如何提升高性能计算的利用率与存储效率
在演讲中,赖能和总工就提到目前的CPU利用率一直不是很高。这几年东方地球物理公司也非常重视提升CPU利用率的问题——前后投入了1000余万元。“一方卖弄是真对CPU与系统之间的I/O,加大了容量;另一方面是用新的定性文件系统取代了一般的NFS系统;第三方面是整合计算节点。”据了解,原先的高性能计算集群在节点数量超过120之后就会遇到性能瓶颈,其中的重要原因就是网络I/O和磁盘I/O形成的瓶颈。
据介绍,目前的程序在任务调度和算法方面对大规模并行计算的支持还有不足之处。因此,软件MPI本身会影响CPU效率,这方面东方地球物理公司自行研发了相关作业管理调度软件并针对不同应用选择合适的通信接口。赖总表示,对于地球物理的大规模数据吞吐来说,未来可能会采用HBA卡来解决I/O瓶颈问题。
记者在采访中了解到,由于面向地球物理的计算对于数据的读写规模较大,因此对于后台存储环境的要求十分苛刻。据介绍,普通的分布式存储虽然容量上满足了需求,但是带宽方面却是计算的瓶颈所在。因此,只有用大容量的预读很多数据,来避免即时存取的高I/O对磁盘存储的和网络系统的压力。
对于正在崛起的SSD固态,赖总认为目前还不成熟,固态容量还太小,远远无法和HDD普通硬盘相比。另一方面,SSD固态硬盘的寿命问题一直是个悬而未决的问题——这也间接说明了SSD的可靠性、稳定性有待考察。因此单从每GB数据的存储成本,读写I/O性能的平均成本和生命周期来看,SSD还没有成熟,地球物理计算的高性能计算中心在选择技术和设备时的标准是:“性能第一,但是要足够成熟。”
2、数据中心节能是为了提高效率
数据中心节能近年来是所有企业IT部门共同关注的问题,相应而生的概念包含了第二代智能数据中心以及云计算数据中心。不论什么样的理念,都对节能和功耗控制表示了极大的关注。赖总表示,中石油东方地球物理计算公司也一直在高性能计算节能方面做着努力。
据赖总介绍,他们首先对数据中心机房进行了系统的改造,通过采用栅格地板等方式,将冷风通道由侧吹改为下出风,使得1200平米的数据中心机房一年内节省了60多万元电费。此外有一个不为人知的额外功耗:谐波治理。赖总表示,庞大的数据中心对电网产生的谐波非常之大,为了消除这种电磁干扰,每年东方地球物理计算公司要花费300多万元来控制和消除这种污染。另一方面,谐波也表明一部分电能没有用在计算中,而是产生了干扰——通过对谐波的治理,赖总的高性能计算集群电能利用率从原先的0.77提升到0.95。
对于在忙时租用计算资源的做法,赖总表示这是他们正在探索的方向。“前期我们做过很多调研,包括作IBM、曙光等很多公司做过探索租赁,因为我们是国有企业,也很多企业方面的限制,从财务资助上很难操作的,这里面涉及到,比如说我现在投资进去的是国有资产,按每年投资计划,审批,这样操作下去,租赁是按成本运作的,每年的运作成本非常高。”另一方面,赖总表示目前国内高性能计算租赁资源较少,整体来看还不成熟。
采访中记者了解到,目前东方地球物理计算公司正在规划建设一个面积为4500平方米的数据中心——其中有大约1000平米会是高密度机房。而这一新机房是为了解决目前相对饱和的老数据中心的升级瓶颈(电力供给、制冷瓶颈等),并且有可能采用基于x86架构的英特尔MIC众核架构处理单元。他表示,MIC架构使用的是另一种CT编程,与目前的线性编程还是有所差别。“未来会有多少软件和厂商支持它,使得这个产品成熟起来,从而方便客户试用才是问题焦点。”赖总表示会持续关注和测试相关产品。