Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1459691
  • 博文数量: 1125
  • 博客积分: 10010
  • 博客等级: 上将
  • 技术积分: 16710
  • 用 户 组: 普通用户
  • 注册时间: 2008-08-03 14:05
文章分类

全部博文(1125)

文章存档

2011年(1)

2008年(1124)

我的朋友

分类: 服务器与存储

2008-11-23 09:34:49

一些较早拥有计算中心的企业,今天正面临着新的计算设备与陈旧基础环境之间的矛盾,用什么方法才能在“旧瓶”中装下他们因业务提升而迫切需要的“新酒”呢?

3次年底财务审核的结果,终于让新疆油田公司研究院地球物理研究所发现了内部隐藏的“电老虎”。2004年底财务审核的时候,财务部门发现刚配备了新计算设备的计算中心的电费比去年略有增长;2005年底,财务审核的结果,又一次证实了这个苗头确实存在,公司认为这个问题应该注意;而到了2006年底,新疆油田公司研究院地球物理研究所已经发现自己的电费问题“已经很严重了”。

而与此同时,这只“电老虎”的摸样,也清晰地出现在人们面前。2004年,为了满足计算量需求的增长,新疆油田公司研究院地球物理研究所购置了一批PC集群服务器,在随后的三四年时间里,研究所的电费就一路水涨船高。

该研究所副总工程师贾亚军回忆说,研究所2005的电费开支比2004年明显增长,2006年比2004年翻了两番,2007年又翻了一番。总体来说,从采用PC集群之后,研究所的电费,已经翻了3番。最新的计算设备,开始大口吞食企业的电力开支。

“电老虎”隐秘多年
新疆油田公司研究院地球物理研究所(以下简称研究所)成立于1979年,1980年引进第一套设备。最早的一批设备,还是国产的104机等大型机,此后,经过七八次的产品更新换代,产品逐渐从大型机换成小型机,再到服务器,一直到2004年,研究所为了以更高的性价比提高不断增长的计算量需求,采购了当时高端的PC集群高性能集群设备。

从1983年就到研究所工作的贾亚军,可以说见证了研究所计算中心的几乎整个发展历程。

在他看来,最初采用进行高性能计算的时候,电费问题并非不存在,但两方面的原因,让电费问题并没有凸显出来。一是大型机设备价格昂贵,与初期的设备采购成本比起来,后期的电费可谓是九牛一毛,可以忽略不计;另外,由于当时石油行业中,地球物理研究的计算规模远没有今天这么大,采购的主机和服务器设备也没有今天这么多,也就没有给电费一个“表现机会”。这一切,让高性能计算中心里的电老虎,一直隐秘了多年。

但是在2003年之后,石油行业对通过地震波研究地球物理信息的需求提高,新的算法不断应用,更高性能的计算设备成为研究所的迫切需求。而由于PC集群属于高密度计算,其节点数(CPU个数)是过去设备的几十甚至几百倍,因此主要由CPU带动而产生的电耗和热量凸显出来。

贾亚军说:“从某种角度讲,现在的上千个CPU节点,就相当于原来的上千台服务器。”从电耗和散热方面讲确实是这样,因为计算节点密度的大幅提高,相当于将原本应该存放在几十甚至几百倍空间里的服务器,统统挤在了一个计算中心空间里。这样的情况下,电老虎,不凶猛才怪。“过去我们的设备没有今天这么复杂,密度也没有现在这么大。2004年,我们做PC集群的时候,考虑也不是太多,但是做完之后发现电费有问题了。”贾亚军说。

捕捉“电老虎”
在发现这只电老虎之后,研究所便开始研究与它周旋的对策。业界普遍认为,计算中心/
的使用寿命在10-15年左右。按照这样的标准看来,新疆油田公司研究院地球物理研究所的计算中心已经是超期服役了。实际上,在石油行业内部,寿命超过20年的计算中心并不少见,主要原因是上世纪70-80年代,我国石油勘探行业正处于一个快速发展时期,并刚刚开始将先进的计算机技术引入到地球物理研究和勘探开发环节中。因此,很多计算中心都是在上世纪70年代末和80年代建设的。

面对高密度计算带来的能耗和散热问题,很多企业会选择建设新的计算中心场地,通过新的初期设计,解决旧计算中心里已有的棘手问题。可以说,这也是一个比较彻底的办法。

但是,如果企业的现有条件不允许建设新的,他们又该怎么办?是否还要严格地遵守业界的经验、理论?

如果一切都能按理论情况行事,那今天的世界肯定不是现在这个样子,也就不会有很多20年甚至30年“高龄”的。而在新疆油田公司,目前物探所计算中心的规模已经达到了1500多平方米,可以算是一个较大的,为此,基于各种考虑,公司决定暂时不新建,而是要研究所根据现有条件解决问题。
从2005年开始,研究所开始与一些做高性能计算的IT公司和制冷服务公司,进行面对面的学术交流,2006年,研究所还成立了专题组研究面临的问题。

研究所通过统计分析发现,在所有的耗电环节中,UPS自身的电耗和空调制冷的电耗是两个主要耗电大户,而计算设备本身的耗电似乎并非最主要的。

这一点,与目前业内的普遍分析结果相同,那就是在高密度计算中心中,空调制冷与通过热能损失掉的电费,占了大头。

“在所有热源中,进户电通过变压器在高压、低压之间的转换所产生的热能占了热源1/3左右。”贾亚军说。这样一来,节能降耗的问题,就集中在了降低空调和UPS的电耗这两个关键点上。
 
 
指定降虎方案
对于任何人来说,这都将是一个大的挑战。新的计算设备、不断上涨的电费、不能新建或扩大的空间环境,似乎把问题推向了一个死胡同。但好在这并没有难倒贾亚军。按他的话来说,是现有条件,逼着他们想出了别的办法。“我们的理念就是,局部热量局部处理。”贾亚军说。
他认为,再大的机房,热源也是从局部出来。因此,计算中心不能,也没有必要通过加强整体制冷来解决局部问题。如果只是围着整体制冷寻找出路,就始终没法逃离“局部制冷量过大,连地板都是冰的,而局部热点热度丝毫不减”的怪圈。

“该冷的地方没冷,不该冷的地方又冷了,这很尴尬。因此我们打算对集群集中的地方进行着重处理,机房还是原来机房。这样做,投入小,也更有针对性。”贾亚军说。我们把计算中心分成了很多模块,把计算中心里的主要热源找了出来,并对这些热源进行有针对性的散热,具体的做法就是通过隔离的通道进行热交换。重要热点所排放出的热量,没有在机房内散发,而是直接通过通道排放到机房的外面。

而这样的方法甚至催生出了一个“无机房”概念。所谓的“无机房”概念,是一个通过控制小环境,来缓解大环境问题的方法。贾亚军认为它非常有效。“的电耗、制冷全都下来了,因为当高性能计算的热点被‘摘出’计算中心之后,里面运行的都是一些关系型数据库的小型机。他们的散热量不大,而且需要一个稳定的环境。”他说。

研究所还把原来集中型的专用空调,打散到机房去。让高性能计算机柜直接将冷风抽进去、热风排出去,复杂的问题变迎刃而解。“这既能保持机柜内一直是一个好的运行状态,又能让机柜外保持常温。这样,我们就不用再开辟大的空间,进行整体机房制冷,或建设集中型的UPS机房了。”贾亚军说。散热的问题解决了,而在供电方面,研究所仍面临挑战。过去,研究所将大量的UPS集中安装在一个“UPS机房”里,这不仅需要建设机房的费用,增加了成本,还要单独给UPS制冷,又相当于增加了一块制冷费用。而在电老虎发威之后,贾亚军也为UPS想到了一个解决方法。他们用模块化的UPS,替代了原有的独立UPS,这样就可以将UPS分散到机房中的各个机架里,这不仅将原有的UPS热源打散,分散到当中,也让UPS和电源的重量分散开来,不再让UPS机房的地板承受高压强的考验。

模块化的UPS,也让系统供电的灵活性得到了提升。例如,如果一个机柜需要的电能支持是15到20个千伏安,那么,通过模块化的UPS,研究所就可以按需分配,将能够满足需求的UPS模块插入这个机柜当中。这也让研究所在UPS的投入上能够精打细算。“一组集群机柜,可能有几百个节点,而需要给它配多少UPS多少制冷,一算就出来了。”贾亚军说。

新疆油田公司研究院地球物理研究所在计算中心中所面临的问题,例如快速增长的计算密度与原有场地环境的矛盾等,是很多国内企业,特别是石油行业中计算中心起步较早的企业共同面对的。而在“如何让生龙活虎般成长的高性能计算在现有的计算中心中顺利成长”这一问题上,新疆油田公司采取了颇具特点的方法,抓住计算中心的“热点”和关键,这种方法值得很多企业借鉴。
阅读(961) | 评论(1) | 转发(0) |
给主人留下些什么吧!~~

chinaunix网友2008-11-28 12:59:56

越混越差,从服务器到PC , 笑死人了. 所谓的模块化UPS 不过是拉动内需吧.