柔中带刚,刚中带柔,淫荡中富含柔和,刚猛中荡漾风骚,无坚不摧,无孔不入!
全部博文(1669)
分类: IT业界
2013-11-14 16:00:14
导读:从传统的数据中心到绿色数据中心,离不开绿色的服务器、网络、机架和电源。在第四届云计算大会“云计算与数据中心”专题论坛上,来自阿里巴巴集团的高级研究员章文嵩分享了淘宝在绿色数据中心取得的成绩和挫折。作为国内最大的电子商务服务商,淘宝平均每天有7800万用户访问,对计算、存储、网络的压力巨大,如何在满足系统稳定、弹性的基础上,降低数据中心的运营成本,淘宝做了大量的探索和应用。章文嵩表示,淘宝通过与威盛、英特尔、ARM、华为等供应商合作定制低功耗服务器,建立了覆盖全国的CDN网络,针对图片为主存储系统按热度进行了分层优化,通过这三方面来降低数据中心的功耗、提高效率。淘宝将定制低功耗服务器取得的经验进行开源,与上游供应商一起建立了绿色计算项目,这与Facebook发起的Open Compute项目异曲同工。CSDN将章文嵩的演讲整理归纳,全文如下:
定制低功耗服务器
低功耗服务器,在互联网应用来说我们观察到很多都是数据密集型的,复杂的科研计算非常少。针对这样的应用,拿低功耗的处理器来做,功耗会降低很多,整个计算系统会达到平衡。按照我自己的经验,2008年和朋友一起创业,做了一个下载播放盒,ARM处理器,空载时功耗已经到了1瓦,当CPU百分之百跑着,外接USB硬盘也在读写时,全部跑起来大概9瓦。阿里巴巴集团高级研究员 章文嵩
2009年我来到淘宝,当时考虑也很多的低功耗处理器,有ARM,因为迁移的成本,包括应用人员的接受程度,所以放弃了。综合了各种因素之后,我们最终选择了兼容IA架构处理器。整个过程并不容易,去年我们才有了批量的部署,定制硬件比软件还复杂很多,我个人过去是搞软件的,写底层的系统软件。写软件比较好,时间很短,但是做硬件的话万一设计出问题,返工的周期实际上是很长的。
2009年底,我们和威盛合作做低功耗处理器,到2010年6月份,整机交付测试。一开始在实验室测验还不错,拉到数据中心也有一定的规模,进行了机柜部署。但是整个测试过程中我们也碰到很多问题,比如散热的问题,我们加风扇,风扇带来的振动对硬盘的寿命又有影响。实际上这个过程走下来并不容易,那个机器的定制后来又出现了问题。
2010年8月,英特尔非常积极的和我们一起合作,我们也花了一些资金做低功耗的服务器设计。英特尔找到了超微一起做低功耗服务器。2010年10月,在网上做压测,一直压测到春节。2010年2月,那一批机器做的还不错,都达到了预期的效果。当然中间我们也做了很多优化,到2010年6月进行了批量部署,线上经过很多真实流量的考验,再到2011年9月份,包括在系统上,根据应用使用的性能指标参数,整个文档都开源出来了,建立了绿色计算的网站。
CDN和图片分层存储
淘宝网大家都知道,网络购物大概80%的市场在淘宝网上成交的。我们这样一个网站每天访客,可能大概是7800万左右,去年双十二的时候是1.25亿的访客,大促的时候来的人比较多。淘宝上的一个特点,大家访问淘宝都知道,商品描述大的都是图片,旁边还有其他的小图,平均50左右的图片。淘宝网站的流量大概90%以上都是由于图片的流量。针对淘宝这样的网站,我们做了包括图片存储的全局的CDN系统,在最下面实际上是TFS集成,是对象存储系统,主要放淘宝的图片。TFS有6200T的存储空间,实际已经用了4000T。因为淘宝用户全国都有,CPU一级缓存、二级缓存,基本上是对应的关系。我们在一级缓存上大概有50T的存储空间,因为淘宝的图片实在太大了,我们一份数据一张图片存四份,一个机房存两份,所以用了4P的存储,存储量在1P左右,拿单个服务器对应那么大对象是很难做到的,你很难把局部让命中率很高,你要做到足够大。所以目前是50T左右,还有50T更大的一级缓存。
淘宝的CDN在全国布了103个节点,单节点服务能力大于10Gbps,整体系统能力在1000Gbps以上,最高峰的时候要算分值。图片的规模有1000T。我们计算过,淘宝网平均一个页面上各种规格的缩略图大概有30张左右,占存储容量也会有1000T。淘宝的图片平均大小大概18K左右。但18K以下的对象数占的总数非常多,网站里面有很多小的缩略图,总数是80%,存储容量只有40%。
淘宝访问的局部性也非常高,可达到95%、96%的命中率。由于这些特性,考虑到了建设成本,淘宝存的都是图片,连续的挑战大多了,尤其是对存储系统来说。硬盘存储指标,每秒钟做多少个IO,机械硬盘一般是90次-20次左右,移动的平均时间大概10毫秒左右。IOPS做到180,SDP做到上万次,内存没有,但内存成本更高。1TB的SATA硬盘500块钱就能买来,1G五毛钱。因为建设成本不是无限制,用了混合存储的方式来做。有内存,有SSD,有SATA。从硬件上面来说只有两层,因为前端有一个负载均衡期,为什么要这样?每个机器的存储容量是有限的,我放三、四台就可以组成60T的存储空间。但是不能重复存储,这样整个存储空间用的就充分了。
混合存储上我们做了迁移,和最终定制的也有关系。我们IO的优化,比如说图片的存储到0.9个存储,最早用混合存储,这个方法在CDN是比较得意的地方,小的SSD快,但是容量小,个数占的多,小的进SSD,中等的放SAS,大的放SATA。落到SSD只有40%的访问量,还有SATA上面,SSD的IOPS非常高,是几万次,但是我们可以把它用起来。
那时候在想,过去那么简单的按大小分层,这种方法可能也会有热点,访问的频度,按这个评价指标做迁移,大对象如果他足够热,也会被迁到SSD上面去,我们一开始想到这个方法不是有效的,跑到线上一实验,大部分落到SSD,84%都会落在SSD,因为SSD毕竟快,大量的都跑到SSD上面去了。对于存储这样的服务器,传统高性能的服务器,我们看SAS硬盘利用率已经到80-90%了,但是CPU只有10%以下,CPU利用率非常低。CPU和IO之间的差距也很大。
所以把CPU的功耗降下来,整个让一个机柜可以放更多的机器。怎么做一个低功耗的服务器,大概定制什么样规格的服务器。有2U 8Nodes,机器速度快的多了。在2U的机器里面放8 Nodes处理器。传统服务器,这里面用的机器数量也不一样,机器25瓦,足够强,硬盘也多,要256块硬盘,单一节点可以做到64G的存储,别的机器因为硬盘数的限制,做到33T,或者36T。
我们对服务器的指标进行评测,整体的服务能力,能做到多少。一开始我们也没有太大把握,所以加了足够多的机器,我们试验室测出来有14.6G的能力,都是实际的节点。最终我们衡量的指标,比如说花一块钱我们做到多大,每秒钟处理多少,在实际的节点是最高的,可以做到30KB的容量,一瓦的功耗能做到多少的容量,这个指标也都是最高的,可以做到7兆。在低功耗服务器上面也做了,整个过程不光是硬件,软件也要优化。
我们做了系统级别的优化,尤其是模式,以往是用传统IDE的模式,IDE改成ACHI的结果,理论上90多个怎么只有5个就忙不过来了,后来找到是参数算错了。我们在做操作系统的一些优化,比如说IO终端的优化,包括SMP的测试,后来做到1700,基本翻一倍。当然主线程只有一个,把一个CPU连起来。我们也正在写一个缓存软件,我们自己的存储引擎,我们想象可以做到1000,或者更高。
有了这些初步经验之后,我们把用的机器数降下来,48台也能满足,这样成本会降得更低。在低功耗的机器上,我们努力追求的目标是I/O与CPU平衡,但是这里出现了不平衡,只有25%左右,上面CPU已经跑到56%多了。低功耗的硬件定制是持续的,也有不如意的地方,大概有800左右的规模部署,在一级缓存,二级缓存,我们有节点跑到9.77,完全达到要求,那时候IO也是到50%左右,这里面我们会持续从系统角度优化,包括降低CPU的功耗,因为CPU是平级的,怎么通过软件优化,降低CPU消耗,提高性能。这款服务器各方面还是有待提高的。
开源绿色计算
绿色计算,我们和合作伙伴一起定制了这样的机器出来,这样的机器对于能耗的节省有很大的作用,我们建立了一个网站,当然低功耗硬件的定制是很小的一块,做绿色计算的数据中心,数据中心怎么做,空调系统怎么弄,自然风冷却,或者其他的冷却方式,POE做的足够低,机柜怎么设计,高性能服务器怎么定制,方方面面非常多。后来我们只是开了一个头,把低功耗的机器放在这样的网站上面。当然,这不简单的是一个硬件,包括我们的应用取得什么样的性能,在上面都有应用情况和测试报告。
想通过Green Compute的网站,和国内厂商一起降低数据中心的能耗,真正做到绿色的数据中心,希望更多的合作伙伴能参与进来,把很多成果公开进来,实际上这对企业来说也未必是一个核心竞争力,因为大部分公司的核心竞争力未必是在设计上。所以把这个公开出来,对于国内的数据中心能耗的节约会很有帮助的。
很多处理器和芯片厂商,主板的设计商,电源、服务器,都可以参与进来,降低能耗的一些硬件设计举措,可以放到这个网站上,让业界来共享。我们网站建立之后,阿里云内部积极响应,上面也有使用规格,包括效率。通过直流供电服务器,也是在服务器设计里面蛮重要的环节,把供电的效率,供电的转换效率提高。比如交流的UPS,380伏交流的,再转成220伏交流的,转换效率大概88%左右。如果我们把UPS放在240伏直流,统一集中的PSU瓦,供电,整机的整个供电效率比如提高到85%、86%以上。整个数据中心如果进的是直流的话效率会更高。
直流的规格出来,实际上很多厂商也积极参与,包括华为也定制阿里云的服务器,也有英业达,1U直流服务器。直流的服务器需要集中式的机架式的电源系统,集中处理,可以把它做的更精致,转换效率会更高一些。
低功耗的服务器特点我们小结一下。低功耗的处理器如Intel、ATOM等,低功耗的Chipset,SSD或低功耗的SATA硬盘,关闭GPU和USB Controller等。适用不需要太多CPU计算的I/O类型应用。好处是大大降低成本,整个I/O效率会提高上来。未来我们会在这方面持续优化,Intel也有自己的战略。跟华为也有合作。比如存储系统,一个机柜放1P的存储空间,或者2P的存储空间。实际上低功耗我们只是开始做了一点点,希望更多的业界参与进来,我们一起推进绿色节能。(演讲/章文嵩 整理/包研)