2008年(8065)
分类: 服务器与存储
2008-11-25 13:29:35
我们之所以称其为Web 2.0数据是因为没有其他更好的词汇了。这种数据从本质和用途上来看,是与传统的、基于交易的数据有所不用的。Web 2.0数据来自于大型文件,通常是由同一位用户产生的,然后其他用户在通过远程共享。大多数Web 2.0数据是那些你所熟知的:图像、视频、电子邮件归档等等,除此之外还包括视频监控录像、卫星探测采矿数据、基因序列和金融分析统计数据等等。
基于文件的Web 2.0数据与企业交易数据一样重要,它同样也需要具备可用性、安全性和防止数据丢失。与传统企业数据相同的是,Web 2.0数据是不断扩展的。
为了符合Web 2.0数据的增长,企业机构开始采用Google和雅虎等Web巨头提供的存储技术。通过借鉴高性能网格计算,这种存储策略采用了大型机架式计算集群和由低端业内标准服务器和驱动器组成的存储节点。这些数据在多节点之间分布和复制,并且通常是在地理位置上彼此独立的。其中存储设备是CAS或者NAS,采用SATA或者SAS驱动器。
为了能耗和冷却成本,节点被优化只采用应用所需的功能特性。这些集群节点的造价低于刀片,但是密度更高,而且不需要额外的能源供应和风扇装置。冗余性是在节点层级的,集群软件可以处理节点故障,提供弹性和灵活性。这些集群大多具备自主管理和快速扩展的特点。
这些集群可以是针对高性能计算任务的计算密集型集群,或者以存储为主导的集群(这取决于你的软硬件配置情况),提供了一个具有单一命名空间的大型NFS云。
Google和雅虎等公司仍然致力于开发他们自己的定制架构。Google直接从英特尔公司大领订购定制的主板,以满足他们低成本和低能耗的需求。但是,你不必创建你自己的定制Web 2.0存储架构,因为越来越多的主流存储厂商开始向用户提供与之相关的产品和服务。
根据订单设计
戴尔是率先提供Web 2.0架构的厂商之一。戴尔的数据中心解决方案部门在2007年3月宣布推出云计算解决方案(Cloud Computing Solutions)。戴尔针对集群服务或者存储产品,设计、提供甚至安装机架机架服务器和存储设备,优化应用(以及减低能耗)。另外还有维护和租用等选择。
根据戴尔In The Clouds论坛上的讨论来看,这种服务是面向大型订单(1500以上个节点),而且你必须提供自己的集群软件。戴尔不提供像提供给大众市场那样现成的系统,而是专门针对某些集群应用开发的系统。
Sun和Rackable也涉足到Web 2.0领域中来。除了提供面向集群的计算和存储节点机架之外,这两家厂商还提供集成到存储集装箱式设备中的移动数据中心。例如,Sun公司的Modular Datacenter S20是一款只配置了一个电力供应、网络连接和水冷系统连接的20英尺长集装箱式数据中心。
有了水冷系统,这些设备的密度就可以更高,比采用空气制冷、具有相同节点的数据中心能效更高。最吸引人的一点就是你可以在很短时间内增加大量存储空间或者计算能力。当然,你必须自己提供将这些整合到一起的集群软件,不过Sun去年收购了Lustre集群文件系统,现在已经将其整合到Open Storage项目中。
密度翻番
空间和能耗一直是最大的数据中心难题,尤其对Web数据中心来说。IBM在今年4月推出的一款名为iDataPlex Web 2.0服务器系统可以直接解决这个问题。通过以90度垂直方向摆放一台标准42U机架,并且平行安装两个半高的节点(从前到后15英寸),这样从前只能容纳42个CPU节点的空间现在可以安装下84个CPU节点,并且在一侧留出大约16U的空间放置交换硬件。对存储应用来讲,有3U的设备可以提供1个CPU以及12TB的硬盘驱动器存储,28个节点每个机架最高容量可达336TB。
甚至一些很微小的因素也对降低能耗起到了关键的作用。风扇设备将空气送到冷却节点之间的距离是通常距离的一半,因为冷却距离和风扇功率之间的关系是非线性的,所以所需能源是原来的一半还多。通过使用更多更大型的风扇装置可以带来更高的效率。可插式的四风扇装置可以对八个节点进行冷却。IBM模块化系统开发部门副总裁兼工程师Gregg McKnight表示,每台服务器的风扇装置消耗的功率大约为6瓦。相比那些采用大功率空调设备的数据中心,IBM的iDataPlex提供了选配的水冷热量交换器,有显著的冷却效果。
据McKnight称:“那些购买了大量节点的企业用户因为这正是他们所需要的。”
虽然不像戴尔集群系统那样是可定制化的,但是IBM提供了22个不同的节点类型(处理器、I/O插槽、内存和存储)以及几种能源提供方式,这样使能源和应用需求更好地结合起来。IBM可以提供Linux或者Windows系统来运行基于英特尔处理器的节点,也可以提供带有Nextra软件(去年收购XIV时获得)的集群功能。
因此,IBM可以提供“一个针对空间进行优化的计算集群”。McKight表示:“整个方案是提前配置、布线和经过测试的,让用户在几分钟之内就可以启动使用。”