分类: 服务器与存储
2008-07-15 09:39:25
从体系结构方面看,以P2P和集群方式为主的分布式将异军突起;而从应用的角度看,分级存储、CAS等后来居上。长远看来,底层存储介质革新对于存储技术发展所带来的影响将日益明显。
以前,技术主导IT产业发展。但是现在,应用却成为主导IT产业发展的关键因素。近几年存储产业发展迅速,目前存储已经成为IT基础架构的重要核心。尽管近年来传统IT市场走势低迷,但对存储的需求依然与日俱增,推动了整个存储市场的快速增长。那么,未来,哪些技术会影响存储产业的发展呢?本报记者采访了专门从事网络存储技术研究的清华大学博士生导师舒继武教授。
分布式存储异军突起
从体系结构的角度看,分布式存储将是存储领域影响最大的一个发展趋势。所谓分布式存储系统,就是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储存放所有数据,存储成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
分布式存储目前有两个研究热点:
一是基于P2P的分布式存储。基于P2P的分布式存储系统是一种基于对等网络技术的数据存储系统,它可以提供高效率、可扩展、鲁棒和负载平衡的数据存取功能。对于存储系统,用户关心数据的吞吐量以及定位、搜索和的效率。传统的集中方式无法满足大规模数据存取的要求,就需要采用新的体系来管理系统中的数据。基于P2P的分布式存储系统可以利用大量节点的计算和带宽资源用于数据存取,具有弱结构化、没有单一故障点、可靠性好、易于扩展、数据吞吐率高等优点。不过,基于P2P的分布式存储系统仍有很多技术问题需要解决。
二是集群存储。服务器集群技术已经非常成熟,应用也非常广泛,效果也非常显著。应用集群技术,不仅可以有效提升数据中心服务器系统的稳定性、可用性及可管理性,同时,允许用户使用价格相对低廉的配置(如刀片)捆绑来替代昂贵的单块集成电路的高端服务器,在不影响性能的情况下节约了存储成本。在传统的集群系统中,每一个节点服务器都有自己的本地存储,这些存储资源并没有被统一利用,在节点之间也没有一致的视图。如果能够将集群中除了计算资源外的存储资源也利用起来,既可以提高存储资源利用率,又可以互为容错与备份,这是集群存储的内在要求。目前市面上出售的存储集群产品主要分为两大类:一类是集群文件系统,一类是建立在集群的架构之上的独立硬件设备。不过,集群存储效率有待提高。
高度关注存储安全与可靠性
近年来,网络存储安全存在着太多威胁,包括数据更改、破坏、窃取、拒绝服务攻击、恶意软件、硬件窃取,以及未授权访问等。要保证SAN(存储域网)的安全,必须逐个歼灭这些可能威胁。存储安全是指在数据保存上确保完整、可靠和有效调用,通常包括两层含义:一是存储设备自身的可靠性和可用性(设备安全),通常把它称为存储安全;二是数据在访问路径上的安全,一般称为线上安全。虽然国际上也有一些解决存储安全问题的产品与系统,但是实用性较差,还不能解决用户问题。
存储系统安全与可靠性有关。如果存储磁盘坏了,系统还能否应用?能否相互备份?这也是用户关心的一个问题。因为存储可靠性是大多数用户在决定选择哪款产品前最先考虑的因素,但这又是一个不好进行量化对比的属性。
从应用角度看,分级存储、CAS等后来居上
与应用特点结合的存储技术日益成为存储业界的热点,尤其是基于固定内容寻址存储(CAS)、分级存储等技术正在迅速发展。
随着数字化改革浪潮的逐步推进,全球信息量每年以2倍的速率持续快速成长,其中50%的新生数据都为固定内容。所谓固定内容是指必须长期保存内容不可改变的资料,如公文影像档案、信用卡申请书、客户金融贷款申请相关文件、电子文件、数字X光片、数字医学核磁共振造影、影片、电子邮件、支票影像档案、卫星图片等。固定内容的迅速增长需要一种可以实现安全地在线存储和长期获取这些信息的新型存储――固定内容寻址存储(CAS)。目前,数据库等结构化的内容占10%,非结构化数据内容占到90%。现在,不少企业都推出了相关的产品,但是许多技术的实用性有待提高。
所谓分级存储,就是根据数据不同的重要性、访问频次等指标,分别存储在不同性能的存储设备上,采取不同的存储方式。这样一方面可大大减少非重要性数据在一级本地磁盘所占用的空间,还可加快整个系统的存储性能。在分级数据存储结构中,磁带库等成本较低的存储资源用来存放访问频率较低的信息,而磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息。数据分级存储的工作原理是基于数据访问的局部性,通过将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的总体性价比。
遏制存储能耗高涨势头
最近,美国斯坦福大学和劳伦斯伯克莱国家实验室(Lawrence Berkeley National Labs)的科学家的一项研究表明,全球数据中心的能耗在2000年至2005年间翻了一番,到2010年将再增75%,数据中心包括了大量的服务器和存储设备。从CPU到数据中心,人们对于能耗的关注越来越强。降低能耗成为企业CIO们关注的一个中心,也是IT系统提供商重点要解决的问题之一。
数据中心管理人员将性能的最大化以及能耗和散热量的最小化,视为IT管理以及企业整体管理的重要问题。存储经理们开始意识到不断增加的在线数据使电费账单不断膨胀,能源危机向他们袭来。一些存储经理开始向他们的供货商要求提供用来监控存储的工具。
为了降低存储系统的能耗,业界已经发明了变速磁盘,即在不同的性能要求下,硬盘可以采用不同的转速,通过降低转速,降低热量,从而达到降低能耗的目的。不过变速硬盘或者磁盘现在面临的问题则很多,如磁盘的寿命减少,可靠性降低等。
不过,降低存储系统的能耗的方法还有很多,这只是一个开始。
存储服务质量(QoS)
开始步入正轨我们都熟悉网络的服务质量(QoS),它是当今国际上网络研究领域最重要、最富有魅力的研究方向之一,是计算机网络研究与开发的热点,被称为新一代计算机网络的核心问题之一。在网络QoS研究中,已经取得了很多研究成果。
其实,只要有服务,就有服务质量问题。当存储越来越成为一项公有基础设施时,由专门的机构向用户提供存储服务已经在所难免。未来的数据中心为用户提供的存储会和服务器的计算能力一样重要,特别是应用环境越来越复杂,存储需求区别也越来越明显,这就需要为应用提供区分服务,存储的服务质量是与应用高度相关的。因此,如何为用户提供满足其应用需求的存储服务就成为大家关注的一个问题。
从目前看,存储QoS评价至少应该包括以下几个指标:一是容量,这是最基本的指标,能多快满足改变迅速而又无法预测的容量需求已经成为提供存储容量质量的一个重要指标;二是可用性,为提高系统的可用性,有时需要采用多种技术,如:RAID技术、备份技术、镜像技术、集群技术、复制技术等;三是I/O性能,存在两个基本的I/O质量的标准:响应时间(一般多长时间能够满足请求)与吞吐量(单位时间可以传输多少数据),这两个标准是相关的,但是两者是不一样的。
不过,评价存储QoS绝不仅仅是这三个指标。随着研究的深入,存储QoS概念、体系结构等一定会越来越完善。
芯片对存储的影响不容忽视
尽管随着技术的发展,硬盘的容量和转速已经有了很大的提高,500GB容量和1万RPM的硬盘也已经出现,但是从整个计算机系统来看,系统的瓶颈大多还是在基于硬盘存储系统部分。现在的计算机用户跟十几年前最大的相同点就是要经历同样漫长的开机时间。近年来,基于介质的存储发展的很快,容量也越来越大,人们对存储寄予厚望,希望它可以代替硬盘。
实际上现在已经有数款Flash硬盘出现了,微软的Vista已经提供了对这方面的软件支持,而三星和PQI将会推出32GB和64GB的Flash硬盘,虽然目前的价格还难以让用户接受,但是随着生产工艺的进步和产量的增加,其成本必然会大幅下降。相比传统的硬盘设备,Flash硬盘将提供更快的平均存取速度,它不易损坏,有更小的体积,更轻的重量。随着技术发展,其容量会不断增大,数据分布更均匀,使用寿命加长,成为传统磁盘的有力竞争者。
另外,结合Flash和硬盘两种技术优势的产品――混合式硬盘将不断涌现。混合硬盘里面既有如今标准硬盘使用的传统磁盘,也有闪存芯片。闪存芯片用来存储一些需要快速读与写的数据,其他要求不高的数据被写入到磁盘,这意味着可以迅速读取数据,不必等待硬盘工作。希捷、日立、三星、富士通和东芝是混合存储联盟(Hybrid Storage Alliance)的五个创始成员。该组织旨在“将混合硬盘技术具有的优点惠及计算机生产厂商和最终用户”。随着闪存芯片的成本的下降,混合硬盘的价格将会大幅下降。
另外,存储的数据分布与访问模式将越来越收到关注。在存储技术发展中,一个基本问题是数据在存储介质上如何分布,能提高数据的访问速度。同样,什么样的访问模式,可以提高数据访问的速度。这些问题都正在受到业界的关注。