2008年(8065)
分类: 服务器与存储
2008-05-28 15:31:56
保障磁盘的稳定工作是存储系统乃至整个信息系统安全运行的重要环节,每一家公司的系统管理员都非常重视磁盘的稳定与否。我们会选择可靠性高、性能好的光纤磁盘来代替稳定性较差的SATA磁盘,同时各大磁盘厂商也都提供了磁盘的正常使用寿命和损坏频率。但是,这些厂商提供的资料可信吗?
最近,美国卡内基美隆大学在圣荷塞举行的第五届文件和存储技术讨论大会上,提交了一份有关磁盘工作状况的调研报告。报告称:对一个具备100,000块磁盘的环境进行测试的研究表明,客户更换损坏磁盘的频率要远高于厂商评估的平均无故障时间(MTTF),同时,该报告还说明,传统观念上认为昂贵的光纤磁盘的可靠性,要高于价钱相对便宜的SATA磁盘是没有任何根据的。
这份调研报告表明,光纤磁盘和SATA磁盘的可靠性比较令人吃惊,它使得某些应用由FC磁盘迁移到SATA磁盘的趋势更快了,例如近线存储和备份等应用,这些应用对存储容量和价格非常在意,而性能却并不是十分重要。
此外,还是在这次存储技术讨论会,另外一次针对Google公司超过100,000块磁盘环境的数据中心的研究调查表明:温度似乎对磁盘的可靠性没什么影响,尽管各厂商和用户都在其拥挤的数据中心想尽办法使温度降下来。同时,该报告还告诉客户,在他们实际的操作环境中能够预测磁盘可靠性的信息是多么的少,也告诉他们面对各种各样的磁盘该如何选择。
真实的世界和数据规格
根据卡内基美隆大学的调研报告,在一些大的生产系统上,在SCSI、FC和SATA磁盘上进行高性能运算测试和Interbet网络服务测试表明:这些磁盘在实际环境中的更换率为2%-4%,在有些环境中居然达到13%,而这些磁盘规格表上的MTTF都在1百万小时到150万小时,也就意味着这些驱动器的实际故障率至多为0.88%。
卡内基美隆大学计算机系副教授,同时也是这次调研报告的合著者之一的Garth Gibson,非常谨慎的指出这个调研报告所跟踪的磁盘故障概率并不是必然的。但是这些情况可以帮助用户断定哪些磁盘驱动器出现了故障、哪些需要替换。
同时他说明,他没有任何一个特殊厂商磁盘的故障信息,这份报告的目的不是告诉用户如何挑选最好的或者最坏的厂商,而是帮助这些厂商改进他们的磁盘驱动器的设计,更好的测试磁盘的可靠性。
他给各存储厂商和分析师回馈中也指出,返厂修理的磁盘驱动器中有接近一半其实在实际工作中也还是不错的,造成这些故障其实也还有很多外在的因素。例如用户恶劣的机房环境、比较密集的随意的读写操作都将导致磁盘驱动器这些机械组件要比预想的磨损程度更重。
磁盘厂商的态度
对于这份报告,磁盘厂商们有自己的态度。
全球领导磁盘厂商希捷的发言人认为:“探究磁盘驱动器发生故障的真实原因相当复杂,它要求一个较详细的故障分析来断定这块磁盘的机械故障在哪里。我们不仅要很好的理解磁盘驱动器使用的种类,也要了解使用它的操作系统以及它在什么地方、什么环境使用,还有它的工作量。”
日立环球存储技术中心发言人在邮件中说:“各种磁盘可靠性比率的问题是很难给出一个通用的标准答案的。我们在一个个别用户那里测试了我们的磁盘,在他的实际环境中,我们的测试结果令人满意。”
GlassHouse Technologies Inc的技术顾问,同时也是Framingham, Mass.的一个存储服务提供商Ashish Nadkarni说道,他对磁盘较高的替换率并不表示惊讶,因为各个厂商测试出来的结果是在一个理想的测试环境下得出的,而我们用户测试的实际环境里要受到空气中的热度、粉尘、噪音以及振动等因素的影响。
他还说到,他已经看到了全部磁盘驱动器的质量状况,以及因为价格竞争导致他们的磁盘故障率升高的情况。他强烈推荐用户从现在开始跟踪磁盘驱动器的报道,给各个大厂商以及大的影响力,迫使他们审查各自的测试过程。
FC vs. SATA
目前来说,用户包括整个存储业界普遍认为价格较高的光纤硬盘相比价格较低的SATA,拥有较高的可靠性和稳定性。这也是为什么单GB容量的FC磁盘的价格是SATA磁盘价格4倍的原因。
但是这份测试报告表明:没有任何证据说明SATA磁盘的可靠性比SCSI磁盘或者FC磁盘低。他们不赞成磁盘驱动器厂商歪曲任何事实。并且认为,如果厂商在他们的测试环境中添加各种的影响因素(如工作量后者环境影响)应该能够得到与实际可靠性更接近的结果。
在Milford, Mass.的企业存储组的分析师Brian Garrett说道,对于磁盘的出现故障他也并不惊讶,因为磁盘是个机械设备,有移动的部件、发动机、轴以及读写扇区。这些部件的使用与SCSI磁盘和FC磁盘所使用的部件基本相同。虽然围绕在磁盘驱动器的电子线路和物理接口有所不同,但这些因素对磁盘的可靠性几乎没什么影响。
他说:“厂商对FC磁盘的测试环境比SATA的测试环境级别更高,但是这份调研报告所说的磁盘可靠性测试环境并没有特别明显的不同。”
这些调查研究结果可能会刺激到用户的选择,比如,他们可以以一个很低的价格购买更多的SATA磁盘驱动器,以同样的保护级别更多的用来备份或者作为RAID配置的校验盘。
不过,Garrett还是非常谨慎的说,SATA磁盘驱动器仍然是备份或者特定内容归档的最好选择,因为这些像邮件或者医学影像的数据必须保存很长一段时间,并且需要的时候能够快速访问。他还说,FC磁盘驱动器仍会是业务交易处理等在线应用的黄金标准。
高温导致磁盘故障率升高?
在Google的数据中心,调研机构对超过100,000块的串行和并行ATA磁盘驱动器进行测试调研。和卡内基美隆大学的调研报告相似,如果磁盘驱动器通过维修程序进行替换而不是升级成一个大的磁盘的时候,它就被认为是出现了故障。
或许这份调研报告最令人惊奇的地方就是较高的温度并不会导致较高的故障率,它们之间似乎并没有什么直接联系。Google的一个工程师同时也是这篇文章的合著者之一的Luiz Barroso说:“这并不意味着磁盘的损坏一定与温度无关,但是它同样暗示了温度仅仅是影响磁盘驱动器生命周期的很多因素之一。”
Garrett说道,温度的快速改变,例如数据中心的空气条件由一个较高的温度迅速降至很低,同样会导致磁盘出现故障。
Google的调研报告同样发现构建于磁盘内部并且是一个很好的预测磁盘发生故障的SMART(自我监控分析和报道技术)技术还没有一个具体的参数或者一个具体的参数集。
要求最底线
Garrett说:“像Google或者一个大学的数据中心这样的用户,它们运行的数据量少于大规模的数据中心,因此他们每天的操作基本上没什么不同。所以对大多数用户来讲,磁盘驱动器的更换费用一般都是包含在维修保证期内的,所以他们预计在设备过了保修期,客户又必须在磁盘损坏之前决定是否增加保修期1-2年的时候,服务周期将成为唯一的问题。”
这份调研报告并未改变Tom Dugan保护数据的方式,Tom Dugan是Philadelphia的商业连续服务提供商,也是Recovery Networks的技术服务主管。他说:“如果厂商告诉我他们的磁盘的无故障时间是10万小时,我还是会用我以前的方法保护这些磁盘,如果他们告诉我这些磁盘的无故障时间是5百万小时,我仍然会用相同的办法保护他们,因为我必须臆断,每一块磁盘都有损坏的可能。”