2008年(8065)
分类: 服务器与存储
2008-09-01 18:51:25
“我们在我们的系统中使用的驱动器的数量以及我们在那些驱动器上储存的数据量在过去十年发生了急剧的增长,计算机的故障总量也增加了。”Garth Gibson这样说到。
设定一个新的标准
Gibson是领先的大型存储设备厂商Panasas公司的创始人兼首席执行官,据Gibson说:“对于企业和科学研究界的大型用户来说,2007年存储设备业界发生的最重要的事情是并行NFS标准草案的完成。”他说他预计这个标准草案将于12月2日被提交给因特网工程特别工作组(Internet Engineering Task Force)审核。Gibson表示:“那将创立一个多源的、竞争性的、标准化文件系统,可以满足各种Peta级系统的要求。”他还指出,到目前为止可缩放文件系统界还没有形成一个开放的标准。 “因此,各个解决方案都有新机会。”
这项标准其实是下一代NFS即NFS 4.1,它是为了替代NFS 4.0而开发的。Gibson说:“在4.1标准中的所有东西都是可选择的,因此你可以象往常一样继续使用NFS 4.0,并且开始体验新功能。”Gibson说,对于那些要求高性能、可缩放存储系统但是不愿意进行巨额投资购买需要经常进行升级的所有权系统的企业来说,他相信新的开放标准最终会提供一个更好的投资回报。
弥补介质故障
为了解决计算机出现的故障,并试图在更低故障率条件下建造大型存储系统,磁盘驱动器厂商们正在不断对产品进行完善,研究人员们也不断研究开发出新的技术。
Gibson说:“企业们将重新认识规模的含义,它们将采取措施改善存储系统在故障方面的容许量。”那些措施包括加快维修系统的速度、大规模并行重建数据、增加对检查点、完整性代码和纠错码的使用以防止出现更多种类的故障,并将RAID磁盘的故障容错率提高2倍到3倍。 虽然Gibson避免将这些故障称作是重要故障,但是他声称这表明了提供更强大的纠错机制已经形成一个总体趋势。
更重要以及更值得一提的是,驱动器会变得更加可靠。不过问题仍然存在,我们在系统中使用的驱动器的数量和我们在驱动器上存储的数据量在过去10年里发生了急剧的增长,这就导致故障总量也增加了很多。
企业和研究人员们特别关心的问题是介质故障率,也被称作无法修正的读误差或者潜在介质故障。虽然这个问题并不是经常发生,但是时不时尤其是当里在使用Peta级系统时还是会不时发生这样的故障并引发重要问题。
例如,Gibson解释了这样一种情况:
他说:“让我们假定里在一个RAID种配备了14个磁盘,而且其中一个出现了故障。现在你需要读出13个磁盘的所有内容。 这个磁盘的容量可能是1TB。也就是说你要想重建系统必须读出13TB的数据。 一般,在数据读出量达到10TB到100TB之间时可能会出现一次介质故障。因此,也就是说在更低质量驱动器的重建过程中,你很可能无法读到所有的内容。 可能只有一个扇区读不出。即便是采用更高质量的驱动器,在10次重建中仍可能会遇到1次这种问题。”
“如果你在重建过程中无法读出某个磁盘扇区的内容,哪怕你只丢失了十亿分之一的数据,你也无法进行重建。在目前,当你在重建过程中遇到故障时,是没有任何解决办法的。然后你可能不得不去找厂商,然后由生产厂商的技术人员设法弄清楚是哪个扇区出现故障,然后想办法修复它。”
那么厂商们为什么不能进一步减少、消除或者补偿潜在介质故障呢? Gibson说,问题是市场希望能够从同样的投资中获得更多的信息。至于具体的做法,厂商们必须将数据更紧密地包在一起。 如果它们不需要保证返回给你的数据的正确性,它们可以迅速返回。因此,它们不能返回正确数据的比率是它们可以以多快的速度来提升容量以及在同样的投资下能够提供给你多少数据时所面临的一个限制。”
厂商们可以将数据压缩得更紧密一些。但是Gibson说,如果厂商们那么做的话,可能就会发生故障率上升的情况。因此,它们在进行数据压缩的时候,必须控制相应的故障率处于可接受范围内。
结果,包括Panasas公司在内的大型存储设备厂商将开发新的保护机制来应对万一发生介质故障时将故障的部分隔离开,对于企业用户们来说,这可是大大的好消息。
从失败中吸取教训
在Peta级数据存储业界的另一个重大进步是计算机故障数据存储机构(the Computer Failure Data Repository)的建立。最终用户们可以在这里发布它们的故障记录供其他人研究和学习。Gibson说,那些信息是很重要的,因为改善系统质量的正确方法是真正理解它们是如何发生故障的。
Gibson说,虽然计算机问世已经有许多年了,但是大多数计算机科学家对于故障机制的认识却比较有限。
由于厂商们常常不愿意或者不能够共享故障数据,因此计算机故障数据存储机构鼓励并依赖最终用户来提供那些故障数据,比如Los Alamos 国家实验室 、太平洋西北国家实验室、劳伦斯伯克莱试验室和国家能源研究科学计算中心等。Los Alamos国家试验室已经提供了试验室的23个不同集群在9年时间中所遭遇的故障的数据,事实证明这些数据对于研究人员们来说是非常重要的。
他认为,通过弄清楚大型计算机系统或者群集系统为什么以及如何发生故障,厂商们就可以开发出相应的新技术来减少故障,这样厂商们就可以在市场能够承担的价格范围内生产出更大、更快、更高效和更可靠的计算机和存储系统。