分类: 服务器与存储
2008-07-19 22:00:08
数据归档:数据量激增
在谈到IBM的归档中心时,EGS的资深分析师Brian Babineau在一份电子邮件中说到,"该中心在世界上不多见的,它专注于归档过程,并进一步把数据与传统的备份分开,客户应该认识到,归档是不同与备份的,IBM正致力于帮助做到这一点"。据ESG的调查显示,厂商们将在未来五年内归档200多Exabytes的数据库,档案和电子邮件。而据其他的研究表明,归档业务的数据在2012年可能超过30多个PB,或者超过3000万GB,世界各地的档案,数据库和电子邮件存档能力的年复合增长率将会高达73%,其信息总量近2万亿个档案柜的信息量。
虽然,在法规遵从领域,有类似美国的HIPAA条例规定医院和诊疗所对医疗纪录和图片要保存7年,儿科记录至少要保存25年这样的条款,但是,越来越多的用户发现,数据归档的重要性在于,找到数据的价值。
Babineau说:"IBM意识到,这种需求不仅是一种时尚,厂商们需要从一个长期的角度来判断什么时候需要归档关键业务信息"。就像IBM存储系统的全球营销经理Charlie Andrews 所说"将数据扔到数据箱里的时代已经过去,归档将会成为对每个行业都有意义并与之相关的主题。"
事实上,在我们近期与用户与厂商沟通的过程中,大家都表现出了对于归档的急切心情,与一年前我们所收到的反馈不太一样的是,用户开始逐步从将归档作为法规遵从的"副产品",转变成为了利用数据,进行数据挖掘的等工作的"主存储"。
不过,虽然仍然是归档工作,我们依旧注意到了一些与去年不太相同的地方。
归档数据日益复杂
BridgeHead Software前两天推出了一款新的归档解决方案,并承诺这个方案将使得存储和数据检索变得更加容易,需要的时间更少,更具成本效益,尤其是针对那些需要保存和整理大量的堆积如山的数据的健康医疗机构来说尤为适用。
这是一个面向医疗健康机构的图片归档和通信系统(PACS)的归档解决方案,对于大多数医院和健康医疗机构来说,有无数的医疗影像被存储在其PACS中,并由此带来一个问题:病人有可能在数月甚至数年之后,回到医院来复诊,为了医疗诊断的正确性,医生必须去调阅病人的病历--很难想象,这时候的用户病历和X光片会在主存储或是备份系统上,可以很肯定地说,用户的数据已经去了"PACS的归档系统"。
但是,对于老年人、年轻人、慢性病和各种不同的病人来说,他们在时隔多年后的病历的调阅概率是一样的么?
答案肯定是否定的,这就像目前BridgeHead的做法是将最活跃年轻人的图像数据都存储在高可用的主存储上,而对于老年人的资料档案,查看频率较低,因此存储在成本较低的存储设备上去--厂商也看到了不同的数据价值,但是,这实际上只是普通的分层存储,不过,我们想到了更多的话题。
归档,可以分层么?
很多人觉得,归档就是归档,这还有分层的需求么?
就像分析师们所言"厂商们需要从一个长期的角度来判断什么时候需要归档关键业务信息。"我们认为,分层归档或许现在是一种畅想,但是在未来,其可行性还是有的。
对于分层归档来说,其关键点首先在于两种设备的配合使用:物理磁带库和虚拟磁带库(VTL),我们都知道,VTL的读取和写入速度都是非常快的,这肯定是物理磁带库难以比拟的,大量的用户去应用VTL的原因是其归档体制必须要去"面向磁带",因此,虽然这二者后面一个是磁盘一个是磁带,但是对于用户来说,却并无二样--但是,性能和耗电却成了关键。
由于VTL性能更好--当然,也更耗电,而磁带虽然耗电较小,也并不十分的"热",但是读取性能确实相差甚远,因此,这样的差异造成了而在在归档上的差异。绝大部分的用户,目前的应用模式是,将数据临时保存在VTL上1~2个月,然后再去物理磁带库做归档,转存到真实的磁带上,但是,对于医院来说,这样的归档真的试用么?
我们可以假设一个例子,一位病人去医院看病,医生在治疗之后,要求用户每6个月去医院复查一次--这显然超过了一般VTL进行临时归档1~2个月的周期,那么,我们现在要去医院的磁带库去找用户的资料么?或者,我们让用户每次来都带着无数的之前的X光片和病历?看起来,这点不太合适,对于用户来说也太不方便了。
那么,在类似Copan这样的厂商在尝试利用MAID技术,以及希捷、西部数据等硬盘厂商推出的更节能的硬盘,并在持续不停的改良VTL的耗电问题之后,我们是否可以尝试将那些超过VTL的归档周期,但是又不得不每隔一段时间就要调取的数据--比如购买汽车后,每隔半年就要进行跟踪的汽车制造商和4S店来说,根据数据的特点,来决定是把这些归档数据放在VTL上还是物理磁带库上?
当然,我们对于这样的归档,只是一种想象,或许,会有人告诉我们,真实的存储世界有着更好的办法,抑或是指出别的什么问题,我们希望您能够反馈给我们,谢谢。