2008年(8065)
分类: 服务器与存储
2008-12-03 16:48:06
目前,还很少有企业在内部开展数据净化的工作,这主要是由两方面原因造成的: 净化数据是一个相对敏感的话题,这让很多CIO选择了回避; 存储的成本在逐步降低,这给企业留存更多的数据提供了基础。但事实上,数据增长的速度已经大大超越了存储成本降低的速度,企业已经不能仅仅依赖IT技术来解决数据留存的问题。
在美国西卡罗莱纳大学,现在,信息部门已经为处理留存数据的问题设计了一整套的政策和指导方法。其实,西卡罗莱纳大学对数据的净化工作开展得也不是很早,早前他们也并没有意识到已经不能再完全依靠不断增加磁盘数量来存储不断增长的数据了。
一年半前,当部分法规遵从性计划在西卡罗莱纳大学开展以后,他们的系统专家Brent Zimmer便开始忙于与法律顾问和IT管理员们一起商量一个很重要的问题,那就是需要将哪些重要的数据资料保存下来,以及要将它们保存多久。
后来,他们发现,要决定留存哪些数据或是该丢掉哪些数据都是很困难的事情。因为企业深知,在法律诉讼阶段,迅速找到企业需要的各种信息是非常重要的。正因如此,这让很多企业和组织都忽略了一个普遍存在的问题——很多数据保存的时间过长了。
“以前,我们从来没有考虑过丢弃任何数据,即使在出现存储空间不足的情况下。”Brent Zimmer表示,“学校里很多人的电子邮件记录甚至可以追溯到1996年。”事实上,西卡罗莱纳大学的情况并不是什么特例,这种现象非常普遍,存储架构咨询服务公司GlassHouse Technologies的主管John Merryman也强调说: “很多企业和组织都保留了过多的数据,并且数据保存的时间也都过长了。”
当然,出现这种情况并不是没有原因的。“数据净化是一个很敏感的话题,因为人们通常会觉得在数据净化的背后会隐藏很多东西,这让很多CIO选择了回避。”John Merryman表示。
更何况,大多数企业认为,现在存储的成本很低,并且还会越来越低。这就导致了这样的现状——企业在购买越来越多的磁盘来存储越来越多的数据,而不是花时间去研究企业究竟需要哪些数据。可以说,企业越来越依赖于IT技术,并从技术的角度来解决问题; 而不再是从业务层面上出发,并从规章和制度上进行改革。
“不过,由于企业要管理的数据越来越多,这就难免会加大管理的难度并引发数据管理上的风险。每年20%到50%的数据增长已经让企业不得不改变原有的数据处理方式。”John Merryman说。据GlassHouse的调查显示,企业每保存1000GB的数据,就要为此花费100万到300万美元。“因此,即使企业想要留存有用的数据,也应该是越少越好。”John Merryman补充说。
同时,Gartner的调查报告也显示,数据的增长速度现在已经超过了存储成本的下降速度,这还不考虑留存数据所带来的其他成本。据Gartner的估算,每名员工平均每年产生10GB的数据,如果每GB存储需要5美元,那么一家拥有5000名员工的企业需要在五年的时间里付出至少125万美元的存储成本。
此外,由于很多企业还要将数据进行不同的备份,比如测试数据、操作数据以及灾难恢复备份等,因此数据膨胀的问题已经非常严峻。即使抛开成本问题,如果永久地保存所有数据,当企业需要调用这些数据信息时也会变得无从下手。
从最简单的步骤开始
现在,是企业该考虑净化自己数据的时候了。此外,制定有效的数据留存政策和指导方法对于企业净化数据的工作会很有帮助。当然,在净化数据的过程中不要大动干戈,而是要从最简单的步骤开始。
John Merryman建议,当企业解决数据留存问题时,尤其是开始对数据进行净化时,没有必要大动干戈。“企业不需要查看所有的数据,而是应该从应用程序或是业务层面以下的部分开始,制定政策和指导方法来决定该留下什么样的数据以及保留多久。”John Merryman说,“此外,要把政策以书面的形式表达出来,这样,理解和执行起来都会比较容易。”
很显然,在企业中会存在很多不同种类的数据,比如电子邮件数据、应用程序数据和文件数据等,最好能够按照一定的规则把它们分成10到30种类别,当然这种划分也不要过细。“此外,最好将规则制定得更宽泛一些,比如强调是将‘账户数据保存6年’,而不要说‘这份年度报告需要保存5年’。”Merryman建议说。
此外,除了将哪些数据保存是企业需要商榷的一个重要问题外,将数据保存多久也非常重要。据ESG的调查显示,在企业和组织中,文件、电子邮件以及里的数据需要留存的时间在不断加长。ESG的分析师Brian Babineau介绍,大部分企业都将这几种数据留存4到10年的时间。
我们面前提到的西卡罗莱纳大学就是从最简单的步骤开始了自己的数据净化工作,事实证明这种方式很有效。他们首先设定了电子邮件、医疗记录和安保录像等数据留存和净化的政策,比如,校长和各学院院长的电子邮件数据保留7年,教授和普通教职员工的电子邮件数据保留3年。并且,他们把这些数据全部转移到了一个新的系统中,该系统使用的是Enterprise Vault存储以及Centera内容寻址存储阵列。
Zimmer介绍说,我们把数据转移到Centera内容寻址存储阵列上以后,主要存储成本减少了40%到50%。“在使用Centera之前,我们主要是依靠备份来保留数据的。由于是以每日快照的方式收集数据,某些数据很可能会在快照提取之后进入,所以这种方式存在潜在的数据丢失风险。”Zimmer说,“即使需要的数据都能在磁带上找到,保留这些数据的成本也是非常高的,尤其是那些需要保留一年以上的数据。”
“并且,以前,有些时候为了给实验室寻找某个在磁带上保存着的电子邮件数据,IT部门的同事很可能要花上一个星期到两个星期的时间。”Zimmer补充说。
事实上,在研究Enterprise Vault能够带来多少投资回报的时候,西卡罗莱纳大学的IT部门粗略地估算了一下——以前,如果要恢复一个每月备份一次、保存了一年的员工电子邮件数据的话,起码要花费80个工时; 但在使用存储归档系统之后,这个时间将会减少到15到20分钟,而且还能确保准确无误地找到每一份电子邮件。
此外,现在,西卡罗莱纳大学的安保录像资料只保存30天; 而医学院病人的资料则需要在病人死后保存20年。而这些数据已经都不再保存在主存储器上,而是存档在Centera设备上,于是它们也就脱离了备份环境。
待解的难题
当企业开始进行数据净化时,无疑还将面临更大的挑战,比如如何制定更合理有效的留存政策,如何将无用的数据真正净化干净等。不过,企业至少应该明白,净化数据比将数据存档到廉价的磁盘上的可靠性更高,且成本更低。
无疑,制定数据留存政策对于企业来说是非常棘手的任务,并且这项工作还会变得越来越困难。Zimmer就表示: “很多时候,我们不知道很多不同种类的数据应该保留多久。”Gartner为此提供了一份参考,在其最新的分析报告中指出,在制定数据留存规则时,减少数据量的关键在于“内容评估”的过程,而此过程包括内容的使用模式、内容的自然属性以及业务目的等因素。
减少数据量最简单的方法就是删除自己不需要的数据,但这说起来容易,做起来却很难。实际上,除了电子邮件以外,大部分数据信息都不可能被轻易删除。“更何况,绝大部分的早期系统都没有提供数据净化的功能,而新的也很少提供这种功能。并且,删除这些数据也是十分复杂的过程。”Merryman表示。
但是,如果企业抛开软件系统来看待这些数据的话,就会不知道该怎么办才好,并且企业也不希望将这些数据脱离软件。“不过,却很少有企业会为了数据留存方面的需求而调整自己的基础架构。”Merryman说。在纽约的一家银行里,有很多数据文件连扩展名都已经不知道是什么了,这些数据也不可能再通过现有的软件进行访问,却还一直保留着。
此外,在数据净化的过程中的确还存在着一大隐患,就是不能保证可以删除某种数据集中的所有实例。“你可能会认为删除了自己过去所有的电子邮件就大功告成了,但是你却不知道,它们很可能还保存在企业的上,事实上这些数据仍然存在。”ESG的Babineau说: “因此,很多企业认为,既然不能保证将所有的备份都删除,那就不去删除了,因为即使删除了这些数据,它们也很可能还在某个没人知道的地方保留着。”
以现在企业的数据留存状态来看,净化数据令很多人望而却步,但是Merryman却并没有被困难吓倒,从制定净化策略开始,西卡罗莱纳大学开始了他们精简数据的进程。“不要在一开始就试图在很老的应用上净化数据。”Merryman建议说: “如果你面对的是高风险、高数据量的软件,那么你将会面临更大的危险; 如果你的目标是所有的应用程序,那你很可能永远也完成不了数据净化的任务。”
此外,Merryman还提醒,不要忘了还有业务逻辑。“在层叠的存储环境中,在业务过程中净化数据比将数据存档到廉价的磁盘上的可靠性更高。”Merryman说,“永久保存和管理那些没有经过筛选和净化的数据需要极高的成本。”
不过,现实情况是,大部分使用层叠存储结构的企业认为能够先存储数据,然后再进行净化。Merryman则表示: “这恰恰是数据净化的问题所在,就好像清理很久没去过的地下室一样,总是有点晚了。”因此,Merryman提出了这样的疑问,既然企业在保存数据上投了资,那么当企业不需要某些数据时,为什么不在销毁数据上也适当投资呢?
四种方法精简数据备份过程
很多方法可以帮助企业简化数据备份和恢复的过程。究竟要采用哪种方法取决于企业的工作性质、公司规模、站点数量和公司需求等。换句话说,没有哪种方法适合所有情况。企业首先应该看看自己的运作和数据归类情况,因为这些问题会影响到存储环境中的备份和数据留存策略。下面我们按自上而下的顺序给出一些建议,从影响大部分数据的问题开始,以更低的成本发挥更大的作用。
方法1: 根据企业需求部署数据保护策略
数据保护中最重要的一点就是确保数据的保护级别与企业需求相一致,包括数据种类、备份频率、数据保留时间以及其他影响服务级别的因素。数据保护的服务级别通常由恢复点目标(RPO)和恢复时间目标(RTO)衡量,这两大标准指定了允许丢失的数据量和数据恢复时间。当然,企业的目标并不是使RTO和RPO最小,而是使它们与企业需求相一致。
一般情况下,针对不同的应用程序和数据种类,IT人员都提供相同级别的保护。但是,这种方法对企业的关键数据而言,保护级别太低了; 而对于不太重要的数据而言,保护级别又太高了,因为有一些数据需要的保护级别很低,甚至有一些根本不需要保护。因此,首先要弄清楚数据需要哪类保护级别,才有可能减少受保护数据的数量,实现为重要数据提供更高保护的同时而不增加成本。
此外,采用更规范的数据留存策略将有助于简化备份和恢复的过程。有些企业就明确要求“每周对主目录数据进行五次完全备份”,但是,更多的企业却做不到这一点。
方法2: 集中备份
集中备份包括集中备份一个站点、几个站点、操作环境以及其他。审计备份和恢复过程应该关注整个企业,包括企业平台、应用程序、商业程序、商业小组等; 并减少或撤除远程站点的设备,尤其是那些仅用于备份的设备。在状况良好的情况下,诊断、维护和支持远程设备非常困难,而撤除设备则有助于简化整个数据保护过程。
方法3: 采用基于磁盘的备份策略
在备份过程中,企业把大部分时间都花在了的管理上,包括加载、卸载、标记、将磁带迁移到异地以及取回旧磁带重新利用。而为了实现备份和恢复,在D2D2T架构中,企业通常将磁盘存储部署成VTL或磁盘缓存。因为技术提供了即时的数据复本,也可以在恢复中被采用。不过,现在,保证应用程序与数据复本的一致性,已经成为了一个非常困难的问题,很多供应商都在提供相应的技术来解决这个问题。这些技术虽然能提高备份速度,尤其是恢复速度,但却往往忽略了一个更大的问题,即如何判断应该备份哪些数据或多久备份一次数据。
方法4: 考虑备份服务
企业也可以考虑采用在线备份工具。对于小于1TB的备份组,这种方法可供选择。而对于更大容量的数据组,在线备份就是很好的选择,但同时需要考虑变化速率、连接速度等问题。通常,具有大型数据中心的企业或者IT人员较少的企业会发现,在线备份是很好的选择。