2008年(8065)
分类: 服务器与存储
2008-12-03 16:44:22
在备份和灾难恢复领域,HPC引起了两大问题:大量数据、大量文件。
HPC应用程序在处理包含地震信息或基因信息的文件时,会产生大量的工作负荷或数据。Gartner的咨询师David Russell说:“这些文件大得令人难以置信,传统的备份方法并不适用,或者需要花费大量时间。”例如,他指出一些HPC文件可能具有几千兆的字节。
一些HPC程序还会产生极为大量的文件。Russell指出:“可能有上百万的文件,如何解释这些文件,如何通过和文件系统查看文件的变化,都是非常艰难的问题。”将数据存在磁盘中,或者让数据通过服务器和,都需要很长时间。他说,简而言之,直接利用传统的备份工具备份HPC很容易引发灾难。
Russell指出,HPC管理员既要使用基于阵列的快照和远程复制等技术,又要使用重复数据删除等数据精简方法,才能替换传统的备份工具。但是,Russell也指出,重复数据删除技术并不能精简所有的工作负荷。例如,当图像已经处于压缩状态时,就无法进一步精简了。
Ocarina Networks等供应商仍提供压缩技术,Russell说:“这些技术能逆向还原大量文件,查找冗余。”有多种方法可以改善这个过程。
对备份管理员而言,HPC中大量的文件仍是一项最大的挑战。“如果你拥有大量文件,文件又有大量I/O周期,那么询问所有的文件,即使是在晚上进行也需要花费大量的时间。”Russell说:“我听说一些HPC程序需要花费30个小时完成一次完全备份,而其中28个小时只是在扫描并查看哪些文件发生了变化。”
Russell指出,如果资源不受限制,那么存储管理员就能拥有必需的磁盘、电力、物理空间,从而处理所有的备份任务。但是,HPC环境经常向外扩充,许多服务器需要分布式计算数据,这样备份工作就更加复杂了。这就意味着备份工作需要彼此协调,因为正如Russell所说:“你总不希望25台服务器具有完全不同的时间点。”他指出,备份必须协调,可以通过“强迫法”清除缓冲,设置检查点,从而实现协调。
HPC能容忍短暂的停机时间
存储分析公司The Mesabi Group的存储分析师David Hill指出,对许多HPC程序而言,用户并不在意短暂的停机时间,因为许多计算密集型的工作实际上是批量完成的。也就是说,用户在工作完成之前无法看到结果。“如果完成工作需要1个多小时,那么中间少了5分钟,你能感觉得到吗?”Hill说:“答案是否定的。”
Hill认为:“这类工作真正需要的是检查点/重启性能,计算环境中存储器的状态会定期写入磁盘,因此可以重新启动。”
Hill认为,实施HPC的公司愿意针对远程灾难恢复站点,采用双主动式(active-active)故障转移策略,既对本地问题进行操作性恢复,又对远程站点实施灾难恢复;不过,这项工作需根据时间价值和数据价值而定。Hill指出,还可以在本地实施CDP,同时使用VTL和标准的备份恢复包。