Chinaunix首页 | 论坛 | 博客
  • 博客访问: 545053
  • 博文数量: 302
  • 博客积分: 10010
  • 博客等级: 上将
  • 技术积分: 4765
  • 用 户 组: 普通用户
  • 注册时间: 2008-07-15 23:10
文章分类

全部博文(302)

文章存档

2011年(1)

2008年(301)

我的朋友

分类: 服务器与存储

2008-07-31 23:49:56

近几年来,像数据压缩和重复数据删除等等这样的数据缩减技术已经逐渐开始盛行起来,尤其是用于数据的备份和归档。那么这种趋势会在主存储领域继续吗?

尤其是在有很多冗余数据的备份过程中,数据缩减技术的应用非常普及。最近几年在数据中心领域,重复数据删除技术已经逐渐从一个晦涩难懂的技术术语发展成为受到人们青睐的名词。这项技术删除冗余数据的功能为备份存储以及许多形式的归档存储提供了诸多好处。设想一下每周进行一次的完全备份,20×的存储效率是很常见的。

主存储的特殊性

然而,将重复数据删除技术应用于主存储并不那么简单。以下是计划将重复数据删除技术应用于主存储的特殊要求:

1、主存储是性能密集型的

主存储是动态的,如果重复数据删除技术的应用会对性能造成影响的话,这是不能接受的。重复数据删除技术不仅需要高效、快速而不会对性能造成影响,而且还能够对那些实时动态数据进行带外处理。

理想的方式就是即时产生的数据组在后台进程中进行重复数据删除,这样就不会对性能造成任何影响。而且这种技术可以以不同的效率层级来进行重复数据删除或者数据阎所——数据压缩率越高,那么数据重新写入时对性能造成影响的可能性就越高。虽然近线系统的缩减数据组的处理速度足够快不会对性能造成影响,但是现在这种技术实际上并不存在。

2、主存储是唯一的

在主存储内进行数据缩减要面临的另一个挑战就是数据通常都是唯一的。这与备份数据相比较有些不同。在备份中,尤其是在每天或者每周进行的全盘备份中,数据冗余率非常高。虽然数据的产生存在某种共同点——例如,对同一个数据库的“额外”复制——就大部分来说,这里的数据并不像备份数据甚至是归档数据那样冗余。

随着磁盘归档和磁盘备份变得越来越普遍,他们实际上让保存在主存储中断额冗余数据越来越少。在过去人们将多份数据库或者文件组的副本保留在主存储中来“以防万一”。现在这些副本很容易就可以被传送到磁盘归档或者磁盘备份设备中。

附注:现在用户期望的20X甚至更高的存储效率在主存储中是不太可能的。比较现实一些的预期值应该在3X~5X之间。

3、主存储被压缩

除了唯一性之外,大多数的主存储数据已经被保留成压缩格式了。例如图像、媒体文件、SEG-Y这样的行业特有数据组等文件在保存到主存储之前就经过预压缩处理。即使是Office软件产生的最新数据文件也要经过预压缩处理。这些需要经过预压缩处理的文件往往是企业中容量较大的数据组或者增长最快的数据文件。

为了处理这种生产数据唯一性和预压缩的特性,一项有效的主存储数据存储压缩解决方案必须更深入地对数据进行处理。虽然近线数据缩减技术在备份和归档方面有着明显的优势,但是在生产存储(Production Storage)领域带外流程管理更具价值。

如果我们不用面临快速缩减数据的压力,那么就可以将一部分时间花在检查复杂的复合文件、在存储环境内的上百份文件中寻找相似性。这种后台数据处理可以让我们将一部分时间放在了解文件存储的具体格式(例如.jpg);数据是如何被嵌入到另一份文件中的(例如一份PPT文件);原始数据和嵌入到的文件是如何被优化后用于数据缩减的。

4、主存储变得越来越廉价

在主存储中的重复数据删除技术面临的最后一个挑战就是磁盘驱动器成本的不断下滑。“扼杀”HSM和ILM的条件因素有也可能会成为阻碍数据缩减应用于主存储的因素之一。随着越来越多的大型存储制造商开始推出1TB硬盘,用户购买大容量存储设备变得越来越容易。

从主存储数据缩减技术中获得价值

首先,看一看对主存储进行重复数据删除的价值,被处理的数据组必须是大容量(可能大于20TB),这样才能看到显著的投资回报。例如,将50TB的数据缩减到10TB或者将10TB的数据缩减到2TB,用户显然对前者更感兴趣。

第二,除了物理存储成本之外用户还要考虑其他一些因素。通过提高存储效率,能耗和占地空间都有所降低。对许多数据中心来说,面临的最大难题就是能耗和空间。

此外,尤其是谈到带外处理解决方案,如果数据可以随意在带外读取的话,这对备份存储和网络带宽利用率都有着非常积极的影响。

对优化数据和压缩数据的传输和保留可以大大节省备份窗口以及备份存储。数据可以被发送到基于磁盘的inline重复数据删除处理,这就避免了对数据的重复压缩。以这种方式进行压缩的数据容量越来越小,更有利用将其传输到WAN网中。

理论上来讲,如果你用一个500GB的外置硬盘来保存2TB的数据,那么这对那些需要将大型工程数据从一个地点带到另一个地点的用户来说最合适不过了。同样地,这些数据能够被快速恢复;压缩数据在传输回网络的过程中占用的带宽也更小。

此外,这种技术不会被一个卷限制住,或者局限在一个阵列控制器内,它可以用于由多厂商提供的多个阵列控制器之间,提高冗余匹配的几率。

阅读(1055) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~