Chinaunix首页 | 论坛 | 博客
  • 博客访问: 11701142
  • 博文数量: 8065
  • 博客积分: 10002
  • 博客等级: 中将
  • 技术积分: 96708
  • 用 户 组: 普通用户
  • 注册时间: 2008-04-16 17:06
文章分类

全部博文(8065)

文章存档

2008年(8065)

分类: 服务器与存储

2008-06-23 15:49:11

数据分级存储,是指数据客体存放在不同级别的存储设备(磁盘、磁盘阵列、光盘库、磁带库)中,通过分级存储治理软件实现数据客体在存储设备之间的自动迁移。数据迁移的规则是可以人为控制的,通常是根据数据的访问频率、保留时间、容量、性能要求等因素确定的最佳存储策略。在分级数据存储结构中,磁带库等成本较低的存储资源用来存放访问频率较低的信息,而磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息。
  
    数据分级存储的工作原理是基于数据访问的局部性。通过将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的总体性价比。
  
   
一、分级存储的必要性
  
    IT企业总是要面对增长起来无休无止的数据量。各种应用都在创建越来越大的文件。用户也很少删除数据和存档,这就导致要访问旧一些的文件已经变得非常困难。因此,目前的潮流是购买更多的软件。然而,这种解决方案产生了非常复杂和笨拙的存储环境,不仅需要更多的维护和治理,而且需要更多的金钱来维持。
  
    事实上,数据具有生命周期,不同的时期有其存在的不同意义。在数据刚生成的数日内,访问频率最高,为企业产生效益和收入,带来的价值也最高;随着时间的推移,访问频率降低,数据的价值也随之下降,低访问频率的数据量远远超过高访问频率的数据量,假如全部用企业级存储产品来存储所有数据,费用非常高,也没有必要。不同生命周期的数据,由于提供给企业不同的服务目的,企业应考虑如何以最低的成本获得最高的价值,而不是采用以往单纯的"购买更多磁盘"的解决方式和态度,徒增存储费用和治理复杂程度。
  
    总之,企业业务数据从产生到存储、利用、归档,最后超过存储期限被删除,数据被读取的频率会逐渐下降,数据存储的位置也应该随之变化,以提高存储设备的使用率,降低存储成本。因此有必要进行分级存储,企业在存储其要害业务数据时,采用昂贵的存储技术和方式,如RAID磁盘、复制、定时拷贝、多级备份等,确保数据高可用;当数据已经不再为企业带来效益时,将这类数据迁移到较便宜的存储介质上;最后,当数据"老化"到不再被访问时,应考虑将其删除或者迁移,假如是法律要求或政府规定等要保留多年的数据,应将其迁移到近线磁带库或者离线存储介质上进行归档,既安全又节省费用。
  
    同时,信息量的急剧增长,也使存储治理复杂性增加,数据的分级存储也是简化存储治理的需要。通过设定优化的数据迁移规则,能使重要数据和常用数据在最短的时间内访问到,使极少使用的数据备份在廉价的海量存储器中。
  
    二、分级存储的优点
  
    数据分级存储之所以重要,是因为它既能最大限度地满足用户需求,又可使存储成本最小化。数据分级存储的优点具体表现在:
  
   
1.减少总体存储成本
  
    不经常访问的数据驻留在较低成本的存储器中,可综合发挥磁盘驱动器的性能优势与磁带的成本优势。
  
    2.性能优化
  
    分级存储可使不同性价比的存储设备发挥最大的综合效益。
  
    3.改善数据可用性
  
  分级存储把很少使用的历史数据迁移到辅助存储器中,或归档到离线存储池中,这样就无需反复保存,减少了存储的时间;同时提高了在线数据的可用性,使磁盘的可用空间维持在系统要求的水平上。
  
    4.数据迁移对应用透明
  
  进行分级存储后,数据移动到另外的存储器时,应用程序不需要改变,使数据迁移对应用透明。
  
    三、分级存储的存储方式
  
    传统的数据存储一般分为在线(On-line)存储及离线(Off-line)存储两级存储方式。所谓在线存储就是指将数据存放在磁盘系统上,而离线则是指将数据备份到磁带上。但随着数据量的猛增,这种只使用在线和离线两级存储的策略已经不能适应企业的需求。近线存储市场近来成为热点,出现了一些存取速度和价格介于高速磁盘与磁带之间的低端磁盘设备,作为近线存储设备。
  
   
1.在线存储
  
    总体上讲,在线存储多采用高速磁盘阵列等存储设备,存取速度快,当然价格昂贵。在线存储一般采用高端存储系统和技术如:SAN、点对点直连技术、S2A等。高端存储系统具有一些"高端"属性,比如,高容量、高性能、高可用性、冗余性等,现在我们看到,这些特点已经不再是高端特有的了,许多中端产品也大都采取了这些设计。
  
    SAN技术的高性能依靠于三个重要领域的性能支持:存储容量、计算能力和传输能力。在传统SAN存储系统中,存储容量这一环节由于存储介质技术的快速发展已经得到了很好的解决。存储容量通过多磁盘容量的叠加已经能够达到数千TB的水平。而在计算能力与传输能力两个环节上,传统SAN却存在很多先天的弱点。最近在高端存储领域出现了两种新技术--点对点直连技术与并行存储技术。具体如下:
  
    点对点直连技术是EMC近期推出的一种全新的点到点互联架构,在性能方面,由于它采用了点对点对接,消除了总线或交换机方式造成的延迟,专用的数据通道意味着不会出现交换机竞争的情况,减少数据从存储位置传输到目标位置的延迟。它还具有32个独立高速缓存区,而且每个高速缓存区都具有独立的逻辑访问,可以为用户提供更强大的处理和访问能力。
  
    S2A是DataDirect Networks公司推出的并行存储技术。S2A没有采用传统的光纤通道交换机的交叉矩阵交换机制,它所采用的高度并行端口技术消除了交换机制所带来的不可避免的时间延迟,能够持续不变地提供布满端口带宽的数据吞吐量。S2A控制器内部的四个主机通道之间采用虚拟的并行体系结构,通过提供并行处理和并行数据读写的途径,使得在多主机的存储区域网络环境中具有非常高的不受多主机环境影响的使用性能。
  
    2.离线存储
  
    离线存储采用磁带作为存储介质,其访问速度低,但能实现海量存储,同时价格低廉。 
  
    以前用户有这样的想法:反正数据存放在磁带上面,性能都不高,只要在灾难发生时能够使用它们将需要的数据恢复回来就可以了。其实,这是很不正确的。要知道,用户的数据越来越多,原有的数据也不能丢弃,当这些数据逐年累积以后治理它们就成了一件十分困难的事情,而且还要进行磁带定期维护的工作。
  
    因此,许多磁带库厂商在这方面进行了加强,提供了完整的数据生命周期治理,专为数据密集型SAN环境而设计,尤其适用于高强度、大容量的数据访问和数据存储,减少了治理 SAN数据的时间和成本,从数据生成到其生命周期结束,其中的每一步骤都提供了相应的功能。这也说明磁带库治理更注重"智能"。
  
    3.近线存储
  
    随着用户需求的日益细分,人们越来越发现原有的两级模式(在线与离线)已经不能很好地满足用户的存储需求,在这两个"极端"之间有大量的空白,于是就产生了近线存储的概念。近线存储的概念一产生就得到了厂商与用户的赞同,定位于此领域的产品很快就纷纷出现,形成了近一时期最为活跃的中间层。
  
    NetApp推出的R100近线存储设备,获得巨大成功,仅1年时间在全球就拥有了100多个用户,总部署容量超过3PB。 
  
    Quantum推出的基于磁盘的产品DX30,能够模拟各类磁带库,保留了与存储治理软件的兼容性,而又具有比磁带库更高的速度,用户可以先将数据备份到DX30中,然后再转移到磁带上。
  
    以磁带产品知名的StorageTek公司在业界较早提出了数据生命周期治理的概念,并拥有针对数据的不同生命周期提供的相应的解决方案,包括磁带设备和磁盘系统及软件产品,以帮助用户"将适当的数据,在适当的时间,存储到适当的设备上"。
  
    Legato公司备份软件的最新版NetWorker7.0,引入了磁盘备份与磁带备份相结合的新方式,通过磁盘备份可以为用户提供更多性能优势。采用磁盘进行备份避免了一些磁带备份的弊端:磁带只能进行顺序读写,而且每盘磁带都需要完全倒回才可取出,加载卸载时间很长。磁盘备份解决方案还完全包括了"虚拟带库"的功能,而且可以在读一部分内容的同时进行写另一部分内容,因而可以实现了在设备进行备份时的恢复、搬移/克隆操作。
  
    四、分级存储的治理
  
    存储实现分级以后,在线、近线与离线存储存放的数据价值不同,在同一级别存储内部(比如在线和离线存储),存放的数据也应该不同,实现每一级别内的"分级存储"。如何将各个级别存储中数据统一治理起来便成了最为要害的问题。
  
    分级存储治理(Hierarchical Storage Management,HSM) 起源于1978年,首先使用于大型机系统。近10年来,HSM被广泛应用于开放系统的Unix和Windows平台。
  
    分级存储治理是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,然后将磁盘中常用的数据按指定的策略自动迁移到磁带库等二级大容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存储设备调回到上一级磁盘上。对于用户来说,上述数据迁移操作完全是透明的,只是在访问磁盘的速度上略有怠慢,而在逻辑磁盘的容量上明显感觉大大提高了。通俗地讲,数据迁移是一种可以把大量不经常访问的数据存放在磁带库、光盘库等离线介质上,只在磁盘阵列上保存少量访问频率高的数据的技术。当那些磁带等介质上数据被访问时,系统自动地把这些数据回迁到磁盘阵列中;同样,磁盘阵列中很久未访问的数据被自动迁移到磁带介质上,从而大大降低投入和治理成本。
  
    HSM应用也具备监测磁盘容量并在要害容量情况下作出反应的能力。这种软件经过配置后可以为某个卷设定一个最小的剩余空间,如20%。
  
    假如软件发现该卷的剩余容量已经不足20%,数据就会被从该卷移动至备用存储介质。这样便可以立即释放空间,治理员也可以在今后有空闲时再来解决空间的问题。
  
    由此可见,分级存储治理更多从降低成本、不影响数据应用效果的角度解决数据的存储问题。事实上,降低成本、提高效率已成为IT厂商追逐技术进步的一个目标。近线存储就是这种进步的产物。伴随单盘成本的下降,近线存储市场渐热,有业内专家猜测,不久的将来,近线存储技术将取代数据迁移技术,用户将以模拟海量空间的、更为安全可靠的磁盘介质保存历史数据。而成熟完善的数据迁移软件技术将更为恰到好处的融入到近线存储设备中,为近线存储技术的发展起到推波助澜的作用。
  
    五、信息生命周期治理
  
    现在我着重介绍与分级存储治理密切相关信息生命周期治理。
  
    目前,许多厂商和用户都认为,数据是具有生命周期的。Legato公司将信息生命周期划分为7个阶段,包括了数据从产生直至灭亡的全部过程。具体为:业务需求、采集/组织、保护/恢复、复制/镜像、共享、迁移/归档、删除。
  
    由于是一个"周期"的治理,因此,在这个周期的每个环节都要有相应的产品来满足需求,包括系统咨询、信息采集、数据保护、迁移、归档等等产品。在一定的时期,用户可能只会应用到其中的某个或某几个环节,但是,把整个信息系统作为一个整体来治理是一个必然的趋势。
  
    信息生命周期治理(Information Lifecycle Management,ILM)是StorageTek公司针对不断变化的存储环境推出的先进存储治理理念。
  
    ILM不是某个硬件或软件产品,而是评估和治理信息的存储方式。它教育客户平衡信息价值和治理费用,根据数据对企业生存的要害性以及企业发展带来的价值决定存储费用。信息从产生到使用直到灭亡,其全部过程都需要进行治理,因此,信息生命周期治理是用户发展到一定阶段的存储需求,只不过它是一种很复杂的需求,具体来说,就是如何建立一个更完整、更具有价值的信息系统,能够完全满足用户对于数据的以下五种需求:随时访问、按时间恢复、方便的共享、所有数据受到适当的保护以及按照一定的时间规定(比如法律规定)治理数据。
  
    ILM的核心是理解信息在其不同生命阶段中对企业的不同价值,帮助企业从战略高度来治理信息。那么,治理信息和治理存储设备有何不同?从治理设备的角度出发,CIO会不切实际地期望不断降低存储费用,同时要求高性能。随着数据量的不断增加,可用的磁盘容量不断减少,企业不得不无计划、被动地增加存储,导致系统环境越来越复杂,难以治理。从治理信息的角度出发,企业会根据信息生命周期的特点,将其存储在与自身价值相符、并与拥有者所需要的交流方式和服务方式相符的不同层次的架构里,通过有计划、主动地增加存储,不断降低复杂性并增加整个存储系统的可用容量。
  
    ILM通过存储、保护、治理、集成四个组成部分实现信息治理费用与业务需求之间的平衡,从而达到降低企业的风险和费用的目的。因此, ILM使企业实现了"适当的信息,在适当的时间,以适当的费用,存储在适当的设备上"。它从以下三个方面提升企业业务运营:
  • (1) 帮助企业治理不断发展产生的变化和碰到的困难,为企业降低风险;
  • (2) 提高企业的运行效率,降低运营费用,提高经济收益;
  • (3) 帮助企业更好地治理资源,在市场上具有更好的竞争优势。

    六、分级存储在电视台的具体应用
  
    凡是拥有巨大数据量的用户都可以从应用分级存储中获得更大利益,尤其是电信、气象、地震以及图像处理(电视台)等领域。以电信行业为例,在线业务系统需要在线存储;有些业务需要查询客户3个月或6个月以前的信息记录,近线存储就很适合;更久的信息同样不能删除,这就需要离线存储。同时,随着业务的不断进行又会产生新的数据,如何将在线、近线以及离线的数据统一治理好需要利用分级存储治理和信息生命周期治理技术。
  
    随着电视技术的发展,存储技术在电视领域得到了广泛应用。存储技术贯穿了电视节目的拍摄、制作、播出及存储等整个流程。非凡,随着电视事业的飞速发展,大量的专题片、系列片等自办节目越来越多,节目的制作成本也越来越高,但节目经费非常有限,拍摄制作周期越来越短,因此,素材资源的再利用就显得尤其重要。同一个素材很可能会被循环再用,重复使用多次。媒体资产在信息咨询时代,对于电视台,最重要的媒体实体就是历年来存储的视音频资料即电视节目,它已成为极具增值效益的一种无形资产。实现电视节目的良性治理将为资产持有者节约成本的同时,带来可观的经济效益。
  
    在物理层次上,电视台视音频素材的存储也有三种模式即:在线存储、近线存储和离线存储。
  
    电视台的在线存储设备永久连接在非线性编辑系统、硬盘播出系统等计算机系统中,并随时保持可实时快速访问的状态。在线存储设备通常具有很高的访问速度和良好的反应能力,适合访问要求频繁,并且对反应和数据传输都要求较高的应用。在电视台实际应用中在线存储设备一般采用SCSI磁盘阵列、光纤磁盘阵列等,用于存储即将用于制作、编辑、播出的视音频素材。
  
    电视台的离线存储设备或存储介质平时没有装在线性编辑系统、硬盘播出系统等计算机系统中,在存取数据时需要将存储设备或存储介质临时性地装载或连接到线性编辑系统、硬盘播出系统等计算机系统中,当数据访问完成时可以脱开连接。一旦断开之后,就可以更换存储介质。离线存储通常价格比较低廉,如磁带、磁带库、或光盘库等,可以将总的存储做得很大。但是由于离线到在线的存储介质的装载过程很长,所以离线存储一般用来存储不常用的冷数据包括制作年代较远的新闻片、专题片、纪录片、资料片等。
  
    近线存储介于在线存储和离线存储之间,既可以做到较大的存储容量,又可以获得较快的存取速度。近线存储设备一般采用自动化的数据流磁带或者光盘塔。近线存储设备用于存储和在线设备发生频繁读写交换的数据包括近段时间采集的视音频素材或近段时间制作的新闻片、专题片、纪录片、资料片等。
  
    在线、近线、离线三种存储体相互配合,在电视台媒体资产治理系统的治理软件定义的迁移策略控制下,既可保证资料的访问速度,又可扩充系统的存储容量。
阅读(725) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~