分类: 服务器与存储
2008-07-13 17:00:05
懂得数据分类的工具
在某种程度上,数据分类的工具大体上包含四个主要的方面:发现、分类、搜索以及转移。发现的过程是在你的架构中辨认文件和数据类型——它将告诉你有什么。分类的工作则主要集中在这些被“发现”的数据,根据一些定义的规则将元数据应用到每一个文件和文件类型上。然后,元数据被存于数据库中,它们今后可以被搜索和参考。而这些定义的规则本身则可以根据企业的需求来开发,当然这些规则也可以从第三方的工具得到。一旦实现之后,这些规则随着企业和技术需求的变化也可以不断更新。
搜索功能就是对分类的一种扩展,它可以利用分类过程中所创建的元数据来找到相应的文件,而根据的标准和传统的元数据有所不同,这些传统的元数据包括文件名和创建日期。当数据被分类以用于归档的作用时,搜索的特点就显得尤其重要。因为数据分类通常和存储策略紧密相关,因此数据转移的特点(有时候叫做管理策略)能够帮助你在不同的存储架构上搬移数据。例如,不很关键的文件可以从光纤通道(FC)磁盘迁移到SATA存储阵列中;或者不是非常频繁访问的数据可以从上下文相关的存储系统(CAS)中移除。值得注意的是并不是所有的数据分类工具都提供了搜索和转移功能。
分析家们很快就注意到数据分类工具变得越来越强大,他们通常能够根据关键字的顺序来检查文件和文档,并且根据数据本身作相应上下文的决定。“现在变得越来越容易接触和察看数据。”Greg Schulz谈到。Greg Schulz是“存储IO组织”的创建者和高级分析师。当你提供给工具足够的信息,工具本身针对数据就可以作出推断并且作出非常智能的决定。
数据分类的硬件实现和软件实现对比
数据分类的工具可以用硬件或者软件来实现。公司中基于软件的工具被安装到一台服务器或者几台服务器上。多个服务器的好处在于它们可以一起改进发现数据和分类数据的性能。事实上,多个服务器对于上百万,上千万(甚至上亿)的文件管理非常重要;并且多个服务器可以进一步提高分类速率(比如每秒分类1000个文件)。
当然,工具可以用硬件来实现——尤其是那些运行数据分类软件专用的服务器。虽然比起基于软件的工具更贵,但是硬件应用更加容易集成和配置,尤其是集群应用,并且硬件本身可以支持更多的操作系统。
厂商和产品的选择
数据分类的舞台非常广阔——许多厂商都有在该领域独特的工具,都有自己的范围。比如我们所熟知的厂商Kazeon System Inc.,采取了一种全方位服务的方法。Kazeon公司的“信息服务IS1200”工具号称可以分级和分类网络上的所有文件并且提供详细的报告来帮助提高存储效率。StoredIQ公司则采取了视野更加宽泛的做法,他们的工具具有发现、分类以及转移的特点,可以对分类数据的活动性保持一种跟踪。这种方法和数据分类的基本定义是一致的。
数据分类的厂商:
Abrevity Arkivio Inc. EMC Hewlett-Packard (AppIQ) Index Engines
Intradyn Inc. Kazeon Systems Inc. Mimosa Systems Inc.
Network Appliance Inc. (NetApp) Scentric StoredIQ
Abreivty Inc.公司在它们的FileData Classifier软件中采取了一种多合一的方法,提供了发现、分类、策略管理、安全、备份以及针对中小型企业(SMB)的文档特点的功能。Abrevity公司的FileData Manager工具提供了全面的搜索功能。甚至于像新涌现出来的产品,比如Scentric公司的Destiny,号称它们可以提供一种全面的产品可以实现从数据分类、数据分级到对结构化和非结构化数据的分类和控制的功能。Arkivio Inc.公司、Network Appliance Inc.公司以及HewLett-Packard公司也提供了通用数据分类/信息周期管理(ILM)方面的产品。
但是一些公司在数据分类方面采取了一种缩小视野的方法,专注于某一点,他们对企业提供一些特殊的应用服务,比如Exchange。一个典型的例子就是Index Engines Inc.公司的Exchange E-mail 索引工具。这个工具可以连接到SAN,在数据备份过程中索引e-mail和相应文档。Intradyn Inc.公司则专注于中小型企业,提供了ComplianceVault06工具,这个工具和其它工具(例如Exchange,Lotus Notes)配合用于e-mail的存档和索取.而Mimosa Systems Inc.公司的NearPoint则只专注于Exchange,用基于软件的方式提供存档、发现、恢复以及存储管理功能。
当然,EMC公司声称他们拥有众多的硬件和软件产品,这些产品涉及到信息周期管理技术的各个方面。
选择正确的产品
选择一个数据分类产品对于一个企业来讲会存在相应的挑战。每一个工具都有所不同——经常是只专注于每一个特定领域,比如说数据转移或者搜索,仅仅在某方面是它的长处。因此,作为一条判断依据,首先决定你需要什么样功能的数据分类工具,然后筛出那些不能提供你想要功能的那些工具。当你把范围缩小时,一些潜在的答案就可以供你选择了。分析家们给了以下几点作为帮助你辨别针对你的产品所合适的数据分类产品:
考虑产品的多样性。任何数据分类工具都必须和你所工作的数据类型相一致。因为大多数的公司数据都是非结构性的,全局数据分类需要使用支持结构化和非结构化数据的工具。因此那些只支持结构化或者只支持非结构化数据的工具,那些仅仅用于特定应用的工具就不适合你了。
考虑产品的扩展性。数据分类产品一般情况下对它们支持的文件数据数目都有实际的限制。因此,你要首先确认该产品可以适应你当前以及未来的数据容量。了解了今后的升级空间,你就可以估计将来为了扩展你的数据分类平台所付出的成本和代价。
评估对外部规则的支持.所有的数据分类产品都依赖于一系列的规则,而这些规则将驱动分析引擎。许多早期的数据分类工具全部依赖于内部规则,但是今天更多的数据分类工具可以包含已有的外部规则——通常这些规则支持医疗业或者法律行业。因此要考虑导入的这些规则是否可以修改以用于你的特殊需求。
考虑保持功能的重要性。如果你的主要考虑在于如何定位以及保护特殊的数据,那么你就要考虑带有文件保持支持的数据分类工具。也就是说,当搜索开始时,这些被搜索的数据就要被锁定以防止被修改或者被删除——即使是之前曾经同意过这么做。
评估外部工具的兼容性。虽然许多的数据分类工具可以自身管理策略并且将数据移到适当的层面上,但是许多工具都采用了外部的策略以及数据转移工具来做这些工作。因此,要看你的数据管理工具是否需要外部策略管理工具,数据转移工具或者存储系统。例如,一个数据分类工具要可以辨识金融或者理疗保险责任法案的数据,并且可以将数据转移到已经存在的EMC数据中心或者其它的CAS设备,这时就需要外部工具。
评估数据分类工具的性能特点。 要知道你需要发现和处理企业数据的所需时间,然后决定数据分类工具所需要支持的最大数据量。同时要了解数据分类平台如何根据文件及其大小来处理数据。“如果一个厂商告诉我,他们的工具每个小时能够分类1GB的数据,那一定非常有趣。”Schulz谈到。“但是没有小时到底能处理多少文件呢?”例如,一个企业当他要处理大量文件的时候,就会选择带有能够处理大量文件的数据管理工具。而一个企业他不要处理大量文件时,就可以选择一个更加关注全局化的数据分类工具。
数据分类工具的具体实现方法
无论你如何来实现一个数据分类工具,分析家们都建议你当搜索或者分类进行时要观看这个工具的性能图,比如你可以去看一下这个工具每个小时处理的文件或者每一个小时处理的数据量(GB),从而得出结论该工具是否它满足你所需的性能要求。 要确保在进行大规模的分类处理工作时,产品不会变得性能很差。如果出现了这种情况,那么分析家们建议你重新配置数据分类工具的架构来改善性能。一些常见的策略可以帮助你更好的选择数据分类工具。
人工的干预是不可替代的。没有任何工具可以决定你们公司数据的价值,因此公司的管理者要参与到数据分类初期的工具。工具在不断变强,同时一些预制的规则也越来越多。虽然不需要你从头做起,但是许多针对公司的复杂规则还是需要提前制定的。
避免进行过度分类。当数据分类工具很好的实现时,它可以实现很有效率的存储,但是一般很难知道什么时候该停止数据分类的级别深入。许多公司只支持三层存储结构,这三层通常包括高性能的光线(FC)SAN、低成本高容量的SATA存储以及第三层,第三层经常是存储磁带。因此,分类机制也反映了这种分层。因此,你的数据分类一定要和相应的分层结构相符合。
要寻求外部的帮助。如果你本身的数据分类工具不够专业,那么要寻求在你的行业中专长于此的顾问——特别是法律和经济产业。一个外部的顾问有时候可以帮助你减轻内部策略并且是你更加关注于分类工程本身
初期要小,规模慢慢变大。许多公司都发现数据分类工具让它们畏缩而不敢尝试,那么分析家们就建议将你的工作专注于某一个特殊的目标,然后慢慢的扩大数据分类的规模。“首先根据你的需求做一个原型出来,然后慢慢增加他的功能。”Schulz谈到。