分类:
2008-04-13 14:58:42
来源:99power 作者:Janet Perna |
集中化的数据仓库
对于那些需要复杂分析的应用,许多公司选择将需要的数据"拉入"(从数据来源处复制)单独的数据仓库(数据中心)。这样做可以使 SQL "全身心"地投入到分析中,并且也无需通过应用处理分散的数据。
数据联邦造就虚拟数据库
并不是所有的数据都能进入数据仓库。有时数据变化太快,有时该数据不为本企业所有(如归其商业伙伴或某一信息服务机构所有),有时该数据的格式不对,不能存贮到关系型数据库系统中或被其搜索到。这时 DB2 数据仓库和数据中心就可大显其道,IBM 杰出的技术可将那些各自为政的异构型分布数据源联合起来。数据联邦让用户查询分布式数据时更为简便,就好像这些数据存贮在单一数据库中,同时应用也变得更简易并且拥有单一数据库的功能,而无需复制与维护成本。通过数据联邦,应用可将底层数据存放到查询中,使这些功能不被再次执行(如果数据实际移动,这些功能会执行)。
数据联邦在客户机应用与数据之间增加了一个部件--层,这个特殊的层使得性能达到平衡。在查询过程中,数据存贮在不同点(没有合并)将可能产生网络延迟。借超级优化功能之东风,数据联邦使得多种应用间的数据集成更为高效简捷。
未来各种模型的融合
信息集成很有可能成为大多数公司追逐的热点,你也许可以看见不同的技术成熟并且融合。某一特定集成问题的解决方案将涉及到数据仓库(用于可以存贮于关系型系统的关键数据)与数据联邦(用于集成不适合数据仓库的数据)之间的集成。丰富的元数据设施简化了从不同的数据源中映射、清除数据,同时简化了将数据关联在一起的过程。它们将得到其它类型集成的补充(如上面提到的那些),并且这些集成之间能够协同工作。挖掘工具、应用将与整个虚拟数据库共同工作,而不用考虑数据是在本地还是来自外部数据源。缓存与查询处理得以加强,消除了性能之间的差异,使得用户真正受益。
网格计算
最大限度地利用分布式数据的发展动向,加上处理大型计算任务的需求及重新利用现有软硬件资源之渴望,完美的网格计算环境将出现在你面前。网格计算可以实现各自独立的异构软硬件资源之间的共享,同时降低总拥有成本并提供更加出色的性能、伸缩性,还支持数据共享与协作。当急需提高功能时,你可以使一个节点在线,你就会想到强大的网格计算。
科学界一直利用网格计算处理"极具挑战的"难题,如蛋白质合成、天气预报、基因组分析及粒子物理等。现在,各个行业中的企业也都在探索网格计算。网格计算的优势在于削减了处理时间并优化了资源的使用。同时,它也为随需应变的计算理念提供了坚实的基础架构。网格计算的一个显著特点就是可以从不同的资源(计算机、数据库、存贮系统等)请求特定的服务。这种特点成就了e-公用设施,它能够提供电子商务所需的复杂服务。网格计算还可为协作提供基础架构(如在企业内大规模地集成信息),这在以前是不可能的。由于在不同的节点多次复制数据,网格计算也提供了强大的伸缩性。
数据管理在网格计算中承担什么角色呢?网格计算实际上提供了一个虚拟计算机,以供应用运行。在网格中单独的数据库系统可作为共享资源。然而,数据管理的作用更为广泛。我提到的联邦数据库系列能够为虚拟计算机提供单独的虚拟数据库,因此通过标准数据库编程界面编写标准的数据库应用,应用就可以尽量利用网格的功能。数据联邦将发现并查询相关的数据源,并进行大规模的集成。通过将不同的数据源作为非共享并行处理器中的节点,网格可使查询与数据计算进行得更快。
在网格环境中,需要对数据管理技术进行扩展。网格具有动态的特性,新的数据源可在任何时候来去自如。这种特性以及网格的规模,就意味着用户不知道在何处找到所需的数据。这样就需要一些通过对所需进行内容进行描述来查找数据的方式。找到数据源后,数据库联邦应该能够自我配置,以便访问该数据源。数据动态自动复制特性,能够应对负载失衡、停机及性能等一些问题,为网格用户提供更好的伸缩性、灵活性及性能。
自主系统
人体是自主系统最生动的实例,它可以自身调节以适应外部环境。如果温度过高,人体会出汗降温。如果运动需要更多的氧气,人体就加快呼吸频率和心率。
自我恢复、自我调整、自我配置系统对网络必不可少;但"普通"的 IT 环境也会从此类系统中受益。人力成本占数据库系统拥有成本的大部分。DBA 的工作职责繁重,包括数据逻辑设计、物理数据布局、物理访问结构决策、内存分配和性能调整、监控和调节。随着数据库自主功能增强,DBA 能够专注于更加复杂和感兴趣的问题,同时节省员工的时间和费用。
尽管这听起来像科学幻想,但已经迈出了第一步。例如,DB2 UDB Configuration Advisor(数据库配置顾问)可减少甚至消除单调费时的系统配置任务,可满足希望的性能目标,并且无需频繁手工调整与性能有关的配置参数。Health Center(健康中心)自动评估 DB2 UDB 系统的状态,提醒 DBA 系统的日志空间或内存可能将耗尽。系统可自动采取措施,增加空间和内存以保持数据库正常运行,并且无需 DBA 的干预。除了这些神奇的技术,IBM 研究院还研发了知识优化器(LEO),可利用执行查询得出的经验性结果验证统计和假设。LEO 能够向用户提出运行消耗资源的 "RUNSTATS" 的时机和方式建议(如果探测到统计数据过时),或收集统计或其它查询,以修正不理想的结果。凭借这些准确的统计,系统能够节省成本,下次按照优化器制定的最佳方案执行查询。最终结果是:方案优化,系统管理工作减轻,热线求助时间缩短。
信息整合
我在文章开始提到的医院采用了以上许多技术:
1. 医生可通过网络访问全美联网的医院,虽然这些医院可能无法随时保持连接,但是网格能节点处的常用信息自动复制和存储到医生的本地数据库中。
2. 医生所用的应用将查询提交本地的联邦数据库,应用产生的单个查询对病历进行分析,查找类似症状和化验结果的患者,并将其诊断与 CDC 数据库结合,按出现的频率检索信息。
3. 查询调用外部产品对病历进行分析,然后将结果与国内各数据库中找到的类似患者数据进行合并。
4. 每个不同的诊断再添加到 CDC 的数据库中。当 Web 服务发出请求(仍作为相同查询的一部分)时,CDC 即开始查找,其结果生成一个描述病情的 XML 文件。
5. 经过处理之后,这些文件中的关键信息则生成一份简明的表式报告返回给医生。查询结果迅速返回,因为本地数据库发现只有少数其他医院发现类似情况的患者。数据库还"察觉"好几个此类数据库经常不可用或超负荷,因而将患者数据文件复制到本地以便查询。
此例有赖于网格(计算)、自主复制、信息源语义显示、信息集成技术(包括联邦并使用查询中的Web服务)以及 XML 作为交换格式。当然,根据实际症状和检查结果,可能包含大量数据。由于网络上的许多数据库都含有相关信息,需要并行网络和高速分布式联邦方法。
下一步
未来的数据管理系统将更快更强大。通过开放协议、Web 服务、网格(计算)和 XML,它们能够对多个异构资源进行集成数据并通过应用和数据库交互。它们将成为自我管理、自我协调、高度自主的系统。
尽管全面的开发和部署将是尚需时日,为实现这些特性的首要步骤目前已经是显而易见的。 |