网格技术快速发展对基础科学的研究提供了诸多帮助,尤其是对于那些对海量数据存储、传输和计算的领域,譬如生命科学的研究。
生命科学的信息化和全球化已成为大势所趋,我国生命科学界对网格技术产生了强烈需求。面对海量的、呈指数快速增长的生物信息数据,业界必须抓好两个重点:首先是必须开发和应用全新的生物信息处理方法;另外,必须建立高效的超大规模数据信息处理系统。
在生物科学领域,生物数据包含很多种类的数据且分属于不同的组织。组织与组织之间由于考虑到安全和数据版权的因素,存在着严格定义的组织边界。但是,在进行一次复杂的生物计算时,常常会用到跨组织的数据资源。如何方便地跨越组织边界,让所有的用户能够集中精力完成专业研究,在不必关心数据位置的前提下即可实现应用分析计算,是一个急待解决的问题。
生物计算属于数据密集型计算,对于数据密集型计算,数据存储地点、数据处理地点、数据分析地点往往不在同一个地点,问题的求解会产生很大的数据通信需求。虽然目前网络传输速度提高很快,但要达到高性能地频繁访问和处理大量远程专业数据仍然是很困难的。因此,有必要使用合适的复本选择策略和缓存技术实现计算任务所需的数据存储地离计算任务运行站点最近,从而达到减少网络传输压力、提高系统性能的目的。和一般的科学研究不同,生物计算中的许多问题的难度是难以想象的。这些问题常用解决方法大多是近似的、启发式等算法。若要精确求解这些计算问题,即使使用高性能的超级计算机也需要相当长的时间。
网格是生物计算必需
BioGrid负责人Gagliardi这样描述BioGrid所要完成的工作:当用户提交一个任务时,BioGrid首先分析完成任务所需要的计算资源;然后,找到这些资源并分配给其任务。同样地,运行任务所需要的数据也被检索出来并传送给计算资源。在这个过程中,BioGrid需要具备:分析任务的能力,随时掌握网格中资源的能力;执行任务程序的能力,以保证被分配的任务能够得到执行。另外,任意传输数据的能力、判定和保障服务质量的能力、从错误中恢复的能力和记录出错情况的能力等也是必需的。
目前,网络技术正处于发展阶段,人们对它的定义还没有形成共识,但一个相对可以接受的理解是:“网络计算”是把网络连接起来的各种自治资源和系统组合起来,以实现资源共享、协同工作和联合计算,为各种用户提供基于网络的各类综合性服务。
为了解决生物计算面临的问题,可以建立一个生物数据网格和一个生物计算网格,利用生物数据网格来满足人们在处理生物数据时对高性能、大容量分布存储和分布处理能力的要求。利用生物计算网格针对不同的生物计算任务高效地处理相应的生物数据,从而在生物科学领域实现有效地寻找可用资源、访问数据、共享分析数据和计算资源。
正是基于这种需求,目前的生物网格被分为两个大部分:生物数据网格,包括公共数据库、私有数据库和网络数据库,主要功能是负责管理数据库的本地、网络管理,并实现数据库镜像和人工智能管理,对数据的自动过滤、筛选和存取,提供最新最全的数据库并且支持多种数据格式的数据库和数据格式转换;生物计算网格,也就是基因分析工具和药物设计分析工具,主要提供涉及基因药物研究的分析和检索工具及可视化工具,实现数据分析的一体化;提供与数据库的专用接口;提供商业软件的网络接口,实现远程调用功能
阅读(384) | 评论(0) | 转发(0) |