全部博文(385)
分类: LINUX
2008-09-30 16:35:06
存储系统发展及蓝鲸产品现状 |
许鲁 时间:2007-11-15 |
转自:
高性能计算机是代表计算技术发展最前沿的技术,它引领着计算系统的未来。而计算系统作为存储系统的一个客户,影响是重大的,这种重大的影响是不可忽视的。
除此之外,高性能计算技术是否还会发展?会以多快的速度发展?下面结合一些实例,谈谈我对存储领域发展情况的一些想法和所做的一些
工作。
首先,高性能计算技术为什么还会发展?高性能计算实际上代表着计算技术最重要的发展方向,它代表着最前沿的技术。存储系统是为了计算系统服务的,从这个角
度来讲,我们应该看看计算技术应该怎么发展?特别是在不远的将来,计算技术为什么还会持续发展?现在我们已经知道,数十万亿次、上百万亿次,甚至上千万亿
次的计算机都会出现,真的有这么大的需求吗?
先从能源方面谈起。我们知道,当前能源非常短缺。有一种核反应叫核聚变,可以对核能进行利用,属于当前尖端科学技术。核聚变技术中需要大量数字模拟方面的
工作,它所需要的计算能力,是今天计算能力的成百上千甚至于上万倍,甚至于更高。在能源行业的另外一个领域石油勘探领域,对高性能计算也有非常多的需求,
这从国内高性能计算排行榜中就可以明显地看出。
再谈谈能源之外的其他领域。众所周知,现在,人类的生存环境越来越恶劣了,在气象、交通运输、自然灾害等领域,都有大量的高科技问题亟待解决。为了研究我
们的生存环境,研究人员要做大量有关气象、交通运输、地震等方面的模拟计算工作,以便进行预报或疏通。其他诸如生物计算等方面的技术与研究,以及我们一直
给予充分关注的关于地球内部构造的科学研究,也对高性能计算机有非常高的要求,都直接推动了未来高性能计算机的发展。
天体物理学、材料科学和核物理试验等领域,也是传统的高性能计算应用领域。另外,在国家战略领域,如核模拟、情报处理、信号分析、飞行器制造等等方面,包
括航空航天领域,都对高性能计算有着非常强的需求,而且,它们的需求已经远远超过我们今天能够提供的能力。所以,从这个角度上来讲,高性能计算、千万亿次
计算机的出现不是一个偶然的现象,而是一个必然,因为它的需求驱动力量非常强大。可以说,高性能计算技术在未来一段时间内还会高速发展。不但它已经代表着
当前的先进计算技术,而且它依然会代表未来的先进计算技术。同时,它对于存储技术的需求依然是不可忽视的,可以明确一点:它会一直引领着存储技术向前发
展。
我们看到,现在标准化趋势非常明显,这主要体现在以下几个方面:X86CPU在不断地胜出,在高性能计算世界500强中,可以看到X86实际上包括了各种
各样的Intel芯片和AMD芯片;集群系统占72.2%,已经超过了70%;Linux统治的范围非常大,我们可以看到它几乎扩展到了所有领域;在互连
这个方面,千兆以太网占了很大的比例,或者说IP网络占了非常大的份额。最后就是系统规模变得非常之大。此外,HPC应用的领域越来越广泛,说明了技术的
成熟度和高涨的应用需求。在广泛的应用领域中,数据处理成为核心。系统规模越来越庞大,这就要求存储系统可以提供高访问带宽、低访问延迟、高效的数据共
享、丰富的数据管理功能。这些存储问题的解决很大程度上制约着高性能计算系统的系统性能和应用广度的持续发展。
回到存储技术本身,我们首先关心三个核心指标:容量、带宽和延迟。那么,高性能计算机到底怎样推动着我们的存储系统技术发展呢?首先,高性能系统本身的系
统性能越来越高,在数据处理应用领域中,这意味着需要极高的数据吞吐率。PB级存储在以前是不可想象的,而今天在很多应用领域中PB级存储系统已经实现
了,已经不再是梦想。大规模存储导致了我们的管理成本集中,这方面的主要问题是是否采用集中存储技术,而集中存储的问题在于其风险较高。规模巨大的服务器
群的管理在技术和成本上也提出了强烈的挑战,这也是需要通过存储技术解决的。存储系统在大容量、可扩展性、高效率共享等方面的支持是未来发展的方向。此
外,层次化的问题在多个领域被提到,而不是一个领域。目前我们更关注存储内部的情况,设备间的数据冗余问题将会是近期迫切需要解决的。
蓝鲸系统是中科院计算所国家高性能计算机工程技术研究中心(简称“工程中心”)所研制的存储系统。该系统包括网络存储系统、数据备份系统、集群存储系统和
部署系统。蓝鲸系统的一个普遍特征我们叫做超市化模型,因为,它最主要的特征可以通过商品销售模型类比来理解。在早期,商品销售模型为百货商店,百货商店
有售货员。在百货商店时代我们面临的情况是商店的东西很少,客户较少,每个客户一次采购的商品很少,客户采购时售货员参与选货、拿货和收银等工作。存储系
统与之非常类似。在早期的存储应用中,用户的数据量并不大,服务器也不多,每台服务器对数据的需求量也不大。随着经济的发展,市场需求在变化,存储需求在
变化,存储技术也在变化。今天,如果用百货商店的模式经营沃尔玛、家乐福超市,是不可能的。超市的特点是货物量很大,客户很多,每个客户一次采购的商品也
很多。在这两个超市里,售货员变成了收银员。收银员只负责收银,而不再参与选货和拿货。在存储技术里面,今天的情况是数据量很大,服务器很多,每个服务器
所需访问的数据也很多,这些特点都有类似的地方。
蓝鲸虚拟存储系统就是基于虚拟存储技术的网络存储系统,为用户提供按需分配的大容量、动态可扩展的虚拟存储空间。实际上,用户需要大存储空间未必就能立刻
充分使用,很多的情况下实际存储介质的使用量是按照需求量的增长逐步分配的。虚拟存储系统能有效地提高资源利用率,提高系统之间带宽的利用率等,并且该存
储系统为前端用户提供虚拟的磁盘。
蓝鲸服务部署系统的目标是有效地提高前端服务器的使用效率,降低计算资源的管理成本。假设用户要申请一个服务,管理系统会提供该用户可以使用的服务;用户
确定所需的服务,如流媒体服务;根据需求,管理系统定位相应服务的系统映像,即存储资源,以及能够提供相应服务的计算资源。通过将两种资源绑定,动态构成
一个计算系统提供所需的用户服务。这种系统的优势主要是服务系统的动态可重构性。如一个E-mail服务需求需要8台服务器,那么管理系统可以把8台计算
资源和8个存储资源动态地组合,提供所需的服务。同样,如果需要其它的服务,管理系统还可以去调度可用的资源满足需求。当系统运行到一定时间后,服务负载
变轻,管理系统可以释放掉多余的存储资源和计算资源。这不仅可以调动计算资源,而且可以调动存储资源,整个系统中可以支持多种服务系统模板。在有需求时,
可以迅速地满足应用需求。如果将系统的监控、评测和管理一体化、集成化,那么我们可以实时监控系统,实现系统自主的管理。当监测到服务系统处于闲置状态
时,管理系统可以释放掉闲置的计算资源和存储资源。同样,当监控系统发现负载在不断增高的时候,管理系统可以自动地克隆存储系统里的模板,然后调动相应的
计算资源,有效提供所需服务。目前,其服务部署系统最大规模已经达到在生产运行环境中支持260余台服务器。
蓝鲸集群存储系统的目标是支持数十TB乃至PG级的存储容量,GB级的访问带宽,支持容量和性能的高可扩展。在体系结构方面,元数据的处理和数据的访问采
用分离式结构,整个应用系统是通过服务部署系统来启动的。在应用服务器和系统服务器方面,系统服务器要给应用服务器提供的是一个数据分布图,相当于去超
市,通过一张影射图就可以知道数据的位置,应用服务器直接从存储设备上提取所需数据。这种结构可以减少中间环节,避免传输瓶颈,大大提高数据访问效率。其
中数据备份方面的系统采用了D2D2T结构,在数据的组合、迁移、删除方面都具有非常显著的特色。
上述所有的系统都可以支持Linux或Windows客户端服务器,并已投入实际应用,例如国防、军事、地球物理、电子政务、遥感、高教、数据中心、科学
计算、信息服务等方面。2006年,在新疆石油的应用中,一套存储系统中运行的前端应用节点已经达到388台,被全球最具权威的IT研究与顾问咨询机构
Gartner Group进行了案例分析,并给予很高
评价。
工程中心主要是做存储这个领域的研究开发和产品化的工作,下图说明了工程中心的四个存储技术相互之间的关系。