一、HPC cluster
1,HPC Cluster 简介
简单来说,(High-Performance Computing)HPC Cluster高性能计算集群是计算机科学的一个分支,它致力于开发超级计算机,研究并行算法和开发软件。高性能集群主要用于复杂的计算问题,应用于需要大规模的计算环境中,在大规模计算过程当中,各节点协同工作,它们分别处理大问题的一部分,并在处理中根据需要进行数据交换,各节点的处理结果都是最终结构的一部分,高性能集群的处理能力与集群的规模成正比,是集群内各节点处理能力之和,但这种集群一般没有高可用性。
2,HPC Cluster架构
在搭建高性能计算集群之前,我们首先要根据具体的应用需求,在节点的部署,高速互联网络的选择,以及集群管理和通讯软件多方面做出配置,下面着重讲一下节点部署.
根据功能,我们可以把集群中的节点划分为6种类型:如下图所示
虽然由多种类型的节点,但并不是说一台计算机只能是一种类型的节点。一台计算机所扮演的节点类型要由集群的实际需求和计算机的配置决定。在小型集群系统中,用户节点,控制节点,管理节点,存储节点和安装节点往往就是同一台计算机,而这台计算机通常成为主节点(Master Node),这种情况下,集群就是由多个计算节点和一个主节点构成。下面我们分别解释这些类型节点的作用。
用户节点(User Node):用户节点是外部世界访问集群系统的网关,用户通常登录到这个节点上编译并运行作业。用户节点是外部访问集群系统强大计算或存储能力的唯一入口,是这个系统的关键点。为了保证用户节点的高可用性,应该采用硬件冗余的容错方法,如采用双机热备份。至少应该采用RAID技术保证用户节点的数据安全性。
控制节点(Control Node):控制节点主要承担两种任务,为计算节点提供基本的网络服务,如DHCP.DNS和NFS;调度计算节点上的作业,通常集群的作业调度程序(如PBS)应该运行在这个节点上。控制节点也应该有硬件冗余保护。
管理节点(Management Node):管理节点是集群系统各种管理措施的控制节点。管理网络的控制点,监控集群中各个节点和网络的运行状况。通常的集群的管理软件也运行在这个节点上。
存储节点(Storage Node):如果集群系统的应用运行需要大量的数据,还需要一个存储节点。顾名思义,存储节点就是集群系统的数据存储器和数据服务器。如果需要存储TB级的数据,一个存储节点是不够的。这个时候你需要一个存储网络,通常存储节点需要如下配置:SeverRAID保护数据的安全性,高速网保证足够的数据传输速度。
安装节点(Installation Node):安装节点提供安装集群系统的各种软件,包括操作系统,各种运行库,管理软件和应用。它还必须开放文件服务,如FTP或NFS。
计算节点(Compute Node):计算节点是整个集群系统的计算核心,它的功能就是执行计算。你需要根据你的需要和预算来决定采用什么样的配置,理想的说,最好一个计算节点二个CPU,但是如果考虑到预算限制,也可以采用SMP。从性价比角度说,两个CPU的SMP优于三或四个CPU的SMP机器,因为一个计算节点的失败通常不会影响其他节点,所以计算节点不需要硬件冗余保护。
高速互联网络:除了计算机各节点,还有其他一些周边部件,网络是集群最关键的部分,它的容量和性能直接影响了整个系统对高性能计算的适用性。根据我们的调查,大多数高性能科学技术任务都是通信密集型,因此如何尽可能的缩短节点间的通信延迟和提高吞吐量是一个核心的问题。
快速以太网:快速以太网是运行于UTP或光缆的100Mb/S的高速局域网总称,由于传输速度和延迟现在HPC集群网络基本不考虑此方案。
千兆以太网:为满足高性能通信需求,千兆网交换机在Cluster是很普遍的,市场上竞争力比较大的商家有Cisco,BNT,SMC和IBM,等
InfiniBand 互联技术:InfiniBand 是由InfiniBand协会开发的体系结构技术,它是一种用于实现基于通道的交换式技术的通用I/O规范。由于IB的理论带宽极高---30Gbit/S.因此备受业内关注,现在也是高速网络中的姣姣者。 InfiniBand的解决方案包括一个连接多个独立处理器和I/O平台的系统区域网络,他所定义的通信和管理结构同时支持I/O和处理器与处理器之间的通信,InfiniBand 系统可以是只有少量I/O设备和单处理器服务器,也可以是大型的并行超级计算机。
其他周边设备:Terminal Server, KVM(Keyboard,Video,Mouse) switch 等
软件设备(Software):一般的集群管理工具提供组建,管理和有效的集群扩展,使用IBM 的cluster-ready software可以为终端用户和系统管理员将一个集群设备扮演成似一个单一的系统。然而我们可以使用不同的集群管理工具去组建一个集群服务系统,比如the IBM Cluster System Management(CSM)和 the Open Source Cluster Application Resources(OSCAR),此后第二部分主要是讲如何用
xCAT来管理一个Red Hat的集群系统。
阅读(2385) | 评论(0) | 转发(0) |