使用,搭建和管理HPC集群到今天2010.07.26已经10个年头了。虽然不能说已经精通HPC了,但是作为一个HPC集群的切身使用者来说,对于HPC还是深有感触的。接下来的两周刚好单位放假,抽点时间写一些这方面的东西,一是对自己这么多年经验的一些总结,一是对和我一样的科技民工提供一些参考。
其实我要写的东西,大部分都在搭建和使用HPC集群的过程中已经成型了的。这里只是把它们连贯起来,添加一些枝叶。
到目前为止已经完成的有,
(1)HPC集群的使用场景 ---已完成
摘要
HPC的分类,grid和mpi的。
(2)HPC集群的设计 ---已完成
摘要
我们需要一个什么样子的集群。对grid,mpi已经混合类型集群的CPU,网络,文件IO特点进行了描述。根据不同HPC计算类型设计了不同的计算集群方案。 并且根据上述的方案选择相应的硬件设备,操作系统,网络文件系统。
这个部分主要是针对对于计算机不是很熟悉的科技工作者。在我的同行中,虽然天天使用计算机或者计算机集群做计算,但是他们大部分人对也这些软件的,硬件的区别并不了解,甚至花了大量的钱,却购买不到自己需要的集群。这章的作用就是给我的同行们一个初步的了解,避免花冤枉钱。
(3)集群基本系统的安装 ---已完成
摘要
linux的自动安装配置。包括基本操作系统,编译器,IP地址的划分。
(4)NFS安装和调优 ---已完成
(5)集群系统安装和调优 ---已完成
摘要
集群文件系统包括PVFS2,lustre,PNFS。
(6)大型系统中的文件IO ---已完成
摘要
对节点比较多的集群中网络IO进行划分。
(7)NIS安装和配置 ---已完成
(8)MPI安装和调优 ---已完成
(9)作业管理概要 ---已完成
摘要
什么是作业管理系统?我们的集群是否需要作业管理系统?并且对pbs和SGE做了简要的介绍
(10)PBS作业管理 ---未完成
备注
我最后的PBS作业管理配置都是2004年的。非常的久了。对于新的PBS没有接触过。这部分慢慢添加。
(11)SGE作业管理 ---部分完成
摘要
详细介绍了SGE作业管理系统。并且对gromacs, namd, vasp,gaussian的并行和串行的作业提交给出了范例。
(12)榨取系统性能之网络文件IO ---未完成
(13)榨取系统性能之编译器和库函数选择 ---部分完成
阅读(2729) | 评论(0) | 转发(0) |