Chinaunix首页 | 论坛 | 博客
  • 博客访问: 68257
  • 博文数量: 9
  • 博客积分: 1430
  • 博客等级: 上尉
  • 技术积分: 112
  • 用 户 组: 普通用户
  • 注册时间: 2009-02-10 21:10
文章分类

全部博文(9)

文章存档

2011年(2)

2010年(4)

2009年(3)

我的朋友

分类: 系统运维

2010-07-26 15:55:19

使用,搭建和管理HPC集群到今天2010.07.26已经10个年头了。虽然不能说已经精通HPC了,但是作为一个HPC集群的切身使用者来说,对于HPC还是深有感触的。接下来的两周刚好单位放假,抽点时间写一些这方面的东西,一是对自己这么多年经验的一些总结,一是对和我一样的科技民工提供一些参考。


其实我要写的东西,大部分都在搭建和使用HPC集群的过程中已经成型了的。这里只是把它们连贯起来,添加一些枝叶。
到目前为止已经完成的有,

(1)HPC集群的使用场景 ---已完成
摘要
HPC的分类,grid和mpi的。

(2)HPC集群的设计 ---已完成
摘要
我们需要一个什么样子的集群。对grid,mpi已经混合类型集群的CPU,网络,文件IO特点进行了描述。根据不同HPC计算类型设计了不同的计算集群方案。  并且根据上述的方案选择相应的硬件设备,操作系统,网络文件系统。

这个部分主要是针对对于计算机不是很熟悉的科技工作者。在我的同行中,虽然天天使用计算机或者计算机集群做计算,但是他们大部分人对也这些软件的,硬件的区别并不了解,甚至花了大量的钱,却购买不到自己需要的集群。这章的作用就是给我的同行们一个初步的了解,避免花冤枉钱。

(3)集群基本系统的安装 ---已完成
摘要
linux的自动安装配置。包括基本操作系统,编译器,IP地址的划分。


(4)NFS安装和调优 ---已完成

(5)集群系统安装和调优 ---已完成
摘要
集群文件系统包括PVFS2,lustre,PNFS。

(6)大型系统中的文件IO ---已完成
摘要
对节点比较多的集群中网络IO进行划分。

(7)NIS安装和配置 ---已完成

(8)MPI安装和调优 ---已完成

(9)作业管理概要 ---已完成
摘要
什么是作业管理系统?我们的集群是否需要作业管理系统?并且对pbs和SGE做了简要的介绍

(10)PBS作业管理 ---未完成
备注
我最后的PBS作业管理配置都是2004年的。非常的久了。对于新的PBS没有接触过。这部分慢慢添加。

(11)SGE作业管理 ---部分完成
摘要
详细介绍了SGE作业管理系统。并且对gromacs, namd, vasp,gaussian的并行和串行的作业提交给出了范例。


(12)榨取系统性能之网络文件IO ---未完成

(13)榨取系统性能之编译器和库函数选择 ---部分完成




阅读(2729) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~