分类: LINUX
2008-03-27 11:10:33
cy1632008-05-13 13:47:20
感谢 wysilly 的回复,我一直等待着。 还有进一步的问题 1)使用mpdboot -n 14 -f /home/yongchen/mpd.hosts,我看了看,你的mpd.hosts应该在/home/yongchen下,你的xcat1为管理节点,你要确认的是,mpdboot使用的是否是你所定义的mpd.hosts中的节点信息. 我的mpich2是安装在/home/yongchen目录下的,请问这样做是否正确。 另外,为什么执行完一个作业(job)后,参与执行的计算节点就退出mpd了呢?致使14个计算节点只剩下11个。 另外,用户yongchen是应该登陆xcat1(而不是某个计算节点)然后发出 qsub命令吗? 可否告知您的email地址,方便交流。我的email地址是cy163@sina.com
wysilly2008-05-12 09:04:26
1.关于第一问 1)使用mpdboot -n 14 -f /home/yongchen/mpd.hosts,我看了看,你的mpd.hosts应该在/home/yongchen下,你的xcat1为管理节点,你要确认的是,mpdboot使用的是否是你所定义的mpd.hosts中的节点信息. 2)在脚本中#PBS -l nodes=3:ppn=1定义了qsub提交脚本时,分配给脚本运行的资源为3个节点(nodes),每节点1cpu(ppn),所以.machinefile 只有3个节点定义. 3)关于mpdboot与qsub的理解,mpdboot为mpiexec提供运行时的些环境准备, openpbs(qsub提交)同样也为并行计算提供了环境准备. 可以这样测试: %su - yongchen %mpdboot -n 14 -f /home/yongchen/mpd.hosts %qsub -l nodes=14:ppn=1 -I (某个node名)%/home/yongchen/Test_PBS_Pgm 运行完成后 (某个node名)%exit %qsta
cy1632008-05-11 17:44:42
wysilly, 你好,目前,我在用 Torque (OpenPBS)的qsub命令提交作业时,遇到一些问题,这些问题困扰了我很久,在网上寻找时发现您的这篇文章,讲的非常详细,是我一直在找的东西,谢谢了。
可否请你在百忙之中,为我看看我的问题出在什么地方,下面是我的程序,及问题说明。我的电子邮件地址是cy163@sina.com.非常想得到你的帮助,使用刀片服务器的人太少了(我们的刀片服务器是IBM BladeCenter JS21),找到一个可以交流的人很难,找到一个可以请教的人更难。盼望着您的回信
cy163
// ##### 测试程序 Test_PBS_Pgm.cpp ######
//#include