分类: LINUX
2008-03-27 11:10:33
chinaunix网友2008-11-21 12:58:04
您好,wysilly,拜读了你写的这篇文章后,对我们的帮助很大使我们的项目实施有了一些进展(我们现在正在实施现场),但是现在还有几个问题,真是彻底搞不明白。以前没弄过这方面的东西,完全属于入门级选手,希望能得到您的帮助,谢谢: 我们现在的环境:10个刀片中心(配备一个6口的交换模块,一个直通模块,一个AMM模块)+128台刀片(HS21);2个管理机x3650;8台接存储的x3650;另有用于计算的交换机C300一台和接管理主机的S25一台。使用OS-AS4.6;XCAT1.3;目前困惑的地方主要有如下几个问题: 0、目前进度:可以控制刀片电源的开启和关闭,也能获取到mac地址。 1、有关SOL的实现:我们现在是用一根网线接在交换模块的第一个口上,然后连到了cluster vlan上,不知道这样接是否正确?当执行rbootseq compute c,f,n,hd0这条命令的时候老提示出错:出错信息——http login failed, 404 no found.我想请问这条命令是利用sol的功能来实现的吗? 2、在你的文章中配置有关SOL的信息的时候(第22页),是在管理机器
cy1632008-05-13 18:02:12
观察到/var/spool/pbs/server/server_priv/server_logs下的最新日志文件内容包含以下信息,是否表示某种错误呢? SERVER-LOGS =========================== 05/13/2008 11:14:06;0001;PBS_Server;Svr;PBS_Server;stream_eof, connection to hpc01 is bad, remote service may be down, message may be corrupt, or connection may have been dropped remotely (End of File). setting node state to down
cy1632008-05-13 17:21:33
1.关于第一问 1)使用mpdboot -n 14 -f /home/yongchen/mpd.hosts,我看了看,你的mpd.hosts应该在/home/yongchen下,你的xcat1为管理节点,你要确认的是,mpdboot使用的是否是你所定义的mpd.hosts中的节点信息. 我用mpdboot -n 14 -f /home/yongchen/mpd.hosts启动后,用mpdtrace查看,可以看到hpc01-hoc14 14个计算节点的名字都列出来了,这与 /home/yongchen/mpd.hosts文件中的内容 是一致的. 2)在脚本中#PBS -l nodes=3:ppn=1定义了qsub提交脚本时,分配给脚本运行的资源为3个节点(nodes),每节点1cpu(ppn),所以.machinefile 只有3个节点定义. 明白. 3)关于mpdboot与qsub的理解,mpdboot为mpiexec提供运行时的些环境准备, openpbs(qsub提交)同样也为并行计算提供了环境准备. 可以这样测试: %su - yongc