1.RSH的配置
RHAS/RHEL系列中rsh,rlogin,rcp等有两份儿,一份儿是krb5-workstation装出来的,在/usr/kerberos/bin里面,另一份儿由rsh-server和rsh这两个包装出来,如果两个都装了,系统默认使用krb5的,这样在使用和配置时就会带来一些问题,如果还要使用krb5-workstation的其它东西,可以把/usr/kerberos/bin/rsh,rlogin,rcp等改名,然后把/usr/bin/rsh,rlogin,rcp链接过来,或者拷贝过来.然后可以vi /etc/hosts.equiv在这个文件里面加上每个节点儿的主机名,或者在vi ~mpiuser/.rhosts,增加每个节点儿的名称和用户名,例如:
vi /etc/hosts.equiv
node1
node2
vi ~mpiuser/.rhosts
node1 mpiuser
node2 mpiuser
这样,在使用rlogin登录其它节点时就不再需要密码了.
2.mpich的配置
RHEL4完全安装的话,会安装一个lam-7.0.6-5,但这个版本比较低,mpirun运行时会出一些错误.我们安装的是mpich-1.2.5,或者可以安装1.2.7P1.但系统默认搜索路径是/usr/bin,会默认调用/usr/bin/mpirun,这样直接用mpirun测试cpi的时候,会不能切换到其它节点上.我们可以使用安装路径中的mpirun替换/usr/bin/mpirun,或者rpm -e lam.
3.多节点并行运算
注意事项有以下几点儿:
a.保证rsh/ssh可以不要密码到其它节点上,并且在所有节点上有同名的用户,运行环境的权限要保持一致.为了实现这点儿,可以在主节点儿上建立用户,然后把/etc/passwd,/etc/shadow,/etc/group,/etc/gshadow这几天文件拷到所有节点上,或者可以直接使用NFS/NIS.
b.在mpich安装路径下的shars中,编辑machines.LINUX文件,在里面加上节点名:CPU数目.
例:vi machines.LINUX
node1:8
node2:8
早期的版本是需要在shars/util/machines/machines.LINUX文件中
c.注意hosts文件中的主机名和/etc/sysconfig/network中的主机名保持一致
d.如果暂时一台节点有问题,关闭了,则machines.LINUX文件中要去掉该节点儿,不然会报错.
阅读(1216) | 评论(0) | 转发(0) |