Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1409724
  • 博文数量: 350
  • 博客积分: 12557
  • 博客等级: 上将
  • 技术积分: 3621
  • 用 户 组: 普通用户
  • 注册时间: 2007-03-22 07:33
文章分类

全部博文(350)

文章存档

2014年(2)

2013年(1)

2012年(15)

2011年(46)

2010年(61)

2009年(80)

2008年(80)

2007年(65)

分类: LINUX

2009-01-19 18:06:20

  最近做了一个小集群项目,操作系统用的是RHEL4.6 x86-64的。客户要求用oscar或者rocks来安装/管理集群。就看了一下oscar。安装过程中遇到一些小问题,都解决了,总结一下,以备以后查看。
  1.主节点安装完系统后不要再安装任何软件,首先安装oscar.需要使用的包有oscar-base-5.1rc1.tar.gz;;   可以去 下载。我第一次安装完主节点儿的操作系统后,先升级了zlib和openssh,结果oscar死活都装不上,又重做系统,先装oscar就可以了。
  安装过程可以参考  设置/etc/ssh/sshd_config,增加PermitRootLogin yes.设置正确的/etc/hosts文件。另外,安装操作系统过程中要注意选择X,Web server,Develop tools,edit tools,admin tools,其它的自选。另外,要禁用Selinux.
  2.把上述下载的三个包解压,base的放到/opt/oscar,common,rhel的放到/tftproot/oscar下面。另外,mkdir /tftpboot/distro/redhat-el-as-4-x86_64,然后把五张系统盘中的所有RPM包放到这个目录中去。
  3.准备好上述东西后,运行/opt/oscar/install_cluster eth0,然后会检测一些必要的包是否存在,rhel4中的pyton是2.3的,oscar 5.1要求用2.4的,升级这个包。其它,提示缺少什么包就装一下,即可出现图形化的配置界面。
  4.收集mac地址那一步,如果长时间搜集不到,也可以手工创建maclist文件,然后导入.MAClist文件的格式一行一个mac地址即可。。
  5.创建clentimages成功后,如果你的CMOS配置不支持PXE启动,可以使用oscar的工具,创建一个引导光盘的iso文件,然后刻录成光盘。用它启动安装,即可自动安装。节点儿安装会很快,很顺利。保证所有的节点安装成功,启动成功后,即可进行最后一步test。
  6.安装后的使用和配置。oscar自带用户管理软件opuim,用户可以象普通linux/unix上一样用useradd创建,然后该用户登录时,会自动把用户信息分发到节点上去,并且可以无密码ssh任何节点儿。安装时oscar还会自动启用NFS服务,共享/home目录。
  7.安装新的软件,可以定制安装目录到/opt中去,安装成功后,cpush 目录名,即可分发到每个节点上。cpush是oscar集成的C3带的功能,类似于rcp/scp,不过它有一个/etc/c3.conf配置文件,不用指定分发目的地,即可使用该配置文件分发到每个节点儿上。除止之外,还有cexec,cname等一系列命令使用,很方便。
  8.oscar自动安装了mpich1.27和lam,openmp,pvm,torque等,还有switcher,SIS(安装节点儿时使用),功能很强大,很方便。
   9.使用过程中排错:安装完软件后,忽然发现用普通用户ssh节点时,报:ERROR:102: Tcl command execution failed: if {
$have_switcher && ! $am_removing } {
  process_switcher_output "announce" [exec switcher
--announce]

  # Now invoke the switcher perl script to get a list
of the modules
  # that need to be loaded.  If we get a non-empty
string back, load
  # them.  Only do this if we're loading the module.

  process_switcher_output "load" [exec switcher
--show-exec]
}
类似的错误,上面还有什么man.config错误等。再网上查,资料很少,有一个提到可能是硬盘错误,但我感觉不是。后来发现用mpirun测试时也报错,但可以出结果。再次运行test_cluster发现openmp,lam,mpich,pvm等都报错了,原来都是对的。再查看/home/oscartst/mpich/mpich.err文件,发现/tmp不能写,权限不对。查看主节点儿,是正确的,再查看运算结点儿,发现/tmp的权限不对了,本来应该是rwxrwxrwxt的,成了rwx------,难怪出错了。手动把权限修改正确,再运行test_cluster,OK,全部passed了,并且再ssh也不报错了。这个问题出现的原因可能是我安装某个软件时它修改的?反正不记得自己手动改过权限。使用的路还很长,慢慢摸索吧。。
  OK,暂时总结这么多吧,使用它,会让我们安装配置集群的工作变的更容易Open Source Cluster Application Resources (OSCAR)可以给我们提供一站式服务!
阅读(1377) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~