当把torque安装好以后,就需要在头节点上初始化和 配置pbs_server,这个配置至关重要,将会直接影响到pbs_server的运行参数,左右它的运行方式。其中包括对物理集群的管理帐户,操作帐 户,queue的初始化及命名,queue的运行状态,是否是可调度的,默认的queue是哪个,节点的回收时间等等。这些pbs_server的运行参 数都是可以配置的。在pbs_server守护进程运行起来之前,必须要对它进行合理的设置。最简单的方式是在torque包解压出来的根目录中运行命 令: $> torque.setup 其中指的是将要作为torque管理员的用户的用户名 这个脚本将会帮助我们建立一个基本的batch queue,并作了一系列的默认配置,具体的操作如下: set server perators = @headnode set server operators += username@headnode create queue batch set queue batch queue_type = Execution set queue batch started = True set queue batch enabled = True set server default_queue = batch set server resources_default.nodes = 1 set server scheduling = True 如上所示:该默认配置为我们设置了默认的集群管理员的帐户,建立一个queue,命名为 batch,将该queue设置为启动,并enable,然后设置了该queue中的任务都是可执行的等等。通常对pbs_server的配置刚开始的时 候做这些默认的配置就够了,因为在运行的过程中torque提供了管理接口(qmgr,下文将会提到)让我们动态的修改pbs_server的属性。 2.4 指定计算节点
qterm -t quick 关闭pbs_server守护进程 qstat -q 确认所有的提交到任务队列的都被正确的配置 -f 显示目前队列的所有详细信息 -a “All” 所有的队列信息都会以表格的形式显示在stdout上,其中显示了队列中各任务的状态 队列的状态信息包括: C - Job is completed after having run/ E - Job is exiting after having run. H - Job is held. Q - job is queued, eligible to run or routed. R - job is running. T - job is being moved to new location. W - job is waiting for its execution time(-a option) to be reached. S - (Unicos only) job is suspend. qdel 清楚job队列中id为jobid的任务 qmgr -c 'p s' 查看pbs_server的各种信息 pbsnodes -a 查看所有从节点的运行状态 qsub 提交作业 pbs_sched 运行调度守护进程
^ SyntaxError: invalid syntax 目前这个问题的解 决之道是直接将finally这一行给注掉,以后一切运行正常。 6.2 -d指定的目录不存在或者没有权限 error: /home/luoli/.hod/hodrc not found. Specify the path to the HOD configuration file, or define the environment variable HOD_CONF_DIR under which a file named hodrc can be found. 在运行hod命令时,-d选项紧接的参数应该是一个目录,这个目录会在hod动态分配节点时用来保存临时产生的hadoop- site.xml文件,运行hod命令时这个目录一定要存在,且运行命令的用户一定要在该目录下有写权限。