Chinaunix首页 | 论坛 | 博客
  • 博客访问: 206406
  • 博文数量: 60
  • 博客积分: 2142
  • 博客等级: 大尉
  • 技术积分: 560
  • 用 户 组: 普通用户
  • 注册时间: 2006-11-13 00:08
文章分类

全部博文(60)

文章存档

2010年(2)

2009年(7)

2008年(30)

2007年(21)

我的朋友

分类: 项目管理

2008-04-09 17:16:29

% mkdir -p < 安装目录>
% chown < 管理员用户> < 安装目录>
% chmod 755 < 安装目录>
NIS 服务或 NIS+ 数据库
添加如下语句至服务数据库。
% sge_commd535/tcp
若您的站点上并未运行 NIS,
则可添加上述服务至每台主机上的
/etc/services 文件中。
% cd sge 根目录
% tar -xvpf 源发行文件
% ./install_qmaster  (control server)
% ./install_execd    (execute server)
sge_qmaster 只在主控主机上运行。 它是重要的群集活动控制守护程序。
sge_schedd 也只能在主控主机上调用。 此守护程序用于在 Sun Grid Engine群集中分配工作负荷。
sge_execd 用于在执行主机上执行作业,因此它运行在所有执行主机上。 主机上实际执行的每项作业运行一个 sge_shepherd 的实例。
sge_shepherd 控制作业进程分层结构并在作业结束后收集帐户统计数据。 sge_commd 运行在每台执行主机和主控主机上。 所有 sge_commd 的网络组
成了 Sun Grid Engine 群集网络通讯的主干。
% qconf -ah 管理主机名 [,...]
% qconf -as 提交主机名 [,...]
% qconf -sconf

命令         管理人员       操作人员    拥有者    用户
qacct          全部         全部       仅适于自己的作业
qalter         全部         全部       仅适于自己的作业
qconf          全部       无系统设置  仅可显示配置和访问
                            修改权                                    
qdel           全部         全部       仅适于自己的作业
qhold          全部         全部       仅适于自己的作业
qhost          全部         全部          全部
qlogin         全部         全部          全部
qmod           全部         全部      仅适于自己的作业                                   
qmon           全部    无系统设置修改权 无配置更改权
qrexec         全部         全部          全部
qselect        全部         全部          全部
qsh            全部         全部          全部
qstat          全部         全部          全部
qsub           全部         全部          全部

显示队列的列表
  % qconf -sql
显示队列特性
  % qconf -sq 队列名
/< 单元>/common/act_qmaster此文件中有当前主控主机的名称
显示执行主机列表
  % qconf -sel
  % qconf -se 主机名称
  % qhost
显示管理主机列表
  % qconf -sh
显示提交主机列表
  % qconf -ss
显示可请求属性列表
  % qconf -scl
  % qconf -sc 属性组名称 [,...]
当前配置的 ACL 列表
  % qconf -sul
  % qconf -su ACL 名称 [,...]
使用以下命令可获得 Sun Grid Engine 管理人员的列表
  % qconf -sm
要显示操作人员的列表:
  % qconf -so

设置适当的可执行搜索路径和其它环境条件。
  % source sge 根目录/default/common/settings.csh(csh or tcsh)
  # . sge 根目录/default/common/settings.sh(sh ksh bash)
将以下简单作业脚本提交给 Sun Grid Engine 群集。
  % qsub simple.sh

% qsub -N Flow -p -111 -a 200012240000.00 -cwd \
    -S /bin/tcsh -o flow.out -j y flow.sh big.data

% qsub -N Flow -p -111 -a 200012240000.00 -cwd \
    -S /bin/tcsh -o flow.out -j y -pe mpi 4-16 \
    -v SHARED_MEM=TRUE,MODEL_SIZE=LARGE \
    -ac JOB_STEP=preprocessing,PORT=1234 \
    -A FLOW -w w -r y -m s,e -q big_q\
    -M \
    flow.sh big.data
从命令行提交阵列作业
  % qsub -l h_cpu=0:45:0 -t 2-10:2 render.sh data.in
提交交互式作业
  % qsh -l arch=solaris64
  % qlogin -l star-cd=1,h_cpu=6:0:0
检索作业的状态信息
  % qstat

透明点检查作业脚本
  #!/bin/sh
  #Force /bin/sh in Sun Grid Engine
  #$ -S /bin/csh
  # Test if restarted/migrated
  if [ $RESTARTED = 0 ]; then  
     # 0 = not restarted
     # Parts to be executed only during the first
     # start go in here
     set_up_grid
  fi
  # Start the checkpointing executable
  fem
  #End of scriptfile

除 qsub -ckpt 和 -c 选项(它们请求点检查机制并且定义对作业进行点检查的时机)外,提交点检查作业的方式与常规批处理脚本相同。 -ckpt 选项带一个自变量,它是要使用的点检查环境的名称。-c 选项不是必需的,它也带一个自变量。它可用于覆盖点检查环境配置中 when 参数的
定义。
-c 选项的自变量可以是以下单字母选项中的任一个(或其任意组合)或时间值。
n – 不执行点检查。此项优先级最高。
s – 检查点仅在作业主机上的 sge_execd 关闭时才产生。
m – 按相应队列配置中定义的最小 CPU 时间间隔产生检查点(参见queue_conf 手册页中的 min_cpu_interval 参数)。
x – 作业暂停时产生检查点。
interval – 以给定时间间隔产生检查点,但其频率不高于
min_cpu_interval 定义的值(参见上文)。时间值必须以 hh:mm:ss 形式指定(小时两位、分钟两位、秒两位,用冒号分开)。
点检查作业的监视 方式与常规作业不同,因为这些作业可能不时迁移(通过qstat 输出中的迁移状态 m 表示,请参见上述内容),并且因此不会固定于某个队列。不过,唯一的作业标识号以及作业名保持不变。

用 qstat 监视作业
  % qstat
  % qstat -f
qsub -m 开关选项请求在发生某些事件时将电子邮件发送到提交作业的用户,或者发送到由 -M 标志指定的电子邮件地址(有关标志的描述,参见 qsub 手册页)。-m 选项的自变量指定事件。有以下自变量供选择:
 b – 作业开始时发电子邮件。
 e – 作业结束时发送电子邮件。
 a – 作业中止时发送电子邮件(例如,被 qdel 命令中止)。
 s – 作业暂停时发送邮件。
 n – 不发送邮件(缺省值)。

命令行控制作业
  % qdel 作业 ID
  % qdel -f 作业 ID 1, 作业 ID 2
  % qmod -s 作业 ID
  % qmod -us -f 作业 ID 1, 作业 ID 2

用 qmod 控制队列
  % qmod -s 队列名                     暂停
  % qmod -us -f 队列名 1、队列名 2     取消暂停队列
  % qmod -d 队列名                     禁用队列
  % qmod -e 队列名 1 队列名 2 队列名 3   启用队列
% qmod -s 作业 ID. 任务 ID 范围

添加管理主机 — 将指定主机添至管理主机列表
 qconf -ah 主机名
删除管理主机 — 将指定主机从管理主机列表中删除
qconf -dh 主机名
显示管理主机 — 显示所有当前已配置的管理主机的列表
qconf -sh

添加提交主机 — 将指定主机添至提交主机列表。
qconf -as 主机名
删除提交主机 — 将指定主机从提交主机列表中删除
qconf -ds 主机名
显示提交主机 — 显示所有当前配置为提供提交权限的主机列表
qconf -ss
添加执行主机 — 此命令启动一个编辑器(缺省情况下为 vi 或 $EDITOR 环境变量
对应的编辑器),其中显示执行主机配置模板。若提供可选参数执行主机模板(已
经配置的执行主机名称),此执行主机的配置将用作模板。通过更改模板并将其保
存至磁盘来配置执行主机。 请参见《Sun Grid Engine 5.3 和 Sun Grid Engine 5.3
(企业版)参考手册》中的 host_conf 项以获得要更改的模板项的详细说明
qconf -ae [ 执行主机模板]
删除执行主机 — 将指定主机从执行主机列表中删除。执行主机配置中的所有项都
将丢失。
qconf -de 主机名
修改执行主机 — 此命令启动一个编辑器(缺省情况下为 vi 或 $EDITOR 环境变量
对应的编辑器),其中显示指定的执行主机配置(即模板)。通过更改模板并将其
保存至磁盘来修改执行主机配置。 请参见 《Sun Grid Engine 5.3 和 Sun Grid
Engine 5.3 (企业版)参考手册》中的 host_conf 手册页以获得要更改的模板项
的详细说明
qconf -me 主机名
修改执行主机 — 将文件名 的内容用作执行主机配置模板。指定文件中的配置必须
关涉现有执行主机。此执行主机的配置将由该文件的内容代替。 此 qconf 选项对
于脱机更改执行主机配置很有用;例如,在 cron 作业中, 因为它不需要任何手动
交互操作。
qconf -Me 文件名
显示执行主机 — 显示所指定执行主机的配置(如 host_conf 中所定义)。
qconf -se 主机名
显示执行主机列表 — 显示配置为执行主机的主机名列表。
qconf -sel
qhost 监视执行主机
% qhost

% qconf -kej
% qconf -ks
% qconf -km
第一行命令将中止当前所有活动的作业,并关闭所有 Sun Grid Engine 执行守护
程序。
% qhost

中止当前所有活动的作业,并关闭所有 Sun Grid Engine 执行守护程序
% qconf -kej
注意– 若用 qconf -ke 代替该命令, Sun Grid Engine 执行守护程序将中止,但不
会取消活动的作业。直到 sge_execd 再次重新启动,系统中在 sge_execd 未运
行时结束的作业才会报告给 sge_qmaster。不过,作业报告不会丢失。
关闭 Sun Grid Engine 调度程序 sge_schedd
% qconf -ks
强制终止 sge_qmaster 进程
% qconf -km
若有正在运行的作业,并且想等到当前活动的作业结束后再关闭 Sun Grid Engine
过程,可在执行上述 qconf 命令行之前对每个队列使用以下命令
qmod -d 队列名
命令行重新启动守护程序
以 root 用户身份登录到要重新启动 Sun Grid Engine 5.3 守护程序的机器。
% /< 单元>/common/rcsge

显示基本群集配置
% qconf -sconf
% qconf -sconf global
% qconf -sconf < 主机>
修改基本群集配置
% qconf -mconf global
% qconf -mconf < 主机>

添加队列 — 此命令启动一个编辑器(缺省情况下为 vi 或 $EDITOR 环境变量
对应的编辑器),其中显示队列配置模板。如果提供可选参数队列名,则此队列
的配置将用作模板。可通过更改模板并将其保存至磁盘来配置队列。请参见
qconf -aq [ 队列名]
添加队列 — 用文件文件名 来定义一个队列。定义文件可能已由 qconf -sq 队
列名 生成
qconf -Aq 文件名
清除队列 — 清除指定队列的状态,使之闲置,停止运行作业。状态复位,且不考
虑当前状态。该选项对于排除错误情形很有用,但不宜在常规操作模式下使用。
qconf -cq 队列名[,...]
删除队列 — 从可用队列列表中删除自变量列表中指定的队列。
qconf -dq 队列名[,...]
修改队列 — 修改指定的队列。启动一个编辑器(缺省情况下为 vi 或 $EDITOR
环境变量对应的编辑器),其中显示欲更改的队列的配置。通过更改配置并保存
至磁盘来修改队列。
qconf -mq 队列名
修改队列 — 用文件文件名 来定义已修改的队列配置。定义文件可能已由
qconf -sq 队列名 生成(参见下文)和并进行过后续修改。
qconf -Mq 文件名
显示队列 — 显示缺省模板队列配置(若不带自变量)或以逗号分隔的自变量列
表中所列队列的当前配置。
qconf -sq [ 队列名[,...]]
显示队列列表 — 显示所有当前已配置队列的列表。
qconf -sql
显示队列列表 — 显示所有当前已配置队列的列表。

添加日历 – 此命令向 Sun Grid Engine 群集添加一个新的日历配置。 要添加的日
历要么从文件读取,要么是打开一个编辑器,其中显示模板配置,您可在此输入
日历。
qconf -Acal, -acal
删除 – 日历。
qconf -dcal
修改日历 – 此命令修改现有的日历配置。 要修改的日历要么从文件读取
(-Mcal),要么是打开一个编辑器,其中显示原先的配置,您可在此输入新的定
义 (-mcal)
qconf -Mcal, -mcal
显示日历 – 此命令显示现有日历配置 (-scal),或显示一份所有已配置日历的列
表 (-scall)。
qconf -scal, -scall

将新属性组添加到可用属性组列表。
qconf -Ac, -ac
修改现有属性组。
qconf -Mc, -mc

添加管理人员 – 此命令将一位或多位用户添加到 Sun Grid Engine 管理人员列
表。 缺省情况下,所有 Sun Grid Engine 受托主机的 root 账户(请参见第131 页
的“关于守护程序和主机”一节)均为 Sun Grid Engine 管理人员。
qconf -am 用户名[,...]
删除管理人员 – 此命令从 Sun Grid Engine 管理人员列表删除指定用户。
qconf -dm 用户名[,...]
显示管理人员 – 此命令显示所有 Sun Grid Engine 管理人员的列表。
qconf -sm
添加操作人员 – 此命令将一位或多位用户添加到 Sun Grid Engine 操作人员列表。
qconf -ao 用户名[,...]
删除操作人员 – 此命令从 Sun Grid Engine 操作人员列表删除指定用户。
qconf -do 用户名[,...]
显示操作人员 – 此命令显示所有 Sun Grid Engine 操作人员的列表。
qconf -so

添加用户 – 此命令将一个或多个用户添加到指定的访问列表。
qconf -au 用户名[,...] 访问列表名[,...]
删除用户 – 此命令从指定的访问列表中删除一个或多个用户。
qconf -du 用户名[,...] 访问列表名[,...]
显示用户访问列表 – 此命令显示指定的访问列表。
qconf -su 访问列表名[,...]
显示用户访问列表 – 此命令显示当前已定义的所有访问列表清单。
qconf -sul

作业优先级通过以下命令分配给作业。
% qalter -p 优先级 作业 ID ... (-1023-1024)
作业调度信息是否可通过 qstat -j 访问,

添加点检查环境 — 此命令启动一个带点检查环境配置模板的编辑器(缺省情况
下为 vi 或 $EDITOR 环境变量所对应的编辑器)。参数点检查名称 指定点检查
环境的名称,并已填入模板的相应字段。更改模板并将其保存到磁盘,即可配置
点检查环境。
qconf -ackpt 点检查名称
删除点检查环境 — 此命令删除指定的点检查环境。
qconf -dckpt 点检查名称
修改点检查环境 — 此命令启动一个以指定点检查环境作为配置模板的编辑器
qconf -mckpt 点检查名称
显示点检查环境 — 此命令将指定点检查环境的配置显示到标准输出。
qconf -sckpt 点检查名称
显示点检查环境列表 — 此命令显示所有当前已配置的点检查环境的名称列表
qconf -sckptl

添加并行环境 — 此命令启动一个带 PE 配置模板的编辑器(缺省情况下为 vi
或 $EDITOR 环境变量对应的编辑器)。参数并行环境名 指定 PE 的名称,并已
填入模板的相应字段。更改此模板并将其保存到磁盘,即可配置 PE。
qconf -ap 并行环境名
删除并行环境 — 此命令删除指定的 PE。
qconf -dp 并行环境名
修改并行环境 — 此命令启动一个编辑器(缺省情况下为 vi 或$EDITOR 环境
变量对应的编辑器),其中显示的配置模板即为指定的 PE。更改模板并将其保
存到磁盘,即可修改 PE。
qconf -mp 并行环境名
显示并行环境 — 此命令将指定 PE 的配置显示到标准输出。
qconf -sp 并行环境名
显示并行环境列表 — 此命令显示所有当前已配置并行环境的名称列表。
qconf -spl

显示已配置的 PE 接口
% qconf -spl
% qconf -sp 并行环境名

在调试模式下运行 Sun Grid Engine 程序
source /util/dl.csh
. /util/dl.sh
% dl level(0 - 10)

阅读(3413) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~