Chinaunix首页 | 论坛 | 博客
  • 博客访问: 71898
  • 博文数量: 35
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 12
  • 用 户 组: 普通用户
  • 注册时间: 2015-03-26 20:17
文章分类
文章存档

2015年(35)

我的朋友

分类: LINUX

2015-03-26 20:20:33

DOSXYZ在IBM sungrid上一直运行还可以,最近突然发现,很多时候,提交的任务根本没有执行就匆匆结束了。有时候重复很多次提交才会有一些并行的任务被执行,还是只有部分,随机的,提交50个,也许只有10个被执行。这些不被执行的任务连一点痕迹都没有留下,唯有egsrun文件夹里面的log文件报告无法打开lock文件。
非常诡异。简直都要放弃了。
之前以为是grid配置里面的batch_sleep_time造成的,把它从1改成2,好了一下下,然后又不行了。
最后发现原来是DOSXYZ配置里面的IMAX,JMAX,ZMAX设置的太大造成部分cluster节点的内存不足造成的。因为cluster上部分老节点内存不多,或者即使在新节点上,如果同时还被其它任务占了内存,就会导致提交的任务无法执行,自行退出。
阅读(786) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~