DOSXYZ在IBM sungrid上一直运行还可以,最近突然发现,很多时候,提交的任务根本没有执行就匆匆结束了。有时候重复很多次提交才会有一些并行的任务被执行,还是只有部分,随机的,提交50个,也许只有10个被执行。这些不被执行的任务连一点痕迹都没有留下,唯有egsrun文件夹里面的log文件报告无法打开lock文件。
非常诡异。简直都要放弃了。
之前以为是grid配置里面的batch_sleep_time造成的,把它从1改成2,好了一下下,然后又不行了。
最后发现原来是DOSXYZ配置里面的IMAX,JMAX,ZMAX设置的太大造成部分cluster节点的内存不足造成的。因为cluster上部分老节点内存不多,或者即使在新节点上,如果同时还被其它任务占了内存,就会导致提交的任务无法执行,自行退出。
阅读(854) | 评论(0) | 转发(0) |