下午2:50主节点与登录节点系统负载突然升高。
查日志,怀疑过NFS的问题(这是一个old问题了),但是当时存储节点负载没有大的变化,所以排除。
接下来排除了内存错误,因为登录节点的负载在重起主节点后恢复了正常。
有一个发现是归LSF管理的范围内的所有计算节点在同一时刻有了几乎相同的负载上升,而pbs的节点没有问题。所以推测是LSF的软件问题,相关进程可能是mbd。
这个错误比较郁闷,用LSF的人不多,目前也没有听说过有这个bug...
明天继续diagnose...
阅读(1839) | 评论(0) | 转发(0) |