解答: 检查了errpt,文件集版本,topsvcs 日志,grpsvcs日志。发现是由于RSCT导致的这些机器集体宕机: TS_LOC_DOWN_ST topsvcs logs adapter is down due to network outage TS_CPU_USE_ER topsvcs logs too much CPU time processing hags glsm messages CORE_DUMP when hatsd core dumps because it is using too much CPU time GS_TS_RETCODE_ER grpsvcs logs that topsvcs has failed.
出问题机器上的rsct.basic.rte 版本为2.4.5.3
对于AIX5.3,此问题已经由APAR IY84920解决。该补丁将rsct.basic.hacmp and rsct.basic.rte 升级到了2.4.6.0 该补丁还包括了补丁: IY83666 = CPU USAGE INCREASES WITH RSCT 2.4.1.4
在IY84920的基础上,还需要安装补丁IY90070 该补丁将 rsct.basic.rte升级到了 2.4.6.2 该补丁包括了补丁: IY90302 = IBM.CONFIGRM USING TOO MUCH CPU DUE TO HAGSGLSM MSG 由于某个包过滤器与HATS发生冲突,在接收到包的同时,包过滤器会重复发送这些包,以此导致了HATS 在处理这些包的时候效率降低,紧接着发生了TS_CPU_USR_ER报错,导致了HATS异常关闭。由此最终触 发了系统宕机。