Chinaunix首页 | 论坛 | 博客
  • 博客访问: 25891651
  • 博文数量: 271
  • 博客积分: 10025
  • 博客等级: 上将
  • 技术积分: 3358
  • 用 户 组: 普通用户
  • 注册时间: 2007-11-12 15:28
文章分类

全部博文(271)

文章存档

2010年(71)

2009年(164)

2008年(36)

我的朋友

分类:

2009-08-28 10:55:25

rsct导致的节点集体宕机

Document #: 1811138B02000

Body:
[标题]rsct导致的系统集体宕机

环境:(产品,平台,机型,软件版本,等)AIX5.3.04

问题描述:

某一时刻,十多台服务器集体宕机,没有dump生成。

解答:

检查了errpt,文件集版本,topsvcs 日志,grpsvcs日志。发现是由于RSCT导致的这些机器集体宕机:
TS_LOC_DOWN_ST topsvcs logs adapter is down due to network outage
TS_CPU_USE_ER topsvcs logs too much CPU time processing hags glsm
messages
CORE_DUMP when hatsd core dumps because it is using too much CPU time
GS_TS_RETCODE_ER grpsvcs logs that topsvcs has failed.

出问题机器上的rsct.basic.rte 版本为2.4.5.3

对于AIX5.3,此问题已经由APAR IY84920解决。该补丁将rsct.basic.hacmp and rsct.basic.rte
升级到了2.4.6.0
该补丁还包括了补丁: IY83666 = CPU USAGE INCREASES WITH RSCT 2.4.1.4

在IY84920的基础上,还需要安装补丁IY90070
该补丁将 rsct.basic.rte升级到了 2.4.6.2
该补丁包括了补丁: IY90302 = IBM.CONFIGRM USING TOO MUCH CPU DUE TO HAGSGLSM
MSG
由于某个包过滤器与HATS发生冲突,在接收到包的同时,包过滤器会重复发送这些包,以此导致了HATS
在处理这些包的时候效率降低,紧接着发生了TS_CPU_USR_ER报错,导致了HATS异常关闭。由此最终触
发了系统宕机。

阅读(1637) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~