Chinaunix首页 | 论坛 | 博客
  • 博客访问: 113929
  • 博文数量: 23
  • 博客积分: 1536
  • 博客等级: 上尉
  • 技术积分: 271
  • 用 户 组: 普通用户
  • 注册时间: 2008-12-26 20:01
文章分类

全部博文(23)

文章存档

2010年(13)

2009年(10)

我的朋友

分类:

2010-04-09 14:16:12

--摘自IBM论坛

 

有时我们在装有hacmp的系统中会在error report 中发现TS_NIM_ERROR_STUCK_ER的错误报告。

 

下满是对它的解释和解决方法:

 

说明:     这个信息是反映NIM 中某一个线程被锁死了。

 

详细解释: 该信息显示了NIM中的某一个线程长时间没有相应或者在一段时间内被锁死

了。根据线程的类型和锁死时间的的长短, 正在响应NIM 进程的 adapter

(适配器)会被认为宕掉了。

 

例子:

LABEL:          TS_NIM_ERROR_STUCK_
IDENTIFIER:     864D2CE3
Date/Time:       Tue Jun 29 00:10:42 EDT
Sequence Number: 57941
Machine Id:      0027078A4C00
Node Id:         ammk37
Class:           S
Type:            PERM
Resource Name:   topsvcs
Description
NIM thread blocked
Probable Causes
A thread in a Topology Services Network Interface Module (NIM) process
was blocked
Topology Services NIM process cannot get timely access to CPU
User Causes
Excessive memory consumption is causing high memory contention
Excessive disk I/O is causing high memory contention
        Recommended Actions
        Examine I/O and memory activity on the system
        Reduce load on the system
        Tune virtual memory parameters
        Call IBM Service if problem persists
Failure Causes
Excessive virtual memory activity prevents NIM from making progress
Excessive disk I/O traffic is interfering with paging I/O
        Recommended Actions
        Examine I/O and memory activity on the system
        Reduce load on the system
        Tune virtual memory parameters
        Call IBM Service if problem persists
Detail Data
DETECTING MODULE
rsct,nim_control.C,1.29,5242
ERROR ID
6XnGH400jCs./RNU.0pK4g0...................
REFERENCE CODE
Thread which was blocked
receive thread
Interval in seconds during which process was blocked
          30
Interface name
tty2

 

在上述例子中,我们看到了系统说明了这是一个NIM 线程被锁死的错误,以及可能导致的

原因及处理方法。 一般这种错误可能是由于系统资源耗尽或者异常大量io 造成的。

Thread which was blocked 中指定了被锁死的进程。在Interval in seconds during which process was blocked 中注明了线程被锁定的时间。在interface
中说明的受影响的adapter(适配器)
 
解决办法:
如果没有产生adapter down event , 那么这个信息可以忽略不计。因为她不是使cluster 会产生警示的错误报告 。 
 
但是下面有两种方法可以阻止或减少该种错误报告的产生。 
 
1.       升级 bos.rte.libpthreads 的包到最新的级别。
2.       降低NIM failure detact rate.
   smitty hacmp
  cluster config
    cluster topology
      configure Network Modules
       Change a Network Module using Predefined Values
   rs232 Ethernet 的值都调慢。 
阅读(1037) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~