偶尔有空上来看看
分类: Oracle
2012-03-19 11:58:44
如果时cssd.bin导致重启,最常见的重启问题:
一:察看crs下ocssd.log集群日志文件。搜索关键字:WARNING察看有没有问题存在。
如果出现连续30个如下错误报警导致重启:
[ CSSD]2008-10-30 15:23:36.483 [3086] >WARNING: clssnmPollingThread: node p595-2 (2) at 50% heartbeat fatal, eviction in 14.701 seconds
检查网络心跳链路:主机私有网卡,交换机,线路,hosts文件是否正常。
如出现短暂的如下错误,例如只出现一两个,一个节点就被驱逐导致重启:
[ CSSD]2008-10-30 15:23:36.483 [3086] >WARNING: clssnmPollingThread: node p595-2 (2) at 50% heartbeat fatal, eviction in 14.701 seconds
请检查磁盘心跳votedisk和ocr是否正常,确定是否使用文件系统(确定文件系统工作正常)。
检查votedisk:crsctl query css votedisk
检查ocr:ocrcheck
如果出现以下错误:WARNING: clssnmPollingThread: node p595-2 (2) at 50% heartbeat fatal, eviction in 13.644 seconds
问题出在磁盘心跳请依照上面检查。
二:
2.检查看看系统是否处在高负载状态,cpu,内存等。
3.察看是否为误操作,删除crs_home。
4.Css的设置问题,hosts文件等
5.杀死init.cssd fatal进程和 ocssd进程
6.Oracle bug问题
- An Oracle bug. Known bugs that can cause CSS reboots:
Note 264699.1 - CSS Fails to Flush Writes After Installing 10.1.0.2 CRS on Linux with OCFS
Bug 3942568 - A deadlock can occur between 2 threads of the CSS daemon process.
Fixed in 10.1.0.4 and above.
SOLARIS ONLY: See these bugids that fixed the problem (in Solaris 9; the fixes were backported to Solaris 8 Update 6):
三:检查操作系统设置参数:
检查操作系统中/etc/init.d/init.cssd文件中参数:
OPROCD_DEFAULT_MARGIN最少设置为为500。(避免节点重启)
-t : 超时时间,缺省1000,单位毫秒 (OPROCD_DEFAULT_TIMEOUT=1000)
-m : 重启前可接受的延迟,单位毫秒,缺省500 (OPROCD_DEFAULT_MARGIN=500)
检查ORACLE提供的CLUSTER来说,是否设置为最少css MISSCOUNT是600秒。(crsctl命令修改)
oracle 的RAC节点驱逐原因分三种,《参照oracle文档(Doc ID 559365.1)》:
1、Node is not pinging via the network heartbeat
2、Node is not pinging the Voting disk
3、Node is hung/busy and is unable to perform either of the earlier tasks
故障解决建议
因为发生故障时间很短,从日志中没有查到相关的进程信息,建议安装OSW来监控服务器信息。如果下次发现同样的问题,可以从OSW中抓取到具体进程信息。再来调试相关的出错进程。