节点重启的故障分析-brjl-ChinaUnix博客

沧海拾贝brjl.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

brjl

博客访问： 3785387
博文数量： 715
博客积分： 1860
博客等级：上尉
技术积分： 7745
用户组：普通用户
注册时间： 2008-04-07 08:51

个人简介

偶尔有空上来看看

文章分类

全部博文（715）

ogg（1）
达梦（39）
分区（3）
安全（2）
统计信息（8）
安装（31）
基础概念（88）
opatch（5）
asm（11）
脚本（9）
rman（15）
dataguard（32）
故障诊断（71）
优化器（4）
pdb（4）
VMWARE（2）
OMS（15）
借鉴参考（98）
学习目标（33）
遇到疑问（59）
待做实验（36）
参数基线（40）
经验感想（75）
未分配的博文（34）

文章存档

2023年（75）

2022年（134）

2021年（238）

2020年（115）

2019年（11）

2018年（9）

2017年（9）

2016年（17）

2015年（7）

2014年（4）

2013年（1）

2012年（11）

2011年（27）

2010年（35）

2009年（11）

2008年（11）

我的朋友

相关博文

节点重启的故障分析

分类： Oracle

2012-03-19 11:58:44

遇到10G RAC单节点重启的故障按照以下步骤检查：
首先可以结合操作系统的dump文件确定是哪个进程导致的重启。或者是否是其他问题。

如果时cssd.bin导致重启，最常见的重启问题：

一：察看crs下ocssd.log集群日志文件。搜索关键字：WARNING察看有没有问题存在。

如果出现连续30个如下错误报警导致重启：

[ CSSD]2008-10-30 15:23:36.483 [3086] >WARNING: clssnmPollingThread: node p595-2 (2) at 50% heartbeat fatal, eviction in 14.701 seconds

检查网络心跳链路：主机私有网卡，交换机，线路，hosts文件是否正常。

如出现短暂的如下错误，例如只出现一两个，一个节点就被驱逐导致重启：

[ CSSD]2008-10-30 15:23:36.483 [3086] >WARNING: clssnmPollingThread: node p595-2 (2) at 50% heartbeat fatal, eviction in 14.701 seconds

请检查磁盘心跳votedisk和ocr是否正常，确定是否使用文件系统（确定文件系统工作正常）。

检查votedisk：crsctl query css votedisk

检查ocr:ocrcheck

如果出现以下错误：WARNING: clssnmPollingThread: node p595-2 (2) at 50% heartbeat fatal, eviction in 13.644 seconds

问题出在磁盘心跳请依照上面检查。

二：

2.检查看看系统是否处在高负载状态，cpu，内存等。

3．察看是否为误操作，删除crs_home。

4．Css的设置问题，hosts文件等

5．杀死init.cssd fatal进程和 ocssd进程

6．Oracle bug问题

- An Oracle bug. Known bugs that can cause CSS reboots:

Note 264699.1 - CSS Fails to Flush Writes After Installing 10.1.0.2 CRS on Linux with OCFS

Bug 3942568 - A deadlock can occur between 2 threads of the CSS daemon process.

Fixed in 10.1.0.4 and above.

SOLARIS ONLY: See these bugids that fixed the problem (in Solaris 9; the fixes were backported to Solaris 8 Update 6):

三：检查操作系统设置参数：

检查操作系统中/etc/init.d/init.cssd文件中参数：

OPROCD_DEFAULT_MARGIN最少设置为为500。（避免节点重启）

-t : 超时时间，缺省1000，单位毫秒 (OPROCD_DEFAULT_TIMEOUT=1000)
-m : 重启前可接受的延迟，单位毫秒，缺省500 (OPROCD_DEFAULT_MARGIN=500)

检查ORACLE提供的CLUSTER来说，是否设置为最少css MISSCOUNT是600秒。（crsctl命令修改）

转自http://kongjian.baidu.com.cn/kuangyl_/blog/item/13f5fb5b4d54d6d29d82044c.html

RAC节点宕机解决技巧步骤二：问题的解决技巧

通过对上面两个日志的分析，我们基本可以确定的是，由于IPC包发送失败导致CRS认为心跳失败，为了避免“脑裂”现象，节点1主动驱逐了节点２；此外的几次down情况类似。

我们知道，在一个共享存储的集群中，当集群中hearbeat丢失时，如果各节点还是同时对共享存储去进行操作，那么在这种情况下所引发的情况是灾难的。ORACLE RAC采用投票算法来解决这个问题，思想是这样的：

首先，每个节点都有一票，考虑有A，B，C三个节点的集群情形，当A节点由于各种原因不能与B，C节点通信时，那么这集群分成了两个DOMAIN,A节点成为一个DOMAIN，拥有一票；B,C节点成为一个DOMAIN拥有两票，那么这种情况B，C节点拥有对集群的控制权，从而把A节点踢出集群，对要是通IO FENCING来实现。如果是两节点集群，则引入了仲裁磁盘，当两个节点不能通信时，请求最先到达仲裁磁盘的节点拥用对集群的控制权。

在网络正常的情况下,IPC包发送超时，首先想到是不是遇到了bug，到Metalink上查了查，发现一个bug与我们的现象吻合。Bug编号为：6782276，在10.2.0.4中得到了修复。接下来就是按部就班的打补丁了。

转自

oracle 的RAC节点驱逐原因分三种，《参照oracle文档(Doc ID 559365.1)》：

1、Node is not pinging via the network heartbeat

2、Node is not pinging the Voting disk

3、Node is hung/busy and is unable to perform either of the earlier tasks

故障解决建议

因为发生故障时间很短，从日志中没有查到相关的进程信息，建议安装OSW来监控服务器信息。如果下次发现同样的问题，可以从OSW中抓取到具体进程信息。再来调试相关的出错进程。

转自 http://blog.csdn.net/csucxcc/article/details/5685048

阅读(2421) | 评论(0) | 转发(1) |

上一篇：oracle 安装介质下载

下一篇：判断oracle表的字段中是否有中文的方法

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6