节点重启的故障分析-douyaqiang123-ChinaUnix博客

流浪者

首页　| 　博文目录　| 　关于我

douyaqiang123

博客访问： 1884497
博文数量： 524
博客积分： 10
博客等级：民兵
技术积分： 2483
用户组：普通用户
注册时间： 2011-06-25 18:36

个人简介

打杂

文章分类

全部博文（524）

存储（5）
防火墙（1）
路由器（1）
网络（6）
linux（85）
weblogic（19）
oracle归档（10）
oracle优化（10）
oracle的故障（11）
oracle的备份（11）
oracle安装（19）
oracle（45）
oracle11g（2）
redis（3）
mongodb（5）
java学习之路（3）
otter（1）
高可用软件（2）
zabbix（18）
oracle的pl/sql编（1）
学习shell编程（7）
监控工具nagios（1）
rsync（6）
监控管理（3）
hbase（3）

hbase下的java编（0）
hadoop（3）
数据库设计（9）
oracle面试（6）
mysq（194）

pxc（5）

mysql备份（21）

mysql的存储过程（25）

mysql管理工具（3）

mysq集群（12）

mysql学习（20）

mysq故障处理（14）

mysq安装（14）
DB数据库（3）
LogMiner工具（2）
dg（3）
RAC（11）
oracle数据迁移（2）
OCP（9）
项目管理（2）
未分配的博文（2）

文章存档

2022年（3）

2021年（9）

2019年（1）

2018年（32）

2017年（11）

2016年（152）

2015年（198）

2014年（118）

我的朋友

相关博文

节点重启的故障分析

分类： Oracle

2014-12-11 10:55:15

原文地址：节点重启的故障分析作者：brjl

遇到10G RAC单节点重启的故障按照以下步骤检查：
首先可以结合操作系统的dump文件确定是哪个进程导致的重启。或者是否是其他问题。

如果时cssd.bin导致重启，最常见的重启问题：

一：察看crs下ocssd.log集群日志文件。搜索关键字：WARNING察看有没有问题存在。

如果出现连续30个如下错误报警导致重启：

[ CSSD]2008-10-30 15:23:36.483 [3086] >WARNING: clssnmPollingThread: node p595-2 (2) at 50% heartbeat fatal, eviction in 14.701 seconds

检查网络心跳链路：主机私有网卡，交换机，线路，hosts文件是否正常。

如出现短暂的如下错误，例如只出现一两个，一个节点就被驱逐导致重启：

[ CSSD]2008-10-30 15:23:36.483 [3086] >WARNING: clssnmPollingThread: node p595-2 (2) at 50% heartbeat fatal, eviction in 14.701 seconds

请检查磁盘心跳votedisk和ocr是否正常，确定是否使用文件系统（确定文件系统工作正常）。

检查votedisk：crsctl query css votedisk

检查ocr:ocrcheck

如果出现以下错误：WARNING: clssnmPollingThread: node p595-2 (2) at 50% heartbeat fatal, eviction in 13.644 seconds

问题出在磁盘心跳请依照上面检查。

二：

2.检查看看系统是否处在高负载状态，cpu，内存等。

3．察看是否为误操作，删除crs_home。

4．Css的设置问题，hosts文件等

5．杀死init.cssd fatal进程和 ocssd进程

6．Oracle bug问题

- An Oracle bug. Known bugs that can cause CSS reboots:

Note 264699.1 - CSS Fails to Flush Writes After Installing 10.1.0.2 CRS on Linux with OCFS

Bug 3942568 - A deadlock can occur between 2 threads of the CSS daemon process.

Fixed in 10.1.0.4 and above.

SOLARIS ONLY: See these bugids that fixed the problem (in Solaris 9; the fixes were backported to Solaris 8 Update 6):

三：检查操作系统设置参数：

检查操作系统中/etc/init.d/init.cssd文件中参数：

OPROCD_DEFAULT_MARGIN最少设置为为500。（避免节点重启）

-t : 超时时间，缺省1000，单位毫秒 (OPROCD_DEFAULT_TIMEOUT=1000)
-m : 重启前可接受的延迟，单位毫秒，缺省500 (OPROCD_DEFAULT_MARGIN=500)

检查ORACLE提供的CLUSTER来说，是否设置为最少css MISSCOUNT是600秒。（crsctl命令修改）

转自http://kongjian.baidu.com.cn/kuangyl_/blog/item/13f5fb5b4d54d6d29d82044c.html

RAC节点宕机解决技巧步骤二：问题的解决技巧

通过对上面两个日志的分析，我们基本可以确定的是，由于IPC包发送失败导致CRS认为心跳失败，为了避免“脑裂”现象，节点1主动驱逐了节点２；此外的几次down情况类似。

我们知道，在一个共享存储的集群中，当集群中hearbeat丢失时，如果各节点还是同时对共享存储去进行操作，那么在这种情况下所引发的情况是灾难的。ORACLE RAC采用投票算法来解决这个问题，思想是这样的：

首先，每个节点都有一票，考虑有A，B，C三个节点的集群情形，当A节点由于各种原因不能与B，C节点通信时，那么这集群分成了两个DOMAIN,A节点成为一个DOMAIN，拥有一票；B,C节点成为一个DOMAIN拥有两票，那么这种情况B，C节点拥有对集群的控制权，从而把A节点踢出集群，对要是通IO FENCING来实现。如果是两节点集群，则引入了仲裁磁盘，当两个节点不能通信时，请求最先到达仲裁磁盘的节点拥用对集群的控制权。

在网络正常的情况下,IPC包发送超时，首先想到是不是遇到了bug，到Metalink上查了查，发现一个bug与我们的现象吻合。Bug编号为：6782276，在10.2.0.4中得到了修复。接下来就是按部就班的打补丁了。

转自

oracle 的RAC节点驱逐原因分三种，《参照oracle文档(Doc ID 559365.1)》：

1、Node is not pinging via the network heartbeat

2、Node is not pinging the Voting disk

3、Node is hung/busy and is unable to perform either of the earlier tasks

故障解决建议

因为发生故障时间很短，从日志中没有查到相关的进程信息，建议安装OSW来监控服务器信息。如果下次发现同样的问题，可以从OSW中抓取到具体进程信息。再来调试相关的出错进程。

转自 http://blog.csdn.net/csucxcc/article/details/5685048

阅读(1280) | 评论(0) | 转发(0) |

上一篇：定期删除Oracle RAC环境下的归档日志

下一篇：ocr / vote disk 的维护

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6