RAC中常见的问题及处理方式-weijun1235-ChinaUnix博客

枯藤老树昏鸦，小桥流水人家

首页　| 　博文目录　| 　关于我

weijun1235

博客访问： 122016
博文数量： 28
博客积分： 0
博客等级：民兵
技术积分： 205
用户组：普通用户
注册时间： 2014-01-12 15:22

个人简介

没有挫败，只有暂未成功而已。

文章分类

全部博文（28）

Linux运维（5）

常用命令（1）
ORACLE日记（23）

RAC（2）

oracle12C（2）

LISTENER（1）

oracle优化（3）

profile（2）

tablespace（2）
未分配的博文（0）

文章存档

2018年（28）

我的朋友

相关博文

RAC中常见的问题及处理方式

分类： Oracle

2018-09-30 16:58:31

1、Oracle rac 安装常见问题
安装RAC需要注意的问题：
主机名大写
主机名有下划线，中划线
主机操作系统包安装少
操作系统少补丁
主机防火墙打开
主机内核参数没有更改
主机操作系统的时间
存储多路径软件
主机root用户/etc/security/limits文件
主机网关没有设置
/etc/hosts文件 127.0.0.1不能注释，后边也不要添加主机名

2、Oracle rac 运维注意事项
日常维护注意事项：
不要安装后随便更改用户和组id
Oracle rac 各个实例单独巡检
应用连接oracle rac 高可用
Oracle rac 备份和恢复（集群文件系统，asm，lvm）
Oracle rac crs日志和rdbms 日志检查
Oracle rac调优，包括应用调优和内部通讯调优
Oracle rac asm和存储最佳结合
添加redo组

3、Oracle rac 常见问题及解决思路
1)节点不能启动的原因：
存储无法正确识别
磁盘权限
操作系统集群软件是否启动
Ocr，vote是否损坏
防火墙是否打开
/etc/oracle/ocr.loc是否正常
操作系统网络更改过
asm_diskstring(hp-ux)
归档空间用完
操作系统空间100%

2)磁盘问题：
--Aix下rac，Asm添加磁盘后只有一个节点可以使用
由于aix磁盘存在盘头锁，需要把盘头锁更改为no_reserve
--把磁盘删除掉，结果还能够查询到磁盘，最后用dd清空，rac瘫痪
由于asm磁盘之间添加磁盘会自动做reblance，当删除一块磁盘也会自动reblance，因此需要等同步完成，才会自动释放掉磁盘。
--Oracle rac 一台主机操作系统出现问题，重新添加节点失败
由于更改了主机名，删除信息不能删除干净
--主机两边的磁盘盘符不一样，安装rac不能成功
修改盘符，保证两台主机的pv的设备文件名一致。
Unix：mknod Linux：raw映射或是使用cfs

集群文件系统(CFS)
扩展不会中断可用性.CFS上的ORACLE_HOME和数据文件可以动态扩展.
消除集群中每个节点拥有ORACLE_HOME本地拷贝的需要.
拥有RAID卷和SAN的全部优势.
简化ORACLE数据库管理.CFS提供统一的文件和目录的视图访问集群中所有ORACLE_HOME文件和数据文件.
在物理节点故障事件中对归档日志提供统一的可访问性.
当ORACLE_HOME在CFS上时,应用ORACLE补丁时,CFS保证集群所有节点中被升级的ORACLE_HOME是可见的.
保证访问集群中元数据的一致性.

其他常见问题
3）问题：Rac节点频繁重新启动
原因：存储不稳定、网络不稳定

4）问题：主机存储空间不足，从存储划分新的空间后，rac无法正常启动
原因：一般都是由于主机的盘符变化导致的。

5）问题：ASM添加磁盘过程中，主机重新启动
原因：一般都是新添加的磁盘不稳定导致的。建议：添加后先创建新的磁盘组，如果没有问题，再把新的磁盘组删除，然后把此磁盘添加到老的磁盘组。

6）问题：主机时间不一致，数据库正常运行的时候更改时间，所有节点的数据库集群全部重新启动，ocr损坏
原因：由于主机更改时间可能会引起主机自动重新启动。正确的方法是首先关闭数据库和CLUSTER环境，然后修改系统时间，为了避免数据库中的时间出现冲突，
最好等待当前时间超过修改前的系统时间后，再启动CLUSTER环境和RAC数据库。

7）问题： rac两个存储通过asm normal做镜像，一个存储损坏，无法删除失败组
原因：由于asm normal冗余一个组中最少两个失败组，因此，只能添加一个失败组，然后删除原来的。

8）问题：sun小型机 vip频繁切换
原因：网络交换机出现网络风暴。

9）问题：客户使用dns，三个scan vip 无法正常启动，在stat里显示checking提示
原因：dns出现故障，可以通过ping DNS服务器进行排查。

10）问题：一个节点的cpu使用100%，io读写却很少，sqlplus无法登陆
原因：由于存储多路径使用了load blance，最好使用主备模式。

11）问题：客户端偶尔能够连接，偶尔无法连接，报Tns-12545：因目标主机或者对象不存在
解决办法：在客户端的hosts文件中把服务端的ip和主机名称解析
windows
C:\WINDOWS\system32\drivers\etc\hosts
unix or linux
/etc/hosts

12）在alert日志中有下列警告信息：
WARNING: No cluster interconnect has been specified. Depending on
the communication driver configured Oracle cluster traffic
may be directed to the public interface of this machine.
Oracle recommends that RAC clustered databases be configured with a private interconnect for enhanced security and Performance
上述日志说明数据库的内部通讯没有使用单独的通讯接口：需要通过命令来处理，使得数据库的内部通讯单独使用自己的接口
$ oifcfg setif –global en1/192.168.0.0:cluster_interconnect
需要重新启动数据库才可以生效

13）问题：在一个节点更新数据一直挂起，但是查询不到有其他session在锁表
原因：由于只是在本节点查询，需要在所有节点查询v$locked_object

14）问题：11g rac spfile不能生效，oracle 不调用此spfile
原因：linux下同时使用了asmlib和raw
asmlib 是linux上面给磁盘/分区头上面打上asm的标记，供asm使用，而且当磁盘的盘符发生改变的时候，不会影响到asm disk，从效果上说，和udev没有本质区别，在redhat 4和5中oracle提供asmlib程序，在6中，oracle只为oel提供，其他linux不再提供
udev 是为了防止在机器因为重启的时候，因为盘符发生改变，导致asm disk不能正常被dg应用，从而出现asm 磁盘组不能mount的故障
raw 是以前4中常用的绑定裸设备的方法，到了5.4还是5.5之后，就不建议使用该方法，而直接使用udev取代它

15）问题：11g rac spfile 更改错误，集群重新启动asm不能启动
解决办法：只能把asm启动到独占模式，把所有集群关闭，然后启动asm到独占模式，更改参数文件按，然后关闭重新启动到集群模式
[root@rac1 bin]#./crsctl stop has -f
[root@rac1 bin]#./crsctl start crs -excl -nocrs

16）问题：11g rac 数据库私有网络丢失，只能一个节点可以启动
原因：10g rac私有网络丢失，不影响，只不过在alert数据启动报警，但是11g不能启动
解决办法：把gpnp.xml.org文件更改成gpnp.xml，然后反相执行root.sh,然后两边都起来的情况下用oifcfg getif去更新ocr

asm中控制文件镜像方法
rman>shutdown immediate
rman>startup nomount
rman>restore controlfile to '+dgroup2' from '+DGROUP1/l112asm/controlfile/current.256.734880159';
rman>shutdown immediate
然后编辑参数文件或
sql>alter system set control_files='+DGROUP1/l112asm/controlfile/current.256.734880159', '+DGROUP2/l112asm/controlfile/current.256.734880158' scope=spfile;

阅读(4346) | 评论(0) | 转发(0) |

上一篇：Linux服务性能判断（oracle数据库）

下一篇：Linux NFS服务器的安装与配置

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6