问题一:网卡速度变慢
近期安装 ORACLE 10g RAC for AIX5.4 +HACMP5.3 数据库
安装crs时出现问题,在节点1起不来,很郁闷,当时没有找到好的解决办法,看到网上说crsd.log中的报警是和网卡速度设置有关,不要自适应,检查一下是自适应的,用命令修改为固定100M速度,结果反而双机之间通信非常慢,只有几十K,害我耽误了一天时间,看来不能轻易相信啊。
网上这么说的:
神奇的CRS-0184: Cannot communicate with the CRS daemon
真的很神,CRS后台进程正常,但crs_stat无法查看其状态。
#ps -ef|grep d.bin
ora10 184520 1 0 08:49:50 - 0:06 /ora10/app/product/crs/bin/evmd.bin
root 204940 1 0 08:49:51 - 0:24 /ora10/app/product/crs/bin/crsd.bin reboot
ora10 213180 286728 0 09:24:26 - 0:44 /ora10/app/product/crs/bin/ocssd.bin
#crs_stat -t
CRS-0184: Cannot communicate with the CRS daemon
#ORA_CRS_HOME/log/SID1/crsd/crsd.log结果如下:
2008-04-21 09:01:49.738: [ CRSD][1]32Daemon Version: 10.2.0.1.0 Active Version: 10.1.0.2.0
2008-04-21 09:01:49.739: [ CRSD][1]32Active Version is less than Software Version
2008-04-21 09:01:49.741: [ CSSCLNT][1]clssgsGroupJoin: CSS has not reached fatal mode.Registration is not yet safe. Retrying
2008-04-21 09:01:50.743: [ CSSCLNT][1]clssgsGroupJoin: CSS has not reached fatal mode.Registration is not yet safe. Retrying
2008-04-21 09:01:51.751: [ CSSCLNT][1]clssgsGroupJoin: CSS has not reached fatal mode.Registration is not yet safe. Retrying
... ...
故障分析: 据错误现象描述,CSS无法到达fatal模式,导致CRS无法正常连接,原因不明。
解决办法: 很简单,只要更改主机的public网卡的 Media Speed属性,由Auto_Negotiation改为100_Full_Duplex,再启动HA及CRS,一切正常。
相关BUG: 1.Bug 5507883 - CRS install fails in CRS root.sh due to node
panics 影响平台:10.2.0.3,解决平台:10.2.0.4,无解决方案。
又找了找修改的命令如下:
在主备机的HA停止后,Service IP无法对外提供服务,只能通过 HMC 登录系统。
分别主备机上运行如下脚本:
chdev -l en0 -a state='down'
chdev -l en0 -a state='detach'
chdev -l 'ent0 ' -a media_speed='100_Full_Duplex'
chdev -l en0 -a state='up'
chdev -l en1 -a state='down'
chdev -l en1 -a state='detach'
chdev -l 'ent1 ' -a media_speed='100_Full_Duplex'
chdev -l en1 -a state='up'
变更实施后,分别使用
netstat -v ent0
netstat -v ent1
检查变更是否成功?
Media Speed Selected: 100 Mbps Full Duplex
Media Speed Running: 100 Mbps Full Duplex
据公司一同事讲,修改这个属性可能导致通信速度不正常,不建议改。
技巧:
远程修改时要用另一个网卡连接执行上面的chdev命令,要不然网卡down后,后面的命令应该执行不了了,我可能就因此使网卡变慢的,不清楚,以后小心,硬件不懂就不要乱动。
问题二 其他机器 ping节点1,有规律的丢包
安装完后,因为是新网段,测试其他机器连接时,发现ping一个节点时通一次,断一次,另一个节点没事,很奇怪,后来硬件工程师检查发现节点1配置了两个网关(还是路由?)用route delete xxx xxx删掉那个不用的就OK了。
阅读(2956) | 评论(0) | 转发(0) |