原文作者:永远的阿木
文章出处: AIX快活如意斋

上回文章中说道2005年第一个工作日熬了个通宵,具体讲来是到厦门和一起实施oracle rac安装。虽然已经拿到证书,但因为工作性质关系,数据库维护还是做得不多,这次让我好好重温oracle知识。

Beta比较热诚,已经在客户那里奋战两天两夜,几近油枯灯尽(年轻人要注意保重身体啊),我到厦门也就是参加扫尾。

总的说来,全过程碰到的问题不少,但任务比较紧急,一些细节来不及考证,回来后在办公室环境中搭一个环境继续研究,另外试验环境还可供其它同事参考。

本系列文章全程记录安装过程中碰到的所有问题和解决手段。



1.准备环境
2.准备环境(续)
3.HACMP安装配置
4.OracleRac安装前准备
5.安装oracle软件
6.Oracle建库
7.RAC使用和测试


<下一篇>

一、准备环境。

搭设的硬件环境如下:

44p270主机一台:375MHz PowerPC_POWER3 CPU一颗、512 MB内存、18.2GB内置硬盘、主板内置网卡+2968以太网卡、6230 SSA卡;
f80主机一台:450MHz PowerPC RS64III CPU四颗、2048MB内存、36.4GB内置硬盘、主板内置网卡+2968以太网卡、6230 SSA卡;
7133-D40磁盘阵列:2块36.4B 1万转硬盘构成RAID1阵列。

最后的软件环境如下:
AIX 5L V5.2、ML04+IY64978+IY63366
HACMP V5.1+U498114

1.操作系统安装问题

f80主机刚刚在厦门光荣退租,要重新安装操作系统。安装过程中发现一个奇怪的问题,很多执行文件的存取属性被清空(变成----------)而导致无权限执行,这首先严重影响了打ML04补丁,bos.rte补丁中的一个script总是运行不成功,报/usr/lib/methods/cfgsf命令执行失败(bos.rte.config_u[42]: /usr/lib/methods/cfgsf: 0403-006 Execute permission denied.
update: Failed while executing the bos.rte.config_u script.),结果bos.rte及依赖其的几个文件集补丁无法实施。因为cfgsf文件本身就属于bos.rte,installp在安装bos.rte的时候先把它的存取属性清除了(覆盖原文件),然后再执行它,所以在installp之前修改cfgsf的属性没有意义。

解决方法比较笨拙,写一个死循环shell程序,不断地执行chmod 500 /usr/lib/methods/cfgsf命令(见下)。
while true
do
chmod 500 /usr/lib/methods/cfgsf
done
方过此关。

存取属性被清空的执行文件还有很多,引发了相当多的类似问题,其中一个就是影响了包括ssa卡和硬盘在内的很多设备的识别配置,/usr/lib/methods/下的文件都要检查一下。还有/usr/ssa下的几个bin目录也要重新设置一下执行属性。

因为在网上找不到类似的解决案例,我怀疑是手上的安装光盘有问题。

 

继续软硬件环境的准备。

1.2.网卡问题

270主机上的一块网卡,访问网络总是有问题,ping不通。换过网线、插槽都不行,但把卡插到另一台b50主机上,网络访问又正常,怀疑是270主机主板问题,执行diag诊断(要先ifconfig en1 detach,否则报设备忙,无法进一步诊断),报下面错误:
SRN: 777-104

Description: Internal Loopback Test Failed.

Probable FRUs:
ent1 FRU: 091H0397 P2-I4/E1
IBM 10/100 Mbps Ethernet PCI Adapter (23100020)

看来还是网卡有问题,回到b50主机再做diag诊断,也报类似错误,正式宣告该卡死刑。换了一块2968以太网卡,没再报网络问题了。

1.3.创建增强并发访问卷组

进行hacmp和数据库配置之前,要先准备资源,网络(ip和tty)、appserver和以前没什么区别,有特性的是共享卷组的准备。

因为要并发处理,所以卷组要建成concurrent capable的,AIX 5.2下只支持Enhanced Concurrent卷组:
# mkvg -C -n -y datavg hdisk1
0516-1335 mkvg: This system does not support enhanced
concurrent capable volume groups.

以前在网上碰到同样的报错求助,当时是胡乱猜疑,不达要点。这回找到了真正的原因——没有安装bos.clvm.enh:
# lslpp -L bos.clvm.enh
Fileset Level State Type Description (Uninstaller)
----------------------------------------------------------------------------
bos.clvm.enh 5.2.0.40 A F Enhanced Concurrent Logical Volume Manager

安装后,重新执行mkvg就正常了。

 

硬件环境和软件准备好后,接下来配置HACMP。

二、HACMP安装配置

因为是实验环境,HACMP配置不是一开始就制定好的,修正过几次,甚至到后面安装oracle碰了钉子,又再回过头来修改配置。

2.1. HACMP安装

在RAC下,必须安装cluster.es.clvm.rte文件集,否则concurrent资源组无法增加并行卷组资源,安装后需重新启动主机,才可生效。

最后系统里所有的hacmp文件集列表如下:
Fileset Level State Type Description (Uninstaller)
----------------------------------------------------------------------------
cluster.adt.* 5.1.0.0 C F ES Client Demos
cluster.es.client.* 5.1.0.6 A F ES Client Libraries
cluster.es.clvm.rte 5.1.0.0 C F ES for AIX Concurrent Access
cluster.es.cspoc.* 5.1.0.6 A F ES CSPOC Commands
cluster.es.server.* 5.1.0.6 A F ES Server Diags
cluster.es.worksheets 5.1.0.6 A F Online Planning Worksheets
cluster.license 5.1.0.0 C F HACMP Electronic License
cluster.msg.* 5.1.0.0 C F HACMP CSPOC Messages - U.S. English

2.2. HACMP配置

rac下,一般使用oracle自己的failover功能在客户端实现服务主机的切换。但还希望借助hacmp实现单机上的网卡热备,所以拓扑配置上有些讲究。

想到cascading资源组中ipat会让service-ip地址从主机飘到备机上(所不愿见到的),所以先使用persistent-ip。经测试,persistent-ip可以在网卡失败时切换到备份网卡(但比service-ip花的时间要长不少,客户端中断感觉明显),功能基本满足要求。但实际使用中,这种配置方法给后面的rac安装造了不少麻烦,最后只能放弃。

在rac配置上挣扎很长一段时间,被周平一句话点醒,可以用配置仅包含单个节点的cascading资源组,来避免service-ip地址在主机间的漂移。最终的配置下,各种莫名其妙的问题迎刃而解(看来rac与hacmp的拓扑关系密切)。

最后的拓扑、资源配置如下:
# /usr/es/sbin/cluster/utilities/cltopinfo -i
IP Label Network Type Node Address If Netmask
========= ======= ==== ==== ======= ==== =======
f80 net_ether_01 ether f80 10.0.0.208 255.255.255.0
p270 net_ether_01 ether f80 10.0.0.207 255.255.255.0
f80_boot2 net_ether_01 ether f80 192.168.1.208 en0 255.255.255.0
f80_boot1 net_ether_01 ether f80 192.168.0.208 en1 255.255.255.0
f80_tty1_01 net_rs232_01 rs232 f80 /dev/tty1 tty1
f80 net_ether_01 ether p270 10.0.0.208 255.255.255.0
p270 net_ether_01 ether p270 10.0.0.207 255.255.255.0
p270_boot1 net_ether_01 ether p270 192.168.0.207 en0 255.255.255.0
p270_boot2 net_ether_01 ether p270 192.168.1.207 en1 255.255.255.0
p270_tty1_01 net_rs232_01 rs232 p270 /dev/tty1 tty1

# /usr/es/sbin/cluster/utilities/clshowres

Resource Group Name oravg
Node Relationship concurrent
Site Relationship ignore
Participating Node Name(s) p270 f80
Dynamic Node Priority
Service IP Label
Filesystems ALL
Filesystems Consistency Check fsck
Filesystems Recovery Method sequential
Filesystems/Directories to be exported
Filesystems to be NFS mounted
Network For NFS Mount
Volume Groups
Concurrent Volume Groups datavg
Use forced varyon for volume groups, if necessaryfalse
Disks
GMD Replicated Resources
PPRC Replicated Resources
Connections Services
Fast Connect Services
Shared Tape Resources
Application Servers oracle
Highly Available Communication Links
Primary Workload Manager Class
Secondary Workload Manager Class
Delayed Fallback Timer
Miscellaneous Data
Automatically Import Volume Groups false
Inactive Takeover false
Cascading Without Fallback false
SSA Disk Fencing false
Filesystems mounted before IP configured false
Run Time Parameters:

Node Name p270
Debug Level high
Format for hacmp.out Standard

Node Name f80
Debug Level high
Format for hacmp.out Standard

Resource Group Name p270ip
Node Relationship cascading
Site Relationship ignore
Participating Node Name(s) p270
Dynamic Node Priority
Service IP Label p270
Filesystems
Filesystems Consistency Check fsck
Filesystems Recovery Method sequential
Filesystems/Directories to be exported
Filesystems to be NFS mounted
Network For NFS Mount
Volume Groups
Concurrent Volume Groups
Use forced varyon for volume groups, if necessaryfalse
Disks
GMD Replicated Resources
PPRC Replicated Resources
Connections Services
Fast Connect Services
Shared Tape Resources
Application Servers
Highly Available Communication Links
Primary Workload Manager Class
Secondary Workload Manager Class
Delayed Fallback Timer
Miscellaneous Data
Automatically Import Volume Groups false
Inactive Takeover false
Cascading Without Fallback false
SSA Disk Fencing false
Filesystems mounted before IP configured false
Run Time Parameters:

Node Name p270
Debug Level high
Format for hacmp.out Standard

Resource Group Name f80ip
Node Relationship cascading
Site Relationship ignore
Participating Node Name(s) f80
Dynamic Node Priority
Service IP Label f80
Filesystems
Filesystems Consistency Check fsck
Filesystems Recovery Method sequential
Filesystems/Directories to be exported
Filesystems to be NFS mounted
Network For NFS Mount
Volume Groups
Concurrent Volume Groups
Use forced varyon for volume groups, if necessaryfalse
Disks
GMD Replicated Resources
PPRC Replicated Resources
Connections Services
Fast Connect Services
Shared Tape Resources
Application Servers
Highly Available Communication Links
Primary Workload Manager Class
Secondary Workload Manager Class
Delayed Fallback Timer
Miscellaneous Data
Automatically Import Volume Groups false
Inactive Takeover false
Cascading Without Fallback false
SSA Disk Fencing false
Filesystems mounted before IP configured false
Run Time Parameters:

Node Name f80
Debug Level high
Format for hacmp.out Standard

# /usr/es/sbin/cluster/utilities/cllsserv
oracle /hacmp/startapp.sh /hacmp/stopapp.sh
# cat /hacmp/startapp.sh
#!/usr/bin/ksh
banner app start

# cat /hacmp/stopapp.sh
#!/usr/bin/ksh
banner app stop

鉴于数据库启动的复杂性,没有在appserver中启动oracle数据库。

# lsvg datavg
VOLUME GROUP: datavg VG IDENTIFIER: 000234ff00004c00000001015b74227a
VG STATE: active PP SIZE: 64 megabyte(s)
VG PERMISSION: read/write TOTAL PPs: 543 (34752 megabytes)
MAX LVs: 256 FREE PPs: 311 (19904 megabytes)
LVs: 22 USED PPs: 232 (14848 megabytes)
OPEN LVs: 15 QUORUM: 2
TOTAL PVs: 1 VG DESCRIPTORS: 2
STALE PVs: 0 STALE PPs: 0
ACTIVE PVs: 1 AUTO ON: no
Concurrent: Enhanced-Capable Auto-Concurrent: Disabled
VG Mode: Concurrent
Node ID: 2 Active Nodes: 1
MAX PPs per PV: 1016 MAX PVs: 32
LTG size: 128 kilobyte(s) AUTO SYNC: no
HOT SPARE: no BB POLICY: relocatable

# cat /etc/hosts
127.0.0.1 loopback localhost # loopback (lo0) name/address
192.168.0.207 p270_boot1
192.168.1.207 p270_boot2
10.0.0.207 p270
192.168.0.208 f80_boot1
192.168.1.208 f80_boot2
10.0.0.208 f80

2.3. 启动HACMP

启动HACMP碰到一些问题:
f80: 0513-015 The snmpd Subsystem could not be started.
f80: Please check subsystem resources and try again later.
f80:
f80: *******
f80: Jan 10 2005 00:40:47 !!!!!!!!!! ERROR !!!!!!!!!!
f80: *******
f80: Jan 10 2005 00:40:47 clstart: Unable to start Cluster SMUX Peer Daemon (clsmuxpd) without snmpd.
dsh: 5025-509 f80 rsh had exit code 1
检查/usr/sbin/snmp*文件的存取属性,全部为空,看来还是安装操作系统时的老问题。更改成正确属性,启动恢复正常。
# ls -l /usr/sbin/snmp*
lrwxrwxrwx 1 root system 9 Jan 07 01:16 /usr/sbin/snmpd -> snmpdv3ne
-rwxr-x--- 1 root system 310990 Jul 22 17:09 /usr/sbin/snmpd64v1
-rwxr-x--- 1 root system 273646 Jul 22 17:09 /usr/sbin/snmpdv1
-rwxr-x--- 1 root system 271622 Jun 05 2004 /usr/sbin/snmpdv3ne
-rwxr-x--- 1 root system 15848 Jan 07 01:24 /usr/sbin/snmpinfo
-rwxr-x--- 1 root system 612075 Jun 24 2004 /usr/sbin/snmpmibd
-rwxr-x--- 1 root system 696002 Jun 24 2004 /usr/sbin/snmpmibd64
-r-xr-xr-x 1 bin bin 16756 Jun 05 2004 /usr/sbin/snmptrap
-r-xr-xr-- 1 root system 11876 Jan 07 01:24 /usr/sbin/snmpv3_ssw

 

戏台搭好,终于到安装ORACLE这步了,正式安装前还是有些功课要做。

安装RAC这部分,我主要是参照的总结文档,而这篇文档又来自ITPUB的fatstone(原链接就懒得找了,著者见谅),据说原始的祖宗是Metalink上的Step-By-Step Installation of RAC on IBM AIX,不过我是拜读过oracle这篇文章的,与最近的改过又改过的文章相比,已经是面目全非,看不出一点亲缘的关系了。

三、Oracle RAC安装配置

3.1.安装准备

主要是创建oracle用户和所属用户组,以及用户环境:

  • 添加oinstall、dba、hagsuser用户组,gid分别为300/301/302(注意两台主机保持一致)。
  • 添加oracle用户,uid=300,primary group = oinstall,group set = dba,oinstall,hagsuser,放开ulimit限制(都设成-1)
  • 编辑/etc/hosts.equiv或/home/oracle目录下的.rhosts,包含两台主机所有的ip-label,执行rsh确认两台机oracle用户都可以远程执行对方主机上程序
  • 建立并装载/u01文件系统,安装oracle Enterprise Edition Server 9.2大概需要5GB的空间,打9.2.0.4 PatchSet的时候,诈称要1.7GB的空间,由于都是覆盖原有的文件,实际没增加空间占用。执行chown -R oracle:oinstall /u01修改存取权限。
  • 建立/var/opt/oracle目录,执行chown -R oracle:oinstall /var/opt/oracle修改存取权限,该目录放srvConfig.loc配置
  • 设置oracle目录下的.profile:

ORACLE_BASE=/u01/app/oracle;export ORACLE_BASE
ORACLE_HOME=$ORACLE_BASE/product/9.2.0;export ORACLE_HOME
ORACLE_SID=CRDT1;export ORACLE_SID
ORA_NLS33=$ORACLE_HOME/ocommon/nls/admin/data;export ORA_NLS33
ORACLE_TERM=vt100;export ORACLE_TERM
TMPDIR=/tmp;export TMPDIR
LD_LIBRARY_PATH=$ORACLE_HOME/lib:/usr/lib;export LD_LIBRARY_PATH
PATH=/usr/ccs/bin:$ORACLE_HOME/bin:/usr/bin:/usr/opt/networker/bin:$PATH;export PATH
TNS_ADMIN=$ORACLE_HOME/network/admin;export TNS_ADMIN
TERM=vt100;export TERM
EDITOR=vi; export EDITOR
TMP=/tmp;export TMP
CLASSPATH=$ORACLE_HOME/JRE/lib:$ORACLE_HOME/jlib:$ORACLE_HOME/network/jlib:$ORACLE_HOME/rdbms/jlib:$ORACLE_HOME/plsql/jlib:$ORACLE_HOME/assistants/jlib:$ORACLE_HOME/assistants/dbca/jlib;export CLASSPATH
DBCA_RAW_CONFIG=/home/oracle/dbca_raw_config.txt;export DBCA_RAW_CONFIG
# 注1:原文中有DISPLAY=127.0.0.1:0.0,会影响远程登录CDE的使用,周平说从笔记本电脑登陆上来,操作CDE有问题,原因在此。
# 注2:两台主机上的ORACLE_SID分别是CRDT1和CRDT2

  • 建立数据库用裸设备,用作数据库数据文件,注:其中有些lv是否能用上要根据后面oracle的安装选项。

mklv -y'o9_system_1g' -w'n' -s'n' -r'n' datavg 16
mklv -y'o9_users_512m' -w'n' -s'n' -r'n' datavg 8
mklv -y'o9_tools_512m' -w'n' -s'n' -r'n' datavg 8
mklv -y'o9_temp_512m' -w'n' -s'n' -r'n' datavg 8
mklv -y'o9_undotbs1_1g' -w'n' -s'n' -r'n' datavg 16
mklv -y'o9_undotbs2_1g' -w'n' -s'n' -r'n' datavg 16
mklv -y'o9_log11_1g' -w'n' -s'n' -r'n' datavg 16
mklv -y'o9_log12_1g' -w'n' -s'n' -r'n' datavg 16
mklv -y'o9_log21_1g' -w'n' -s'n' -r'n' datavg 16
mklv -y'o9_log22_1g' -w'n' -s'n' -r'n' datavg 16
mklv -y'o9_indx_512m' -w'n' -s'n' -r'n' datavg 8
mklv -y'o9_cwmlite_512m' -w'n' -s'n' -r'n' datavg 8
mklv -y'o9_example_512m' -w'n' -s'n' -r'n' datavg 8
mklv -y'o9_oemrepo_512m' -w'n' -s'n' -r'n' datavg 8
mklv -y'o9_spfile_512m' -w'n' -s'n' -r'n' datavg 8
mklv -y'o9_cntrl1_512m' -w'n' -s'n' -r'n' datavg 8
mklv -y'o9_cntrl2_512m' -w'n' -s'n' -r'n' datavg 8
mklv -y'o9_cntrl3_512m' -w'n' -s'n' -r'n' datavg 8
mklv -y'o9_drsys_512m' -w'n' -s'n' -r'n' datavg 8
mklv -y'o9_odm_512m' -w'n' -s'n' -r'n' datavg 8
mklv -y'o9_xdb_512m' -w'n' -s'n' -r'n' datavg 8

  • 设置裸设备权限:在两台机上分别执行chown oracle:dba /dev/ro9*
  • 建立dbca dbca_raw_config.txt,设置oracle datafile和裸设备的对应关系

$ cat dbca_raw_config.txt
system=/dev/ro9_system_1g
users=/dev/ro9_users_512m
tools=/dev/ro9_tools_512m
temp=/dev/ro9_temp_512m
undotbs1=/dev/ro9_undotbs1_1g
undotbs2=/dev/ro9_undotbs2_1g
redo1_1=/dev/ro9_log11_1g
redo1_2=/dev/ro9_log12_1g
redo2_1=/dev/ro9_log21_1g
redo2_2=/dev/ro9_log22_1g
indx=/dev/ro9_indx_512m
example=/dev/ro9_example_512m
spfile=/dev/ro9_spfile_512m
control1=/dev/ro9_cntrl1_512m
control2=/dev/ro9_cntrl2_512m
control3=/dev/ro9_cntrl3_512m
drsys=/dev/ro9_drsys_512m
xdb=/dev/ro9_xdb_512m

 

3.2. 安装oracle软件

  • 使用oracle用户登陆CDE界面,打开一个dtterm,执行. ./.profile应用先前设置的环境变量。
  • Oracle提供一个installPrep.sh程序,可用于检查oracle安装的条件是否准备就绪,因为hacmp 5.1软件发布在后,脚本对cluster检查会产生误报,还有一个typo错误,我更正后,适用于hacmp 5.1的installPrep.sh版本供大家下载(oracle安装准备情况检查脚本
  • 开始安装。为了加快安装速度和便于再次安装(呵呵),可以将oracle安装光盘全部拷贝到磁盘上。注意每张光盘要分目录拷贝,否则到时侯就得改stage下的disk.label文件了。
  • 先su到root用户,执行rootpre.sh。注意两台机器都需要执行。
  • 在一台机上,进入到第一张安装盘的路径,执行./runInstaller。
  • 首先询问是否已经运行rootpre.sh,如果已经运行,则回答Y,过一会出现安装界面窗口。
  • 选择NEXT,选择需要安装ORACLE的节点选择安装节点如果没有出现节点选择,说明HA配置有问题,确保两个节点都处于UP状态。
  • 指定软件的安装路径:选择安装路径
  • 选择安装产品:选择安装产品
  • 选择企业版安装方式:选择安装方式
  • 只安装软件:只安装软件
  • 指定SRVCONFIG路径。如果是首次安装,会出现一个窗口指定SRVCONFIG的位置,这是一个RAW设备,前面已经建立过了。在/var/opt/oracle下会出现一个srvConfig.loc文件,在$ORACLE_HOME/srvm/config下会出现同名文件。指定SRVCONFIG路径
  • 指定JDK的路径:/usr/java131,如果没有,先安装java。指定JDK路径
  • 选择INSTALL开始安装:(先确认summary里面信息是否都正确,有没有红色错误)
  • 安装进度到100%时,还要等很长时间,这时候安装程序自动把应用拷贝到另一个节点上,全部完成后提示在两个节点都执行root.sh(以root身份)。执行root.sh

3.3. 安装9.2.0.4 Patch

到METALINK上下载9204的补丁级,PATCH号3095277,下载完是一个.zip格式的文件,本地解压缩后得到9204_aix5l64_release.cpio,把这个文件FTP到小型机上,执行:cpio -icvd < 9204_aix5l64_release.cpio解压缩。

  • 用oracle用户登陆,进入到9204补丁的路径,运行runInstaller。指定安装路径注意:path 可能有错,一定要选择补丁所在的products.jar。
  • 先升级OUI到2.2.0.18。指定安装路径
  • 装完OUI后再选择PATCH9204,一路NEXT安装就可以了。安装完后在两个节点都执行root.sh(以root身份)

3.4. 建库前准备

  • 首次安装,要初始化SRV配置,先检查/var/opt/oracle/srvConfig.loc是否已经指向正确的设备,然后执行srvconfig -init初始化。如果报/u01/app/oracle/product/9.2.0/JRE/bin/jre[63]: /usr/java131/bin/aix/native_threads/jre: not found.错误,可能与你的JAVA_HOME环境变量设置问题有关,建议不要显示设置JAVA_HOME环境变量。
  • 在两个节点都以oracle用户身份登陆,执行gsdctl start,如果出现Successfully started GSD on local node提示,说明启动成功,最常见的问题就是挂在那里。到metalink上查过,还没有解决方法,预期的patch也被设成无期的9.2.0.99。能做的就是kill杀掉,反复多试几次。
  • 执行netca,设置Listener。这个地方会出现错误:无法启动netca,手工改名$ORACLE_HOME/lib/libnjni9.so 文件,估计系统要用$ORACLE_HOME/lib32下的同名文件。
  • netca也支持cluster configuration,按照缺省值一路配置下去即可,完成后,会同时修改两台机器上的listener.ora配置。
  • 两个节点上都执行lsnrctl start启动listener。

3.5. Oracle建库

  • 键入dbca创建RAC实例,选择cluster database。选择cluster database
  • 选择创建数据库后,选择全部节点。选择数据库群集包含节点
  • 建库模板选择新数据库。选择建库模板
  • 键入GLOBAL DATABASE NAME,不能超过5个字符。输入数据库名
  • 选择要安装的数据库组件。如果没有特别的需要,把所有的勾都去掉。选择组件
  • 一般选择专有服务器工作模式,选择第一项并NEXT。选择工作模式
  • 数据库参数设置,其中注意字符集选择中文;选择字符集还有,如果之前dbca_raw_config.txt和DBCA_RAW_CONFIG环境变量设置正确,所有的datafile应该指向事先创建的裸设备(rac只能使用基于裸设备的datafile)。
  • 点击FINISH开始建库,之前可以选择保存建库的脚本以便用于未来可能的手工建库。建库过程中可能碰到的问题有:
    • Listener错误:如果listener已经配置启动,并且状态正确,就不应该有此错误
    • ORA-29807错误:与xml有关,也不是总会碰上。忽略错误后,等数据库安装完,以sys身份执行$ORACLE_HOME/rdbms/prvtxml.plb,如果执行select * from dba_objects where owner = 'SYS' and status = 'INVALID' ; 发现无效对象,可执行utlrp.sql校验这些对象。
    • 如果建库完成后,数据库没有起来,在HACMP5.1下装了几次还没有碰到顺利起来的,这个问题应该与RAC找不到正确的内部网络通讯路径有关,可以通过显式设置cluster_interconnects参数来解决(可在刚才的“设置数据库参数”时预先设好。):CRDT1.cluster_interconnects='192.168.0.207:192.168.1.207'(p270上)、CRDT2.cluster_interconnects='192.168.0.208:192.168.1.208'(f80上)。
    • 也是建库结束时,碰到ORA-27504: IPC error creating OSD context,这也是因为cluster_interconnects参数没有设置的问题,更严重的是这种情况下连spfile都还没有建好。解决方法是,进入$ORACLE_BASE/admin/scripts目录,手工编辑init.ora文件,加入cluster_interconnects参数设置,然后执行postDBCreation.sql完成建库后的其他操作。

 

3.6. 使用和测试

  • rac下启动数据库可以用传统的sqlplus方式,也可以用srvctl命令:
    • 启动数据库:srvctl start database -d CRDT;
    • 检查数据启动状态:srvctl status database -d CRDT;
    • 关闭数据库:srvctl stop database -d CRDT;
  • 使用srvctl命令时,可能会碰到PRKP-1040 Failed to get status of the listeners associated with instance 错误,这实际不影响数据库的启动,如果想要解决,手工编辑两台主机上的$ORACLE_HOME/bin/gsd.sh(先停gsd)和$ORACLE_HOME/bin/gsd.sh文件,在'# Run ops...'之前case $PLATFORM in "AIX")下,3个"LIBPATH"都改成"LD_LIBRARY_PATH"即可。
  • dbca在安装过程中,自动完成tnsnames.ora文件的设置,客户端的配置可以参考服务器上的设置:

CRDT2 =
 (DESCRIPTION =
  (ADDRESS = (PROTOCOL = TCP)(HOST = 10.0.0.208)(PORT = 1521))
  (CONNECT_DATA =
   (SERVICE_NAME = CRDT)
   (INSTANCE_NAME = CRDT2)
   )
  )

CRDT1 =
 (DESCRIPTION =
  (ADDRESS = (PROTOCOL = TCP)(HOST = 10.0.0.207)(PORT = 1521))
  (CONNECT_DATA =
   (SERVICE_NAME = CRDT)
   (INSTANCE_NAME = CRDT1)
   )
  )

CRDT =
 (DESCRIPTION =
  (ADDRESS_LIST =
   (ADDRESS = (PROTOCOL = TCP)(HOST = 10.0.0.207)(PORT = 1521))
   (ADDRESS = (PROTOCOL = TCP)(HOST = 10.0.0.208)(PORT = 1521))
   (LOAD_BALANCE = yes) # failover是缺省打开的。
   )
  (CONNECT_DATA =
   (SERVER = DEDICATED)
   (SERVICE_NAME = CRDT)
   )
  )

  • 实际测试中,单网卡失败情况下,hacmp自动完成swap_adapter,对客户端几乎没有影响。
  • 但模拟节点失败时,客户端sqlplus需要重新连接,而且要连两次才能接入。查了资料,对配置进行修改:

...
  (CONNECT_DATA =
   (SERVER = DEDICATED)
   (SERVICE_NAME = CRDT)
   (FAILOVER_MODE =
     (TYPE = session)
     (METHOD = basic)
     (DELAY = 10)
    )
   )
这样,在节点失败时,客户端自动连接另一个可用节点,对用户来说没有影响。可以执行:
SELECT MACHINE, FAILOVER_TYPE, FAILOVER_METHOD, FAILED_OVER, COUNT(*)
FROM V$SESSION
GROUP BY MACHINE, FAILOVER_TYPE, FAILOVER_METHOD, FAILED_OVER;
SQL检查session的TAF属性。