Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2842131
  • 博文数量: 631
  • 博客积分: 10716
  • 博客等级: 上将
  • 技术积分: 8397
  • 用 户 组: 普通用户
  • 注册时间: 2008-04-01 22:35
文章分类

全部博文(631)

文章存档

2020年(2)

2019年(22)

2018年(4)

2017年(37)

2016年(22)

2015年(1)

2013年(12)

2012年(20)

2011年(19)

2010年(20)

2009年(282)

2008年(190)

分类: LINUX

2008-11-20 13:46:20

20. 安装 Oracle 10g 集群件软件

仅在集群 (linux1) 的一个 Oracle RAC 节点上执行下列安装过程!Oracle Universal Installer 将把 Oracle 集群件软件安装到集群中的两个 Oracle RAC 节点。

您现在就可以安装该环境的“集群”部分:Oracle 集群件。在上一节中,您将 Oracle 集群件的安装文件下载并解压缩到 linux1~oracle/orainstall/clusterware 目录中。这是唯一需要执行安装的节点。

在 Oracle 集群件的安装过程中,系统将提示您提供相关的并要在 RAC 集群中配置的节点。当实际的安装开始时,它将使用我们在(“为远程访问配置 RAC 节点”)中配置的远程访问把所需的软件复制到所有节点。

那 Oracle 集群件究竟是用来干什么的呢?它包含所有集群和数据库配置元数据以及多个适用于 RAC 的系统管理特性。通过它,DBA 可以将一个 Oracle 实例(或多个实例)注册和调用到集群。在通常的操作中,Oracle 集群件将通过一种特殊的 ping 操作向集群中配置的所有节点发送消息(通常称作“心跳”)。如果对任何节点的心跳检测失败,则它将检查 Oracle 集群件配置文件(位于共享磁盘上)以辨别是节点故障还是网络故障。

安装 Oracle 集群件后,用于安装 Oracle 10g 数据库软件(下一节)的 Oracle Universal Installer (OUI) 将自动识别这些节点。与您将在本节中执行的 Oracle 集群件安装一样,Oracle 数据库 10g 软件只需要从一个节点中运行。OUI 将把此软件程序包复制到 RAC 集群中配置的所有节点。

Oracle 集群件共享文件

系统将把由 Oracle 集群件使用的两个共享文件(实际上是文件组)存储到我们在前面创建的 Oracle 集群文件系统第 2 版 (OFCS2) 中。这两个共享 Oracle 集群件文件组是:

  • Oracle 集群注册表 (OCR)

    • 文件 1:/u02/oradata/orcl/OCRFile
    • 文件 2:/u02/oradata/orcl/OCRFile_mirror
    • 大小:(2 * 100MB) = 200M

  • CRS 表决磁盘

    • 文件 1:/u02/oradata/orcl/CSSFile
    • 文件 2:/u02/oradata/orcl/CSSFile_mirror1
    • 文件 3:/u02/oradata/orcl/CSSFile_mirror2
    • 大小:(3 * 20MB) = 60MB

不能对这两个共享 Oracle 集群件文件使用自动存储管理 (ASM):Oracle 集群注册表 (OCR) 或 CRS 表决磁盘 文件。问题是只有这两个文件就绪并可以访问后才可以启动 Oracle 实例。要使 ASM 可用,应首先运行 ASM 实例。

另请注意,可以将这两个共享文件存储到 OCFS2、共享的原始设备或其他供应商的集群化文件系统中。

验证终端 Shell 环境

在启动 Oracle Universal Installer 之前,您应该首先验证您已登录到要从其运行安装程序的服务器(例如 linux1),然后从控制台以 root 运行 xhost 命令以允许建立 X Server 连接。接下来,以 oracle 用户帐户登录。如果您正在使用远程客户端来连接到执行安装的节点(从 X Server 所在的工作站通过 SSH/Telnet 连接 linux1),您将需要将 DISPLAY 变量设置为指向本地工作站。最后,验证集群中所有节点的远程访问/用户等效性:

验证服务器并启用 X Server 访问

# hostname
linux1
# xhost +
access control disabled, clients can connect from any host

oracle 用户帐户登录并设置 DISPLAY(如果需要)

# su - oracle
$ # IF YOU ARE USING A REMOTE CLIENT TO CONNECT TO THE
$ # NODE PERFORMING THE INSTALL
$ DISPLAY=:0.0
$ export DISPLAY

验证远程访问/用户等效性

验证您能够在将要从中运行 Oracle Installer 的 Linux 服务器上,不使用口令对集群中的所有其他 Linux 服务器运行安全 Shell 命令(sshscp)或 命令(rshrcp)。

使用安全 shell 方法时,需要首先在任何新的终端 shell 会话上启用用户等效性然后再尝试运行 OUI。要为当前的终端 shell 会话启用用户等效性,请执行以下步骤(记住为每个键输入在提示时生成的通行短语):

$ exec /usr/bin/ssh-agent $SHELL
$ /usr/bin/ssh-add
Enter passphrase for /home/oracle/.ssh/id_rsa: xxxxx
Identity added: /home/oracle/.ssh/id_rsa (/home/oracle/.ssh/id_rsa)
Identity added: /home/oracle/.ssh/id_dsa (/home/oracle/.ssh/id_dsa)

$ ssh linux1 "date;hostname"
Thu Jun 28 03:06:34 EDT 2007
linux1

$ ssh linux2 "date;hostname"
Thu Jun 28 03:07:08 EDT 2007
linux2

使用 方法时,用户等效性通常在 oracle 用户帐户的 /etc/hosts.equiv 文件中定义,在所有新的终端 shell 会话上启用:

$ rsh linux1 "date;hostname"
Thu Jun 28 03:04:25 EDT 2007
linux1

$ rsh linux2 "date;hostname"
Thu Jun 28 03:04:59 EDT 2007
linux2

安装集群就绪服务

执行以下任务安装 Oracle 集群件:

$ cd ~oracle
$ ~oracle/orainstall/clusterware/runInstaller -ignoreSysPrereqs

屏幕名称 答复
Welcome 屏幕 单击 Next
Specify Inventory directory and credentials 接受默认值:
   Inventory directory: /u01/app/oracle/oraInventory
   操作系统组名称: oinstall
Specify Home Details 为 ORACLE_HOME(实际上是 $ORA_CRS_HOME,我将在本文中使用它)设置 NamePath,如下所示:
   Name: OraCrs10g_home
   路径: /u01/app/crs
Product-Specific Prerequisite Checks 安装程序将执行一系列的检查以确定节点是否满足安装和配置 Oracle 集群件软件的最低要求。如果任何检查失败,您将需要通过单击该复选框手动验证失败的检查。我所执行的安装通过了所有检查,未出现任何问题。

单击 Next 继续。

Specify Cluster Configuration Cluster Name: crs
Public Node Name Private Node Name 虚拟节点名称
linux1 linux1-priv linux1-vip
linux2 linux2-priv linux2-vip
Specify Network Interface Usage
Interface Name Subnet Interface Type
eth0 192.168.1.0 Public
eth1 192.168.2.0 Private
Specify OCR Location 从带有 RAC 的 Oracle 数据库 10g 第 2 版 (10.2) 开始,Oracle 集群件支持创建镜像的 OCR 文件,从而增强了集群可靠性。就本示例而言,我选择了通过保留默认选项“Normal Redundancy”镜像 OCR 文件:

Specify OCR Location: /u02/oradata/orcl/OCRFile
指定 OCR 镜像位置: /u02/oradata/orcl/OCRFile_mirror

Specify Voting Disk Location 从带有 RAC 的 Oracle 数据库 10g 第 2 版 (10.2) 开始,已经修改了 CSS,使您可以为 CSS 配置多个表决磁盘。在第 1 版 (10.1) 中,您只能配置一个表决磁盘。通过启用多个表决磁盘配置,您可以使用冗余的表决磁盘在独立的共享物理磁盘上为 RAC 数据库配置多个表决磁盘。该选项简化了 iSCSI 网络协议以及其他网络附件存储 (NAS) 存储解决方案的使用。注意,要利用多个表决磁盘的好处,必须至少配置三个表决磁盘。就本示例而言,我选择了通过保留默认选项“Normal Redundancy”镜像表决磁盘:

Voting Disk Location: /u02/oradata/orcl/CSSFile
其它表决磁盘 1 位置: /u02/oradata/orcl/CSSFile_mirror1
其它表决磁盘 2 位置: /u02/oradata/orcl/CSSFile_mirror2

总结

单击 Install 开始安装!

执行配置脚本 安装完成后,将提示您运行 orainstRoot.shroot.sh 脚本。以“root”用户帐户在集群的两个 Oracle RAC 节点(从执行安装的节点开始)上打开一个新控制台窗口。

导航到 /u01/app/oracle/oraInventory 目录,并在 RAC 集群的所有节点上运行 orainstRoot.sh

在两个节点上执行 orainstRoot.sh 之后,验证“/etc/oraInst.loc”文件的权限为 644 (-rw-r--r--) 且所有者为 root。如果 oracle 用户帐户不具备该文件的读权限,在 Oracle 安装期间可能会出现问题 —“the location of the oraInventory directory cannot be determined”。例如,在 Oracle 集群件安装后(运行 Oracle 集群验证实用程序时),将出现以下错误:“CRS is not installed on any of the nodes”。如果 /etc/oraInst.loc 的权限设置不当,则运行 root.sh 之前,您无法在两个节点上运行 orainstRoot.sh。此外,umask 设置可能关闭 — 应为 0022。在 RAC 集群的两个节点上运行以下命令以更正此问题:

# chmod 644 /etc/oraInst.loc
# ls -l /etc/oraInst.loc
-rw-r--r--  1 root root 63 Sep  3 11:06 /etc/oraInst.loc


在集群中两个 Oracle RAC 节点(从执行安装的节点开始)上的同一个新控制台窗口中,以“root”用户帐户登录。

导航到 /u01/app/crs 目录并在集群中的每个节点(从执行安装的节点开始)上找到 root.sh 文件。在 RAC 集群的所有节点上运行 root.sh 文件,一次一个

如果 Oracle 集群件主目录是 ORACLE_BASE 目录的子目录(这种情况永远不应出现!),您将在运行两个节点上的 root.sh 脚本时收到有关权限的几个警告。可以忽略这些警告,没什么问题。

可能需要等一会儿才会运行 root.sh。在最后一个节点上运行 root.sh 时,您将收到一个严重错误,其输出如下所示:

...
Expecting the CRS daemons to be up within 600 seconds.
CSS is active on these nodes.
    linux1
    linux2
CSS is active on all nodes.
Waiting for the Oracle CRSD and EVMD to start
Oracle CRS stack installed and running under init(1M)
Running vipca(silent) for configuring nodeapps
The given interface(s), "eth0" is not public.Public interfaces should be used to configure virtual IPs.

此问题为 Oracle 10.2.0.1(Metalink 文章 338924.1 中有说明)所特有,需要在继续操作之前将其解决。最简单的变通方法是从出现错误的上一个节点中以 root 用户的身份手动重新运行 vipca (GUI)。请记住,vipca 是一个 GUI,需要根据您的 X 服务器设置 DISPLAY 变量:

# $ORA_CRS_HOME/bin/vipca

出现“VIP Configuration Assistant”时,我按如下所示回应屏幕提示:

   欢迎页面: 单击 Next
   网络接口: 只选择公共接口 - eth0
   集群节点的虚拟 IP:
       节点名称: linux1
       IP 别名: linux1-vip
       IP 地址: 192.168.1.200
       子网掩码: 255.255.255.0

       节点名称: linux2
       IP 别名: linux2-vip
       IP 地址: 192.168.1.201
       子网掩码: 255.255.255.0

   摘要: 单击 Finish
   配置助手进度对话框: 配置完成后单击 OK。
   配置结果: 单击 Exit

返回到 OUI 并确认“Execute Configuration scripts”对话框窗口。

安装结束 安装结束时,退出 OUI。

验证 Oracle 集群件安装

安装 Oracle 集群件后,可以运行几个测试来验证安装是否成功。在 RAC 集群的两个节点上运行下列命令。

检查集群节点

$ /u01/app/crs/bin/olsnodes -n
linux1 1
linux2 2
检查 Oracle 集群件自动启动脚本
$ ls -l /etc/init.d/init.*
-r-xr-xr-x  1 root root  1951 Jun 28 08:57 /etc/init.d/init.crs
-r-xr-xr-x  1 root root  4714 Jun 28 08:57 /etc/init.d/init.crsd
-r-xr-xr-x  1 root root 35394 Jun 28 08:57 /etc/init.d/init.cssd
-r-xr-xr-x  1 root root  3190 Jun 28 08:57 /etc/init.d/init.evmd

 


21. 安装 Oracle 数据库 10g 软件

仅在集群 (linux1) 的一个 Oracle RAC 节点上执行下列安装过程!Oracle Universal Installer 将把 Oracle 数据库软件安装到集群中的两个 Oracle RAC 节点。

成功安装 Oracle 集群件软件后,下一步是安装具有 RAC 的 Oracle 数据库 10g 第 2 版 (10.2.0.1.0)。

就本示例而言,您在安装该软件时将不使用“Create Database”选项。而是将在安装后使用 Database Configuration Assistant (DBCA) 创建数据库。

与前面章节中的 Oracle 集群件安装一样,Oracle 10g 数据库软件只需从一个节点运行。OUI 将把此软件程序包复制到 RAC 集群中配置的所有节点。

验证终端 Shell 环境

如前面的章节(安装 Oracle 10g 集群件软件)中所讨论的,需要首先为集群中所有节点的远程访问和用户等效性配置终端 shell 环境然后才能运行 Oracle Universal Installer。注意,您可以利用前面的小节中使用的同一终端 shell 会话,您不必采取下面描述的关于设置远程访问和 DISPLAY 变量的任何操作:

oracle 用户帐户登录并设置 DISPLAY(如果需要)

# su - oracle
$ # IF YOU ARE USING A REMOTE CLIENT TO CONNECT TO THE
$ # NODE PERFORMING THE INSTALL
$ DISPLAY=:0.0
$ export DISPLAY

验证远程访问/用户等效性

验证您能够在将要从中运行 Oracle Installer 的 Linux 服务器上,不使用口令对集群中的所有其他 Linux 服务器运行安全 Shell 命令(sshscp)或 命令(rshrcp)。

使用安全 shell 方法时,需要首先在任何新的终端 shell 会话上启用用户等效性然后再尝试运行 OUI。要为当前的终端 shell 会话启用用户等效性,请执行以下步骤(记住为每个键输入在提示时生成的通行短语):

$ exec /usr/bin/ssh-agent $SHELL

$ /usr/bin/ssh-add
Enter passphrase for /home/oracle/.ssh/id_rsa: xxxxx
Identity added: /home/oracle/.ssh/id_rsa (/home/oracle/.ssh/id_rsa)
Identity added: /home/oracle/.ssh/id_dsa (/home/oracle/.ssh/id_dsa)

$ ssh linux1 "date;hostname"
Thu Jun 28 03:06:34 EDT 2007
linux1
$ ssh linux2 "date;hostname"
Thu Jun 28 03:07:08 EDT 2007
linux2

使用 方法时,用户等效性通常在 oracle 用户帐户的 /etc/hosts.equiv 文件中定义,在所有新的终端 shell 会话上启用:

$ rsh linux1 "date;hostname"
Thu Jun 28 03:04:25 EDT 2007
linux1

$ rsh linux2 "date;hostname"
Thu Jun 28 03:04:59 EDT 2007
linux2

运行 Oracle 集群验证实用程序

安装 Oracle 数据库软件之前,我们应该使用集群验证实用程序 (CVU) 运行以下数据库安装前检查。

有关如何配置 CVU 的说明,可在本文前面的“”一节中找到。

$ cd ~oracle/orainstall/clusterware/cluvfy
$ ./runcluvfy.sh stage -pre dbinst -n linux1,linux2 -r 10gR2 -verbose

查看 CVU 报表。注意,该报表将包含我们在检查 CRS 安装前任务时收到的错误:找不到一组合适的 VIP 接口,以及找不到 Enterprise Linux 4 Update 5 中不存在的特定 RPM 程序包。可以忽略这两个错误,没什么问题。

安装 Oracle 数据库 10g 第 2 版软件

使用以下命令安装 Oracle 数据库 10g 第 2 版软件:

$ cd ~oracle
$ ~oracle/orainstall/database/runInstaller -ignoreSysPrereqs

屏幕名称 答复
Welcome 屏幕 单击 Next
选择安装类型 我选择了 Enterprise Edition 选项。
Specify Home Details 为 ORACLE_HOME 设置 NamePath,如下所示:
   Name: OraDb10g_home1
   路径: /u01/app/oracle/product/10.2.0/db_1
Specify Hardware Cluster Installation Mode 选择 Cluster Installation 选项,然后选择所有可用节点。单击 Select All 选择所有服务器:linux1 和 linux2。

如果安装此时停止,且有 RAC 节点的状态显示为“Node not reachable”,则执行以下检查:

  • 确保 Oracle 集群件正在所讨论的节点上运行。
  • 确保您能够从执行安装的节点访问所讨论的节点。
Product-Specific Prerequisite Checks 安装程序将执行一系列的检查以确定节点是否满足安装和配置 Oracle 数据库软件的最低要求。如果任何检查失败,您将需要通过单击该复选框手动验证失败的检查。

可能会收到一个关于可用的交换空间不满足其最低要求的错误:

Checking available swap space requirements...
Expected result: 3036MB
Actual Result: 1983MB

大多数情况下,您会具有所需的最小交换空间(如上所示),可以安全地忽略该错误。只需单击“Checking available swap space requirements...”复选框,然后单击 Next 继续。

选择数据库配置 选择选项“Install database software only”。

记住,我们将在单独的步骤中使用 DBCA 创建集群化数据库。

总结

单击 Install 开始安装!

Root Script Window - Run root.sh 安装完成后,将提示您运行 root.sh 脚本。需要记住的是,需要在 RAC 集群的所有节点一次一个地(从运行数据库安装的节点开始)运行 root.sh 脚本。

首先,以 root 用户帐户在安装 Oracle 10g 数据库软件的节点上打开一个新控制台窗口。我打开的是“linux1”。

导航到 /u01/app/oracle/product/10.2.0/db_1 目录,运行 root.sh

在集群的所有节点上运行 root.sh 脚本后,返回 OUI 并确认“Execute Configuration scripts”对话框窗口。

安装结束 安装结束时,退出 OUI。

 


22. 安装 Oracle 10g 随附 CD 软件

仅在集群 (linux1) 的一个 Oracle RAC 节点上执行下列安装过程!Oracle 10g 随附 CD 软件将由 Oracle Universal Installer 安装到集群的两个 Oracle RAC 节点。

成功安装 Oracle 数据库软件后,下一步是安装 Oracle 10g 第 2 版随附 CD 软件 (10.2.0.1.0)。

请注意,这是一个可选步骤。就本指南而言,我的测试数据库将通常使用 Java 虚拟机 (Java VM) 和 Oracle interMedia,因此将需要安装 Oracle 数据库 10g 随附 CD。要执行的安装类型将为 Oracle Database 10g Products 安装类型。

此安装类型包括用于提高 Java 性能的原生编译的 Java 库 (NCOMP) 文件。如果不安装 NCOMP 文件,则在使用 Java VM 的数据库升级为修补版时,将发生 ORA-29558:JAccelerator (NCOMP) not installed 错误。

验证终端 Shell 环境

如前面的章节(安装 Oracle 数据库 10g 软件)中所讨论的,需要首先为集群中所有节点的远程访问和用户等效性配置终端 shell 环境然后才能运行 Oracle Universal Installer。注意,您可以利用前面的小节中使用的同一终端 shell 会话,您不必采取下面描述的关于设置远程访问和 DISPLAY 变量的任何操作:

oracle 用户帐户登录并设置 DISPLAY(如果需要)

# su - oracle
$ # IF YOU ARE USING A REMOTE CLIENT TO CONNECT TO THE
$ # NODE PERFORMING THE INSTALL
$ DISPLAY=:0.0
$ export DISPLAY

验证远程访问/用户等效性

验证您能够在将要从中运行 Oracle Installer 的 Linux 服务器上,不使用口令对集群中的所有其他 Linux 服务器运行安全 Shell 命令(sshscp)或 命令(rshrcp)。

使用安全 shell 方法时,需要首先在任何新的终端 shell 会话上启用用户等效性然后再尝试运行 OUI。要为当前的终端 shell 会话启用用户等效性,请执行以下步骤(记住为每个键输入在提示时生成的通行短语):

$ exec /usr/bin/ssh-agent $SHELL
$ /usr/bin/ssh-add
Enter passphrase for /home/oracle/.ssh/id_rsa: xxxxx
Identity added: /home/oracle/.ssh/id_rsa (/home/oracle/.ssh/id_rsa)
Identity added: /home/oracle/.ssh/id_dsa (/home/oracle/.ssh/id_dsa)

$ ssh linux1 "date;hostname"
Thu Jun 28 03:06:34 EDT 2007
linux1

$ ssh linux2 "date;hostname"
Thu Jun 28 03:07:08 EDT 2007
linux2

使用 方法时,用户等效性通常在 oracle 用户帐户的 /etc/hosts.equiv 文件中定义,在所有新的终端 shell 会话上启用:

$ rsh linux1 "date;hostname"
Thu Jun 28 03:04:25 EDT 2007
linux1

$ rsh linux2 "date;hostname"
Thu Jun 28 03:04:59 EDT 2007
linux2

安装 Oracle 数据库 10g 随附 CD 软件

使用以下命令安装 Oracle 数据库 10g 随附 CD 软件:

$ cd ~oracle
$ ~oracle/orainstall/companion/runInstaller -ignoreSysPrereqs

屏幕名称 答复
Welcome 屏幕 单击 Next
选择要安装的产品 选择“Oracle Database 10g Products 10.2.0.1.0”选项。
Specify Home Details 将 ORACLE_HOME NamePath 的目标设置为前面安装的 Oracle10g 数据库软件的目标,如下所示:
   Name: OraDb10g_home1
   路径: /u01/app/oracle/product/10.2.0/db_1
Specify Hardware Cluster Installation Mode 默认情况下,将选择 Cluster Installation 选项以及集群中的所有可用节点。保留这些默认选项,然后单击 Next 继续。

如果安装此时停止,且有 RAC 节点的状态显示为“Node not reachable”,则执行以下检查:

  • 确保 Oracle 集群件正在所讨论的节点上运行。
  • 确保您能够从执行安装的节点访问所讨论的节点。
Product-Specific Prerequisite Checks 安装程序将执行一系列的检查以确定节点是否满足安装和配置随附 CD 软件的最低要求。如果任何检查失败,您将需要通过单击该复选框手动验证失败的检查。我所执行的安装通过了所有检查,未出现任何问题。

单击 Next 继续。

总结 在 Summary 屏幕上,单击 Install 开始安装!
安装结束 安装结束时,退出 OUI。



23. 创建 TNS 监听器进程

仅在集群 (linux1) 的一个 Oracle RAC 节点上执行下列配置过程!Network Configuration Assistant (NETCA) 将在集群的两个 Oracle RAC 节点上的集群化配置中设置 TNS 监听器。

DBCA 需要在 RAC 集群的所有节点上配置并运行 Oracle TNS 监听器进程,然后它才能创建集群化数据库。

只需在集群的一个节点上执行 TNS 监听器创建过程。执行所有更改并将这些更改复制到集群的所有节点上。在一个节点(我将使用 linux1)上,启动 NETCA 并执行创建新 TNS 监听器进程的过程,同时配置节点的本地访问权限。

验证终端 Shell 环境

如前面的章节(安装 Oracle 数据库 10g 随附 CD 软件)中所讨论的,需要首先为集群中所有节点的远程访问和用户等效性配置终端 shell 环境然后才能运行 Network Configuration Assistant (NETCA)。注意,您可以利用前面的小节中使用的同一终端 shell 会话,您不必采取下面描述的关于设置远程访问和 DISPLAY 变量的任何操作:

oracle 用户帐户登录并设置 DISPLAY(如果需要)

# su - oracle
$ # IF YOU ARE USING A REMOTE CLIENT TO CONNECT TO THE
$ # NODE PERFORMING THE INSTALL
$ DISPLAY=:0.0
$ export DISPLAY

验证远程访问/用户等效性

验证您能够在将要从中运行 Oracle Installer 的 Linux 服务器上,不使用口令对集群中的所有其他 Linux 服务器运行安全 Shell 命令(sshscp)或 命令(rshrcp)。

使用安全 shell 方法时,需要首先在任何新的终端 shell 会话上启用用户等效性然后再尝试运行 OUI。要为当前的终端 shell 会话启用用户等效性,请执行以下步骤(记住为每个键输入在提示时生成的通行短语):

$ exec /usr/bin/ssh-agent $SHELL
$ /usr/bin/ssh-add
Enter passphrase for /home/oracle/.ssh/id_rsa: xxxxx
Identity added: /home/oracle/.ssh/id_rsa (/home/oracle/.ssh/id_rsa)
Identity added: /home/oracle/.ssh/id_dsa (/home/oracle/.ssh/id_dsa)

$ ssh linux1 "date;hostname"
Thu Jun 28 03:06:34 EDT 2007
linux1

$ ssh linux2 "date;hostname"
Thu Jun 28 03:07:08 EDT 2007
linux2

使用 方法时,用户等效性通常在 oracle 用户帐户的 /etc/hosts.equiv 文件中定义,在所有新的终端 shell 会话上启用:

$ rsh linux1 "date;hostname"
Thu Jun 28 03:04:25 EDT 2007
linux1

$ rsh linux2 "date;hostname"
Thu Jun 28 03:04:59 EDT 2007
linux2

运行 Network Configuration Assistant

要启动 NETCA,请运行以下命令:

$ netca &
      
下表将引导您为我们 RAC 环境创建一个新的 Oracle 监听器。

屏幕名称 答复
选择 Oracle 类型
网络服务配置
选择 Cluster Configuration
Select the nodes to configure 选择所有节点:linux1 和 linux2。
Type of Configuration 选择 Listener configuration。
Listener Configuration — 接下来 6 个屏幕 后续屏幕现在与其他常规监听器配置相似。您只需接受后续 6 个屏幕的默认参数即可:
   What do you want to do: Add
   Listener name: LISTENER
   Selected protocols: TCP
   Port number: 1521
   Configure another listener:
   Listener configuration complete! [ Next ]
您将返回到此 Welcome (Type of Configuration) 屏幕。
Type of Configuration 选择 Naming Methods configuration。
Naming Methods Configuration 后续屏幕是:
   Selected Naming Methods: Local Naming
   Naming Methods configuration complete! [ Next ]
您将返回到此 Welcome (Type of Configuration) 屏幕。
Type of Configuration 单击 Finish 退出 NETCA。

Oracle TNS 监听器进程现在应在 RAC 集群的所有节点上运行:

$ hostname
linux1

$ ps -ef | grep lsnr | grep -v 'grep' | grep -v 'ocfs' | awk '{print $9}'
LISTENER_LINUX1

=====================

$ hostname
linux2

$ ps -ef | grep lsnr | grep -v 'grep' | grep -v 'ocfs' | awk '{print $9}'
LISTENER_LINUX2

 


24. 创建 Oracle 集群数据库

仅在集群 (linux1) 的一个 Oracle RAC 节点上执行数据库创建过程!

我们将使用 DBCA 创建集群化数据库。

在执行 DBCA 前,确保为 $ORACLE_BASE/product/10.2.0/db_1 环境正确设置了 $ORACLE_HOME$PATH

在试图开始创建集群化数据库之前,还应确保已安装的所有服务(Oracle TNS 监听器、Oracle 集群件进程等)正在运行。

验证终端 Shell 环境

如前面的章节(创建 TNS 监听器进程)中所讨论的,需要首先为集群中所有节点的远程访问和用户等效性配置终端 shell 环境然后才能运行 Database Configuration Assistant (DBCA)。注意,您可以利用前面的小节中使用的同一终端 shell 会话,您不必采取下面描述的关于设置远程访问和 DISPLAY 变量的任何操作:

oracle 用户帐户登录并设置 DISPLAY(如果需要)

# su - oracle
$ # IF YOU ARE USING A REMOTE CLIENT TO CONNECT TO THE
$ # NODE PERFORMING THE INSTALL
$ DISPLAY=:0.0
$ export DISPLAY

验证远程访问/用户等效性

验证您能够在将要从中运行 Oracle Installer 的 Linux 服务器上,不使用口令对集群中的所有其他 Linux 服务器运行安全 Shell 命令(sshscp)或 命令(rshrcp)。

使用安全 shell 方法时,需要首先在任何新的终端 shell 会话上启用用户等效性然后再尝试运行 OUI。要为当前的终端 shell 会话启用用户等效性,请执行以下步骤(记住为每个键输入在提示时生成的通行短语):

$ exec /usr/bin/ssh-agent $SHELL
$ /usr/bin/ssh-add
Enter passphrase for /home/oracle/.ssh/id_rsa: xxxxx
Identity added: /home/oracle/.ssh/id_rsa (/home/oracle/.ssh/id_rsa)
Identity added: /home/oracle/.ssh/id_dsa (/home/oracle/.ssh/id_dsa)

$ ssh linux1 "date;hostname"
Thu Jun 28 03:06:34 EDT 2007
linux1

$ ssh linux2 "date;hostname"
Thu Jun 28 03:07:08 EDT 2007
linux2

使用 方法时,用户等效性通常在 oracle 用户帐户的 /etc/hosts.equiv 文件中定义,在所有新的终端 shell 会话上启用:

$ rsh linux1 "date;hostname"
Thu Jun 28 03:04:25 EDT 2007
linux1

$ rsh linux2 "date;hostname"
Thu Jun 28 03:04:59 EDT 2007
linux2

运行 Oracle 集群验证实用程序

创建 Oracle 集群化数据库之前,我们应该使用集群验证实用程序 (CVU) 运行以下数据库配置检查。

有关如何配置 CVU 的说明,可在本文前面的“”一节中找到。

$ cd ~oracle/orainstall/clusterware/cluvfy
$ ./runcluvfy.sh stage -pre dbcfg -n linux1,linux2 -d ${ORACLE_HOME} -verbose

查看 CVU 报表。注意,该报表将包含我们在检查 CRS 安装前任务时收到的错误:找不到一组合适的 VIP 接口。可以忽略该错误,没什么问题。

创建集群化数据库

要开始数据库创建过程,运行以下命令:

$ dbca &
      
屏幕名称 答复
Welcome 屏幕 选择“Oracle Real Application Clusters database”。
Operations 选择 Create a Database
Node Selection 单击 Select All 按钮选择所有服务器:linux1 和 linux2。
Database Templates 选择 Custom Database
Database Identification 选择:
   全局数据库名称: orcl.idevelopment.info
   SID 前缀: orcl

我将 idevelopment.info 用于数据库域。您可以使用任何域。请记住,此域不必为有效的 DNS 域。

Management Option 保留此处的默认选项,即“Configure the Database with Enterprise Manager / Use Database Control for Database Management”。
Database Credentials 我选择 Use the Same Password for All Accounts。输入口令(两次)并确保此口令不是以数字开头。
Storage Options 对于本指南,我们将选择 use Automatic Storage Management (ASM)
Create ASM Instance 提供要用于新 ASM 实例的 SYS 口令。

此外,从 Oracle 10g 第 2 版开始,ASM 实例服务器参数文件 (SPFILE) 需要位于共享磁盘上。您将需要修改“Create server parameter file (SPFILE)”的默认条目以驻留在 OCFS2 分区上,如下所示:/u02/oradata/orcl/dbs/spfile+ASM.ora。所有其他选项可以保留其默认值。

然后将有一个对话框询问您是否要创建并启动 ASM 实例。选择 OK 按钮确认此对话框。

OUI 将立即在 RAC 集群的所有节点上创建并启动 ASM 实例。

ASM Disk Groups

首先,单击 Create New 按钮。这将弹出“Create Disk Group”窗口,其中显示了我们在前面使用 ASMLib 创建的四个卷。

如果在本文前面部分创建的卷没有显示在“Select Member Disks”窗口中:(ORCL:VOL1、ORCL:VOL2、ORCL:VOL3 和 ORCL:VOL4),则单击“Change Disk Discovery Path”按钮并输入“ORCL:VOL*”。

对于第一个“Disk Group Name”,我使用了字符串“ORCL_DATA1”。在“Select Member Disks”窗口中选择前两个 ASM 卷(ORCL:VOL1 和 ORCL:VOL2)。将“Redundancy”设置为“Normal”。

确认此窗口中的所有值均正确后,单击 [OK] 按钮。这将显示“ASM Disk Group Creation”对话框。完成 ASM 磁盘组创建过程时,您将返回到“ASM Disk Groups”窗口。

再次单击 Create New 按钮。对于第二个“Disk Group Name”,我使用了字符串“FLASH_RECOVERY_AREA”。在“Select Member Disks”窗口中选择后两个 ASM 卷(ORCL:VOL3 和 ORCL:VOL4)。将“Redundancy”设置为“Normal”。

确认此窗口中的所有值均正确后,单击 [OK] 按钮。这将显示“ASM Disk Group Creation”对话框。

完成 ASM 磁盘组创建过程后,您将返回到“ASM Disk Groups”窗口,其中创建并选择了两个磁盘组。使用新建的磁盘组名称“ORCL_DATA1”旁边的复选框选择一个磁盘组(确保未选择“FLASH_RECOVERY_AREA”的磁盘组),然后单击 [Next] 继续。

Database File Locations

我选择使用默认值,即使用 Oracle Managed Files:

Database Area: +ORCL_DATA1

Recovery Configuration 选中“Specify Flash Recovery Area”选项。

对于“Flash Recovery Area”,单击 [Browse] 按钮并选择磁盘组名“+FLASH_RECOVERY_AREA”。

我使用的磁盘组的大小约为 118GB。定义快速恢复区大小时,使用整个卷减去 10% — (118-10%=106 GB)。我使用了 106 GB (108544 MB) 的“Flash Recovery Area Size”。

Database Content 我将所有数据库组件(和目标表空间)设置为它们的默认值,但选择 Example Schemas 也完全可以。由于我们安装了 Oracle 随附 CD 软件,因此该选项可用。
数据库服务 对于此测试配置,单击 Add,然后输入 orcl_taf 作为“Service Name”。将这两个实例设置为 Preferred,并为“TAF Policy”选择“Basic”。
Initialization Parameters 根据您的环境更改任意参数。我保留了所有这些参数的默认设置。
Database Storage 根据您的环境更改任意参数。我保留了所有这些参数的默认设置。
Creation Options 保留默认选项 Create Database。我还始终选择“Generate Database Creation Scripts”。单击 Finish 启动数据库创建过程。出现数据库创建报表和脚本生成对话框后,数据库创建将启动。

在“Summary”屏幕上单击 OK

数据库创建结束 在数据库创建结束时,退出 DBCA。

退出 DBCA 后,在大约 30-60 秒内,您不会收到来自对话框窗口的任何反馈。一段时间之后,将弹出另一对话框,指示它正在启动所有 Oracle 实例以及 HA 服务“orcl_taf”。这可能需要几分钟的时间才能完成。完成时,所有窗口和对话框将关闭。

完成 DBCA 后,您就启动了一个功能完善的 Oracle RAC 集群!

创建 orcl_taf 服务

在创建 Oracle 集群化数据库的过程中,您添加了一个名为 orcl_taf 的服务,我们将用它来连接启用了 TAF 的数据库。在我的多个安装中,均将此服务添加到了 tnsnames.ora 中,但从未将其作为每个 Oracle 实例的服务更新过。

使用以下命令来验证已成功添加 orcl_taf 服务:

SQL> show parameter service

NAME                 TYPE        VALUE
-------------------- ----------- --------------------------------
service_names        string      orcl.idevelopment.info, orcl_taf
如果定义的唯一服务是用于 orcl.idevelopment.info 的,则您将需要手动将此服务添加到两个实例中:
SQL> show parameter service

NAME                 TYPE        VALUE
-------------------- ----------- --------------------------
service_names        string      orcl.idevelopment.info

SQL> alter system set service_names = 
  2  'orcl.idevelopment.info, orcl_taf.idevelopment.info' scope=both;

 


25. 安装后任务 —(可选)

本章描述可应用于新的 Oracle 10g 环境以增强可用性和数据库管理的几个可选任务。

在 RAC 环境中启用存档日志

无论是单个实例还是集群化数据库,Oracle 都会跟踪对数据库块的所有更改并记录到联机重做日志文件 中。在 Oracle RAC 环境中,每个实例将具有自己的联机重做日志文件集,称为线程。每个 Oracle 实例将以循环方式使用其联机重做日志组。一个联机重做日志填充之后,Oracle 将转至下一个联机重做日志。如果数据库处于“存档日志模式”,Oracle 将创建该联机重做日志的一个副本,然后再对其进行重用。一个线程至少必须包含两个联机重做日志(或联机重做日志组)。对于单个实例的配置也同样如此。单个实例至少必须包含两个联机重做日志(或联机重做日志组)。

联机重做日志文件的大小完全独立于另一个实例的重做日志大小。尽管在大多数配置中该大小是相同的,但是该大小可能会随每个节点的负载和备份/恢复注意事项而异。还值得一提的是,每个实例都具有对自己的联机重做日志文件的独占式写访问权限。但是在正确配置的 RAC 环境中,如果某个实例异常中断,每个实例都可以读取该实例的当前联机重做日志文件以执行实例恢复。因此,联机重做日志需要位于一个共享存储设备上(就像数据库文件一样)。

正如本文前面所提到的那样,Oracle 以循环方式写入其联机重做日志文件。当前的联机重做日志填充之后,Oracle 将切换到下一个联机重做日志。为简化介质恢复,Oracle 允许 DBA 将数据库置于“存档日志模式”,以在联机重做日志填充后(并且得到重用之前)创建它的副本。该过程称为存档。

利用 Database Configuration Assistant (DBCA),用户可以将一个新数据库配置为存档日志模式,但是大多数 DBA 在最初创建数据库期间选择跳过该选项。在这种情况下,数据库没有处于存档日志模式,只需将数据库置于存档日志模式。但是请注意,这将需要短暂的数据库中断。从 Oracle RAC 配置的一个节点,执行以下任务将支持 RAC 的数据库置于存档日志模式。对于本文,我将使用节点 linux1 运行 orcl1 实例:

  1. 登录到一个节点(即 linux1),通过在当前实例中将 cluster_database 设置为 FALSE 来禁用集群实例参数:
    $ sqlplus "/ as sysdba"
    SQL> alter system set cluster_database=false scope=spfile sid='orcl1';

  2. 关闭所有 访问集群化数据库的实例:
    $ srvctl stop database -d orcl

  3. 使用本地实例,挂载 数据库:
    $ sqlplus "/ as sysdba"
    SQL> startup mount

  4. 启用存档:
    SQL> alter database archivelog;

  5. 通过在当前实例中将实例参数 cluster_database 修改为 TRUE,重新启用对集群的支持:
    SQL> alter system set cluster_database=true scope=spfile sid='orcl1';

  6. 关闭本地实例:
    SQL> shutdown immediate

  7. 使用 srvctl 备份所有 实例:
    $ srvctl start database -d orcl

  8. (可选)使用 srvctl 备份所有服务(即 TAF):
    $ srvctl start service -d orcl

  9. 登录到本地实例,验证存档日志模式已启用:
    $ sqlplus "/ as sysdba"
    SQL> archive log list
    Database log mode              Archive Mode
    Automatic archival             Enabled
    Archive destination            USE_DB_RECOVERY_FILE_DEST
    Oldest online log sequence     83
    Next log sequence to archive   84
    Current log sequence           84

启用存档日志模式后,RAC 配置中的每个实例都可以自动存档重做日志!

下载并安装自定义 Oracle 数据库脚本

DBA 依赖 Oracle 的数据字典视图和动态性能视图以支持并更好地管理他们的数据库。尽管这些视图提供一个简单方便的机制来查询有关数据库的重要信息,但是拥有一个用于查询这些视图的准确、随时可用的 SQL 脚本集合还是有帮助的。

在本节中,您将下载并安装 Oracle DBA 脚本集合,用于管理数据库的多个方面,包括空间管理、性能、备份、安全性和会话管理。可以使用以下链接 http://www.idevelopment.info/data/Oracle/DBA_scripts/common.zip 下载 Oracle DBA 脚本存档。使用 oracle 用户帐户将 common.zip 存档下载到集群中每个节点的 $ORACLE_BASE 目录。对于本文,将 common.zip 存档复制到 /u01/app/oracle。接下来,将存档文件解压缩到 $ORACLE_BASE 目录。

例如,使用 oracle 用户帐户在 Oracle RAC 集群中的每个节点上执行以下命令:

$ mv common.zip /u01/app/oracle
$ cd /u01/app/oracle
$ unzip common.zip

最后一步是验证(或设置)当前 UNIX shell 相应的环境变量,以确保在任何目录中 Oracle SQL 脚本都可以从 SQL*Plus 运行。对于 UNIX,验证以下环境变量已设置并包含在您的登录 shell 脚本中:

ORACLE_PATH=$ORACLE_BASE/common/oracle/sql:.:$ORACLE_HOME/rdbms/admin
export ORACLE_PATH

注意,ORACLE_PATH 环境变量应该已在 .bash_profile 登录脚本中设置,该登录脚本是在一节中创建的。

既然 Oracle DBA 脚本已解压缩并且 UNIX 环境变量 ($ORACLE_PATH) 已设置为相应的目录,现在您登录到 SQL*Plus 后应该能够在 $ORACLE_BASE/common/oracle/sql 中运行任何 SQL 脚本。例如,要在以 DBA 用户身份登录到 Oracle 数据库后查询表空间信息,使用以下命令:

SQL> @dba_tablespaces

Status    Tablespace Name TS Type      Ext. Mgt.  Seg. Mgt.    Tablespace Size    Used (in bytes) Pct. Used
--------- --------------- ------------ ---------- --------- ------------------ ------------------ ---------
ONLINE    UNDOTBS1        UNDO         LOCAL      MANUAL         1,283,457,024          9,043,968         1
ONLINE    SYSAUX          PERMANENT    LOCAL      AUTO             524,288,000        378,732,544        72
ONLINE    USERS           PERMANENT    LOCAL      AUTO           2,147,483,648        321,257,472        15
ONLINE    SYSTEM          PERMANENT    LOCAL      MANUAL           838,860,800        505,544,704        60
ONLINE    INDX            PERMANENT    LOCAL      AUTO           1,073,741,824             65,536         0
ONLINE    UNDOTBS2        UNDO         LOCAL      MANUAL         1,283,457,024         22,282,240         2
ONLINE    TEMP            TEMPORARY    LOCAL      MANUAL         1,073,741,824         92,274,688         9
                                                            ------------------ ------------------ ---------
avg                                                                                                      23
sum                                                              8,225,030,144      1,329,201,152

7 rows selected.

要在登录到 SQL*Plus 后获得所有可用 Oracle DBA 脚本的列表,运行 help.sql 脚本:

SQL> @help.sql

========================================
Automatic Shared Memory Management
========================================
asmm_components.sql

========================================
Automatic Storage Management
========================================
asm_alias.sql
asm_clients.sql
asm_diskgroups.sql
asm_disks.sql
asm_disks_perf.sql
asm_drop_files.sql
asm_files.sql
asm_files2.sql
asm_templates.sql

< --- SNIP --- >

perf_top_sql_by_buffer_gets.sql
perf_top_sql_by_disk_reads.sql

========================================
Workspace Manager
========================================
wm_create_workspace.sql
wm_disable_versioning.sql
wm_enable_versioning.sql
wm_freeze_workspace.sql
wm_get_workspace.sql
wm_goto_workspace.sql
wm_merge_workspace.sql
wm_refresh_workspace.sql
wm_remove_workspace.sql
wm_unfreeze_workspace.sql
wm_workspaces.sql

创建共享 Oracle 口令文件

在本节中,我将介绍配置一个在 Oracle 集群化数据库的所有实例之间共享的 Oracle 口令文件所需的步骤。UNIX 中每个实例的数据库口令文件位于 $ORACLE_HOME/dbs/orapw,包含所有具有 SYSDBA 权限的数据库用户的列表。当一个数据库用户被授予 SYSDBA 角色时,实例会将此记录在您登录到的实例的数据库口令文件中。但是,集群中的其他实例怎么样呢?其他实例上的数据库口令文件没有得到更新,不包含刚被授予 SYSDBA 角色的用户。因此,类似 RMAN 之类的尝试以这个具有 SYSDBA 权限的新用户身份登录的程序如果尝试使用的口令文件不包含该用户名的实例,将会失败。

解决此问题的常见方法是将一个数据库口令文件放到一个共享的/集群化文件系统上,然后创建从每个实例到该单一版本数据库口令文件的符号链接。由于本文描述的环境使用 Oracle 集群文件系统 (OCFS2),因此我们将使用它来存储该单一版本的数据库口令文件。

在本节中,我们将 ASM 实例的 Oracle 口令文件也包括在内。

  1. 在挂载在 /u02/oradata/orcl 上的集群文件系统上创建数据库口令目录。仅从集群中的一个节点使用 oracle 用户帐户 (linux1) 执行以下命令:
    $ mkdir -p /u02/oradata/orcl/dbs
  2. 从集群中的一个节点 (linux1),将数据库口令文件移至集群文件系统上的数据库口令目录。选择一个节点,该节点应该包含具有最新的 SYSDBA 添加内容的数据库口令文件。大多数情况下,这不会有什么问题,因为任何缺少的项都可以通过授予它们 SYSDBA 角色来添加(而且这是一个全新的安装,此时您不可能创建了任何 SYSDBA 用户)。注意,执行以下操作时,无需关闭数据库服务器。在 linux1 中使用 oracle 用户帐户执行以下命令:

    $ mv $ORACLE_HOME/dbs/orapw+ASM1 /u02/oradata/orcl/dbs/orapw+ASM
    $ mv $ORACLE_HOME/dbs/orapworcl1 /u02/oradata/orcl/dbs/orapworcl
    
    $ ln -s /u02/oradata/orcl/dbs/orapw+ASM $ORACLE_HOME/dbs/orapw+ASM1
    $ ln -s /u02/oradata/orcl/dbs/orapworcl $ORACLE_HOME/dbs/orapworcl1
  3. 在集群的第二个节点 (linux2) 中执行以下命令:
    $ rm $ORACLE_HOME/dbs/orapw+ASM2
    $ rm $ORACLE_HOME/dbs/orapworcl2
    
    $ ln -s /u02/oradata/orcl/dbs/orapw+ASM $ORACLE_HOME/dbs/orapw+ASM2
    $ ln -s /u02/oradata/orcl/dbs/orapworcl $ORACLE_HOME/dbs/orapworcl2

现在,当一个用户被授予 SYSDBA 角色后,所有实例都可以访问相同的口令文件:

SQL> GRANT sysdba TO scott;

 


26. 验证 TNS 联网文件

确保在集群的两个 Oracle RAC 节点上配置 TNS 联网文件!

listener.ora

我们已经在中介绍了如何为集群化环境创建 TNS 监听器配置文件 (listener.ora)。应正确配置 listener.ora 文件且无需对它修改。

为清楚起见,我将节点 linux1listener.ora 文件副本包含在了本指南的中。我还包含了 tnsnames.ora 文件的副本,该文件由 Oracle 配置并可以用于测试透明应用程序故障切换 (TAF)。此文件应已在集群的两个 Oracle RAC 节点上进行了配置。

您可以将这些条目中的任何条目包含在需要访问集群化数据库的其他客户端计算机上。

从外部客户端连接集群化数据库

这是一个可选步骤,但我要执行它以便确认正确配置了 TNS 文件。使用其他安装了 Oracle 的计算机(例如,连接网络的 Windows 计算机)并从集群的任一节点添加为集群化数据库创建的 TNS 条目(位于 tnsnames.ora 中)。

验证您从其进行连接的计算机对所有主机名的解析与它们在 listener.oratnsnames.ora 文件中的显示完全一样。对于本文档,您从其连接的计算机应该能够在本地主机文件中或通过 DNS 解析以下主机名:

192.168.1.100    linux1
192.168.1.101    linux2
192.168.1.200    linux1-vip
192.168.1.201    linux2-vip

尝试使用在 tnsnames.ora 文件中定义的所有可用服务名称连接集群化数据库:

C:\> sqlplus system/manager@orcl2
C:\> sqlplus system/manager@orcl1
C:\> sqlplus system/manager@orcl_taf
C:\> sqlplus system/manager@orcl

 


27. 创建/更改表空间

创建集群化数据库时,我们将所有表空间设置为它们的默认大小。如果您将一个大型驱动器用作共享存储,则可能想创建一个大小可以调整的测试数据库。

请记住,这些示例中列出的数据库文件名称(OMF 文件)可能与 Oracle Database Configuration Assistant (DBCA) 为您的环境创建的数据库文件名称不同。完成本节后,在适合的地方替换在您的环境中创建的数据文件名。可以使用以下查询确定环境的文件名:

SQL> select tablespace_name, file_name
  2  from dba_data_files
  3  union
  4  select tablespace_name, file_name
  5  from dba_temp_files;

TABLESPACE_NAME     FILE_NAME
--------------- --------------------------------------------------
EXAMPLE         +ORCL_DATA1/orcl/datafile/example.257.570913311
INDX            +ORCL_DATA1/orcl/datafile/indx.270.570920045
SYSAUX          +ORCL_DATA1/orcl/datafile/sysaux.260.570913287
SYSTEM          +ORCL_DATA1/orcl/datafile/system.262.570913215
TEMP            +ORCL_DATA1/orcl/tempfile/temp.258.570913303
UNDOTBS1        +ORCL_DATA1/orcl/datafile/undotbs1.261.570913263
UNDOTBS2        +ORCL_DATA1/orcl/datafile/undotbs2.265.570913331
USERS           +ORCL_DATA1/orcl/datafile/users.264.570913355

$ sqlplus "/ as sysdba"

SQL> create user scott identified by tiger default tablespace users;
SQL> grant dba, resource, connect to scott;

SQL> alter database datafile '+ORCL_DATA1/orcl/datafile/users.264.570913355' resize 1024m;
SQL> alter tablespace users add datafile '+ORCL_DATA1' size 1024m autoextend off;

SQL> create tablespace indx datafile '+ORCL_DATA1' size 1024m
  2  autoextend on next 50m maxsize unlimited
  3  extent management local autoallocate
  4  segment space management auto;

SQL> alter database datafile '+ORCL_DATA1/orcl/datafile/system.262.570913215' resize 800m;

SQL> alter database datafile '+ORCL_DATA1/orcl/datafile/sysaux.260.570913287' resize 500m;

SQL> alter tablespace undotbs1 add datafile '+ORCL_DATA1' size 1024m
  2  autoextend on next 50m maxsize 2048m;

SQL> alter tablespace undotbs2 add datafile '+ORCL_DATA1' size 1024m
  2  autoextend on next 50m maxsize 2048m;

SQL> alter database tempfile '+ORCL_DATA1/orcl/tempfile/temp.258.570913303' resize 1024m;
以下是我为我的测试数据库环境定义的表空间快照:
Status    Tablespace Name TS Type      Ext. Mgt.  Seg. Mgt.    Tablespace Size    Used (in bytes) Pct. Used
--------- --------------- ------------ ---------- --------- ------------------ ------------------ ---------
ONLINE    UNDOTBS1        UNDO         LOCAL      MANUAL         1,283,457,024         85,065,728         7
ONLINE    SYSAUX          PERMANENT    LOCAL      AUTO             524,288,000        275,906,560        53
ONLINE    USERS           PERMANENT    LOCAL      AUTO           2,147,483,648            131,072         0
ONLINE    SYSTEM          PERMANENT    LOCAL      MANUAL           838,860,800        500,301,824        60
ONLINE    EXAMPLE         PERMANENT    LOCAL      AUTO             157,286,400         83,820,544        53
ONLINE    INDX            PERMANENT    LOCAL      AUTO           1,073,741,824             65,536         0
ONLINE    UNDOTBS2        UNDO         LOCAL      MANUAL         1,283,457,024          3,801,088         0
ONLINE    TEMP            TEMPORARY    LOCAL      MANUAL         1,073,741,824         27,262,976         3
                                                            ------------------ ------------------ ---------
avg                                                                                                      22
sum                                                              8,382,316,544        976,355,328

8 rows selected.

 


28. 验证 RAC 集群和数据库配置

应在集群的两个 Oracle RAC 节点上执行以下 RAC 验证检查!然而,对于本文,我将只从 linux1 执行检查。

本节提供了几个可用于验证 Oracle RAC 10g 配置的 srvctl 命令和 SQL 查询。

有五个为 SRVCTL 定义的节点级任务:

  • 添加和删除节点级应用程序
  • 设置和取消设置节点级应用程序的环境
  • 管理节点应用程序
  • 管理 ASM 实例
  • 启动和停止一组包含虚拟 IP 地址、监听器、Oracle 通知服务和 Oracle 企业管理器代理的程序(出于维护目的)。

所有实例和服务的状态

$ srvctl status database -d orcl
Instance orcl1 is running on node linux1
Instance orcl2 is running on node linux2

单个实例的状态

$ srvctl status instance -d orcl -i orcl2
Instance orcl2 is running on node linux2

在数据库全局命名服务的状态

$ srvctl status service -d orcl -s orcl_taf
Service orcl_taf is running on instance(s) orcl2, orcl1

特定节点上节点应用程序的状态

$ srvctl status nodeapps -n linux1
VIP is running on node: linux1
GSD is running on node: linux1
Listener is running on node: linux1
ONS daemon is running on node: linux1

ASM 实例的状态

$ srvctl status asm -n linux1
ASM instance +ASM1 is running on node linux1.

列出配置的所有数据库

$ srvctl config database
orcl

显示 RAC 数据库的配置

$ srvctl config database -d orcl
linux1 orcl1 /u01/app/oracle/product/10.2.0/db_1
linux2 orcl2 /u01/app/oracle/product/10.2.0/db_1

显示指定集群数据库的所有服务

$ srvctl config service -d orcl
orcl_taf PREF: orcl2 orcl1 AVAIL:

显示节点应用程序的配置 —(VIP、GSD、ONS、监听器)

$ srvctl config nodeapps -n linux1 -a -g -s -l
VIP exists.: /linux1-vip/192.168.1.200/255.255.255.0/eth0:eth1
GSD exists.
ONS daemon exists.
Listener exists.

显示 ASM 实例的配置

$ srvctl config asm -n linux1
+ASM1 /u01/app/oracle/product/10.2.0/db_1

集群中所有正在运行的实例

SELECT
    inst_id
  , instance_number inst_no
  , instance_name inst_name
  , parallel
  , status
  , database_status db_status
  , active_state state
  , host_name host
FROM gv$instance
ORDER BY inst_id;

 INST_ID  INST_NO INST_NAME  PAR STATUS  DB_STATUS    STATE     HOST
-------- -------- ---------- --- ------- ------------ --------- -------
       1        1 orcl1      YES OPEN    ACTIVE       NORMAL    linux1
       2        2 orcl2      YES OPEN    ACTIVE       NORMAL    linux2

位于磁盘组中的所有数据文件

select name from v$datafile
union
select member from v$logfile
union
select name from v$controlfile
union
select name from v$tempfile;

NAME
-------------------------------------------
+FLASH_RECOVERY_AREA/orcl/controlfile/current.258.570913191
+FLASH_RECOVERY_AREA/orcl/onlinelog/group_1.257.570913201
+FLASH_RECOVERY_AREA/orcl/onlinelog/group_2.256.570913211
+FLASH_RECOVERY_AREA/orcl/onlinelog/group_3.259.570918285
+FLASH_RECOVERY_AREA/orcl/onlinelog/group_4.260.570918295
+ORCL_DATA1/orcl/controlfile/current.259.570913189
+ORCL_DATA1/orcl/datafile/example.257.570913311
+ORCL_DATA1/orcl/datafile/indx.270.570920045
+ORCL_DATA1/orcl/datafile/sysaux.260.570913287
+ORCL_DATA1/orcl/datafile/system.262.570913215
+ORCL_DATA1/orcl/datafile/undotbs1.261.570913263
+ORCL_DATA1/orcl/datafile/undotbs1.271.570920865
+ORCL_DATA1/orcl/datafile/undotbs2.265.570913331
+ORCL_DATA1/orcl/datafile/undotbs2.272.570921065
+ORCL_DATA1/orcl/datafile/users.264.570913355
+ORCL_DATA1/orcl/datafile/users.269.570919829
+ORCL_DATA1/orcl/onlinelog/group_1.256.570913195
+ORCL_DATA1/orcl/onlinelog/group_2.263.570913205
+ORCL_DATA1/orcl/onlinelog/group_3.266.570918279
+ORCL_DATA1/orcl/onlinelog/group_4.267.570918289
+ORCL_DATA1/orcl/tempfile/temp.258.570913303

21 rows selected.

属于“ORCL_DATA1”磁盘组的所有 ASM 磁盘

SELECT path
FROM   v$asm_disk
WHERE  group_number IN (select group_number
                        from v$asm_diskgroup
                        where name = 'ORCL_DATA1');

PATH
----------------------------------
ORCL:VOL1
ORCL:VOL2

 


29. 启动/停止集群

此时,我们已经完全安装并配置了 Oracle RAC 10g 并拥有了一个功能完善的集群化数据库。

至此完成所有工作后,您可能会问“那我又怎样启动和停止服务呢?”如果您遵循了本指南中的说明,则所有服务(包括 Oracle 集群件、所有 Oracle 实例、企业管理器数据库控制台等)应在 Linux 节点每次重新引导时自动启动。

但有时您可能想要关闭某个节点,然后手动重新启动它。或者,您可能发现企业管理器没有启动它而需要启动它。本节提供了启动和停止集群环境的命令(使用 SRVCTL)。

确保您是以 oracle UNIX 用户登录的。我们将从 linux1 运行本节中的所有命令:

# su - oracle
$ hostname
linux1

停止 Oracle RAC 10g 环境

第一步是停止 Oracle 实例。当此实例(和相关服务)关闭后,关闭 ASM 实例。最后,关闭节点应用程序(虚拟 IP、GSD、TNS 监听器和 ONS)。

$ export ORACLE_SID=orcl1
$ emctl stop dbconsole
$ srvctl stop instance -d orcl -i orcl1
$ srvctl stop asm -n linux1
$ srvctl stop nodeapps -n linux1

启动 Oracle RAC 10g 环境

第一步是启动节点应用程序(虚拟 IP、GSD、TNS 监听器和 ONS)。当成功启动节点应用程序后,启动 ASM 实例。最后,启动 Oracle 实例(和相关服务)以及企业管理器数据库控制台。

$ export ORACLE_SID=orcl1
$ srvctl start nodeapps -n linux1
$ srvctl start asm -n linux1
$ srvctl start instance -d orcl -i orcl1
$ emctl start dbconsole

使用 SRVCTL 启动/停止所有实例

启动/停止所有实例及其启用的服务。我只是觉得有意思就把此步骤作为关闭所有实例的一种方法加进来了!

$ srvctl start database -d orcl
$ srvctl stop database -d orcl

 


30. 透明的应用程序故障切换 (TAF)

企业通常需要他们的企业应用程序提供 99.99%(甚至 99.999%)的可用性。想一想,要确保全年停机时间不超过 0.5 小时或者甚至没有停机时间得花费多大代价!为了满足众多这种高可用性要求,企业正投资于可以在一个参与系统出现故障时提供自动故障切换的机制。就 Oracle 数据库的可用性而言,Oracle RAC 10g 通过它的高级故障切换机制提供了一个卓越的解决方案。Oracle RAC 10g 包含了提供持续可用性所需的必要组件,这些组件均在一个集群配置中工作;当集群中的某个参与系统出现故障时,将把用户自动移植到其他可用系统。

透明的应用程序故障切换 (TAF) 选件是 Oracle RAC 10g 一个负责处理故障切换的主要组件。它将把所有断开的数据库连接(和进程)重新连接到集群的其他节点上。故障切换对用户是完全透明的。

这最后一节简短介绍了 TAF 在 Oracle RAC 10g 中的工作方式。请注意,对 Oracle RAC 10g 中的故障切换进行全面介绍可能需要单独的一篇文章,我在此处只想提供一个简短概述。

一个重要的说明是,TAF 自动在 OCI 库中发生。也就是说,您的应用程序(客户端)代码不需要更改便可以利用 TAF。但您需要在 Oracle TNS 文件 tnsnames.ora 中执行某些配置步骤。(请记住,直到编写本文时,由于 Java 瘦客户端从不读取 tnsnames.ora,因此它将无法参与 TAF。)

设置 tnsnames.ora 文件

在演示 TAF 之前,我们需要验证在一个非 RAC 客户端计算机(如果您有一台安装了 Windows 计算机)上的 tnsnames.ora 文件中存在一个有效的条目。确保您安装了 Oracle RDBMS 软件。(实际上,您只需要在客户端上安装 Oracle 软件。)

在本指南的创建集群化数据库过程中,我们创建了一个将用于测试 TAF 的名为 ORCL_TAF 的新服务。它为负载均衡和故障切换提供了所有必需的配置参数。可以将此条目的内容复制到客户端计算机(本示例中使用了我的 Windows 便携式计算机)上的 %ORACLE_HOME%\network\admin\tnsnames.ora 文件中:

...
ORCL_TAF =
  (DESCRIPTION =
    (ADDRESS = (PROTOCOL = TCP)(HOST = linux1-vip)(PORT = 1521))
    (ADDRESS = (PROTOCOL = TCP)(HOST = linux2-vip)(PORT = 1521))
    (LOAD_BALANCE = yes)
    (CONNECT_DATA =
      (SERVER = DEDICATED)
      (SERVICE_NAME = orcl_taf.idevelopment.info)
      (FAILOVER_MODE =
        (TYPE = SELECT)
        (METHOD = BASIC)
        (RETRIES = 180)
        (DELAY = 5)
      )
    )
  )
...
查看会话的故障切换信息的 SQL 查询

以下 SQL 查询可以用来查看一个会话的故障切换类型、故障切换方法和是否发生了故障切换。我们将在这个例子中自始至终使用这个查询。

COLUMN instance_name    FORMAT a13
COLUMN host_name        FORMAT a9
COLUMN failover_method  FORMAT a15
COLUMN failed_over      FORMAT a11

SELECT
    instance_name
  , host_name
  , NULL AS failover_type
  , NULL AS failover_method
  , NULL AS failed_over
FROM v$instance
UNION
SELECT
    NULL
  , NULL
  , failover_type
  , failover_method
  , failed_over
FROM v$session
WHERE username = 'SYSTEM';

TAF 演示

从 Windows 计算机(或其他非 RAC 客户端计算机)中,以 SYSTEM 用户登录使用 orcl_taf 服务的集群化数据库:

C:\> sqlplus system/manager@orcl_taf

COLUMN instance_name    FORMAT a13
COLUMN host_name        FORMAT a9
COLUMN failover_method  FORMAT a15
COLUMN failed_over      FORMAT a11

SELECT
    instance_name
  , host_name
  , NULL AS failover_type
  , NULL AS failover_method
  , NULL AS failed_over
FROM v$instance
UNION
SELECT
    NULL
  , NULL
  , failover_type
  , failover_method
  , failed_over
FROM v$session
WHERE username = 'SYSTEM';

INSTANCE_NAME HOST_NAME FAILOVER_TYPE FAILOVER_METHOD FAILED_OVER
------------- --------- ------------- --------------- -----------
orcl1         linux1
                        SELECT        BASIC           NO

不要注销上面的 SQL*Plus 会话!

我们已经运行了上面的查询,现在我们应该使用 abort 选项来关闭 linux1 上的 orcl1 实例。要执行这一操作,您可以使用 srvctl 命令行实用程序,如下所示:

# su - oracle
$ srvctl status database -d orcl
Instance orcl1 is running on node linux1
Instance orcl2 is running on node linux2

$ srvctl stop instance -d orcl -i orcl1 -o abort

$ srvctl status database -d orcl
Instance orcl1 is not running on node linux1
Instance orcl2 is running on node linux2
现在我们返回到我们的 SQL 会话,然后重新运行缓冲中的 SQL 语句:
COLUMN instance_name    FORMAT a13
COLUMN host_name        FORMAT a9
COLUMN failover_method  FORMAT a15
COLUMN failed_over      FORMAT a11

SELECT
    instance_name
  , host_name
  , NULL AS failover_type
  , NULL AS failover_method
  , NULL AS failed_over
FROM v$instance
UNION
SELECT
    NULL
  , NULL
  , failover_type
  , failover_method
  , failed_over
FROM v$session
WHERE username = 'SYSTEM';


INSTANCE_NAME HOST_NAME FAILOVER_TYPE FAILOVER_METHOD FAILED_OVER
------------- --------- ------------- --------------- -----------
orcl2         linux2
                        SELECT        BASIC           YES

SQL> exit

从上面的演示中,我们可以看到现在已将上述会话故障切换到了 linux2 的实例 orcl2 上。

 


31. 故障诊断

确保 RAC 节点名没有出现在环回地址中

确保在 /etc/hosts 文件的环回地址中包含节点名(linux1linux2)。如果机器名出现在环回地址条目中,如下所示:

127.0.0.1 linux1 localhost.localdomain localhost
需要按如下所示将其删除:
127.0.0.1 localhost.localdomain localhost

如果 RAC 节点名出现在环回地址中,您在 RAC 安装期间将接收到以下错误信息:

ORA-00603: ORACLE server session terminated by fatal error
或者
ORA-29702: error occurred in Cluster Group Service operation

验证 localhost 在 /etc/hosts 文件中定义为回送地址

确保 localhost.localdomainlocalhost 项作为回送地址包含在每个 Oracle RAC 节点的 /etc/hosts 文件中:

    127.0.0.1        localhost.localdomain localhost
如果 /etc/hosts 文件中不存在 localhost 项,Oracle 集群件将无法启动应用程序资源 — 特别是 ONS 进程。该错误将指明“Failed to get IP for localhost”并写入 ONS 的日志文件。例如:
CRS-0215 could not start resource 'ora.linux1.ons'. Check log file
"/u01/app/crs/log/linux1/racg/ora.linux1.ons.log"
for more details.
ONS 日志文件包含类似以下内容的行:

Oracle Database 10g CRS Release 10.2.0.1.0 Production Copyright 1996, 2005 Oracle.All rights reserved.
2007-04-14 13:10:02.729: [ RACG][3086871296][13316][3086871296][ora.linux1.ons]:Failed to get IP for localhost (1)
Failed to get IP for localhost (1)
Failed to get IP for localhost (1)
onsctl:ons failed to start
...

在所有的集群节点上设置正确的日期和时间

在安装 Oracle 集群件、数据库以及随附 CD 期间,Oracle Universal Installer (OUI) 将首先将软件安装到运行该安装程序的本地节点(即 linux1)。然后,将该软件以远程方式复制到集群中的其余节点(即 linux2)。在远程复制过程中,OUI 将在每个远程节点上执行 UNIX“tar”命令,以提取进行了存档和复制的文件。如果执行安装的节点上的日期和时间大于其要进行复制的节点上的日期和时间,那么 OUI 将在“tar”中引发一个错误,以指示其在试图提取带有时间戳的文件时失败。

Error while copying directory 
    /u01/app/crs with exclude file list 'null' to nodes 'linux2'.
[PRKC-1002 : All the submitted commands did not execute successfully]
---------------------------------------------
linux2:
   /bin/tar: ./bin/lsnodes: time stamp 2006-09-13 09:21:34 is 735 s in the future
   /bin/tar: ./bin/olsnodes: time stamp 2006-09-13 09:21:34 is 735 s in the future
   ...(more errors on this node)

请注意,尽管这看起来像 OUI 中一个严重的错误,但您完全可以将其看作是一个警告而忽略。“tar”命令 DOES 确实提取了文件;然而,当您在远程节点上执行文件列表时(使用 ls -l),它们将缺少时间字段,直到服务器上的时间大于该文件的时间戳。

在启动以上任何一个所述安装之前,确保尽可能将集群的每个成员节点设置为相同的时间和日期。由于两个 Oracle RAC 节点使用相同的参考 Network Time Protocol 服务器,因此 Oracle 强烈建议使用多数操作系统的 Network Time Protocol 功能来执行该操作。

然而,访问 Network Time Protocol 服务器并非始终可用。在这种情况下,为集群中的节点手动设置日期和时间,确保要从其中执行软件安装的节点 (linux1) 的时间和日期小于集群中所有其他节点 (linux2)。我一般使二者之间相差 20 秒,如以下示例所示:

设置 linux1 的日期和时间:

# date -s "6/25/2007 23:00:00"

设置 linux2 的日期和时间:

# date -s "6/25/2007 23:00:20"

本文中所述的双节点 RAC 配置没有使用 Network Time Protocol 服务器。

Openfiler — 逻辑卷在引导时未激活

使用连接到 Openfiler 服务器的 USB 驱动器时,出现了一个我多次遇到的问题。重新引导 Openfiler 服务器后,系统能够识别 USB 驱动器,但是无法加载逻辑卷,也无法将以下消息写入 /var/log/messages —(也可通过 dmesg 获得):

iSCSI Enterprise Target Software - version 0.4.14
iotype_init(91) register fileio
iotype_init(91) register blockio
iotype_init(91) register nullio
open_path(120) Can't open /dev/rac1/crs -2
fileio_attach(268) -2
open_path(120) Can't open /dev/rac1/asm1 -2
fileio_attach(268) -2
open_path(120) Can't open /dev/rac1/asm2 -2
fileio_attach(268) -2
open_path(120) Can't open /dev/rac1/asm3 -2
fileio_attach(268) -2
open_path(120) Can't open /dev/rac1/asm4 -2
fileio_attach(268) -2

请注意,我不是说只有与 Openfiler 服务器连接的 USB 驱动器才会出现该问题。其他类型的驱动器也可能会出现该问题,但是,我只看到了 USB 驱动器出现了该问题!

如果您确实收到该错误,首先应在 Openfiler 服务器中使用 lvscan 命令检查所有逻辑卷的状态:

# lvscan
  inactive          '/dev/rac1/crs' [2.00 GB] inherit
  inactive          '/dev/rac1/asm1' [115.94 GB] inherit
  inactive          '/dev/rac1/asm2' [115.94 GB] inherit
  inactive          '/dev/rac1/asm3' [115.94 GB] inherit
  inactive          '/dev/rac1/asm4' [115.94 GB] inherit

注意,每个逻辑卷的状态设置为 inactive —(工作系统上每个逻辑卷的状态将设置为 ACTIVE)。

目前,我知道有两种方法可以让 Openfiler 在重新引导时自动加载逻辑卷,下面将对这两种方法进行描述。

方法 1

首先,关闭集群中的两个 Oracle RAC 节点(linux1linux2)。然后,在 Openfiler 服务器中,针对每个连续的重新引导,手动将每个逻辑卷设置为 ACTIVE
# lvchange -a y /dev/rac1/crs
# lvchange -a y /dev/rac1/asm1
# lvchange -a y /dev/rac1/asm2
# lvchange -a y /dev/rac1/asm3
# lvchange -a y /dev/rac1/asm4
也可以使用卷组更改命令将所有逻辑卷的状态设置为 active,如下所示:
# vgscan
  Reading all physical volumes.  This may take a while...
  Found volume group "rac1" using metadata type lvm2

# vgchange -ay
  5 logical volume(s) in volume group "rac1" now active

将每个逻辑卷设置为 active 后,使用 lvscan 命令再次验证状态:

# lvscan
  ACTIVE            '/dev/rac1/crs' [2.00 GB] inherit
  ACTIVE            '/dev/rac1/asm1' [115.94 GB] inherit
  ACTIVE            '/dev/rac1/asm2' [115.94 GB] inherit
  ACTIVE            '/dev/rac1/asm3' [115.94 GB] inherit
  ACTIVE            '/dev/rac1/asm4' [115.94 GB] inherit

作为最后的测试,重新引导 Openfiler 服务器以确保引导过程后每个逻辑卷将设置为 ACTIVE。验证每个逻辑卷在引导时都将激活之后,检查 iSCSI 目标服务是否正在运行:

# service iscsi-target status
ietd (pid 2668) is running...

最后,重新启动集群中的每个 Oracle RAC 节点(linux1linux2)。

方法 2

该方法由 友情提供。他的方法包括修正 /etc/rc.sysinit 脚本,主要是等待 USB 磁盘(在本例中为 /dev/sda)得到检测。对 /etc/rc.sysinit 脚本(下面将进行描述)进行更改之后,验证外部驱动器已打开电源,然后重新引导 Openfiler 服务器。

以下是 Openfiler 服务器上的 /etc/rc.sysinit 脚本的一小部分,其中包含 Martin 建议的更改(用蓝色高亮显示):

Customizations to /etc/rc.sysinit
...  ...

# LVM2 initialization, take 2
        if [ -c /dev/mapper/control ]; then
                if [ -x /sbin/multipath.static ]; then
                        modprobe dm-multipath >/dev/null 2>&1
                        /sbin/multipath.static -v 0
                        if [ -x /sbin/kpartx ]; then
                                /sbin/dmsetup ls --target multipath --exec "/sbin/kpartx -a"
                        fi
                fi
 

                if [ -x /sbin/dmraid ]; then
                        modprobe dm-mirror > /dev/null 2>&1
                        /sbin/dmraid -i -a y
                fi

#-----
#-----  MJONES - Customisation Start
#-----

       # Check if /dev/sda is ready
         while [ ! -e /dev/sda ]
         do
             echo "Device /dev/sda for first USB Drive is not yet ready."
             echo "Waiting..."
             sleep 5
         done
         echo "INFO - Device /dev/sda for first USB Drive is ready."

#-----
#-----  MJONES - Customisation END
#-----
                if [ -x /sbin/lvm.static ]; then
                        if /sbin/lvm.static vgscan > /dev/null 2>&1 ; then
                                action $"Setting up Logical Volume
Management:" /sbin/lvm.static vgscan --mknodes --ignorelockingfailure &&
/sbin/lvm.static vgchange -a y --ignorelockingfailure
                        fi
                fi
        fi
 

# Clean up SELinux labels
if [ -n "$SELINUX" ]; then
   for file in /etc/mtab /etc/ld.so.cache ; do
      [ -r $file ] && restorecon $file  >/dev/null 2>&1
   done
fi

...  ...

最后,重新启动集群中的每个 Oracle RAC 节点(linux1linux2)。

OCFS2 — o2cb_ctl:创建节点时无法访问集群服务

使用 ocfs2console 为 OCFS2 配置节点时,可能会遇到以下错误:

o2cb_ctl: Unable to access cluster service while creating node

当您首次启动 ocfs2console 时,该错误不会显示。当集群配置有问题或者您在使用 ocfs2console 进行最初的集群配置后没有保存 该设置时,将出现该消息。这是一个错误!

解决方法是退出 ocfs2console,卸载 o2cb 模块,并删除 ocfs2 集群配置文件 /etc/ocfs2/cluster.conf。我还希望删除 /config 目录。删除 ocfs2 集群配置文件后,重新启动 ocfs2console 程序。

例如:

# /etc/init.d/o2cb offline ocfs2
# /etc/init.d/o2cb unload
Unmounting ocfs2_dlmfs filesystem: OK
Unloading module "ocfs2_dlmfs": OK
Unmounting configfs filesystem: OK
Unloading module "configfs": OK

# rm -f /etc/ocfs2/cluster.conf
# rm -rf /config

# ocfs2console &

这一次,将添加节点!

OCFS2 — 调整 O2CB 心跳阈值

在本文之前的版本中(与将 iSCSI 用作共享存储相反,将 FireWire 用作共享存储),我能够安装和配置 OCFS2、格式化新卷并最后安装位于新 OCFS2 卷上的 Oracle 集群件(及其所需的两个共享文件,即表决磁盘和 OCR 文件)。我能够安装 Oracle 集群件并可以使用 FireWire 看到共享驱动器,但当集群件软件在两个节点上运行大约 15 分钟后,我收到了许多锁定和挂起。挂起的节点总是变化不定(在我的示例中为 linux1linux2)。此外,无论是 I/O 负载较高还是根本没有,对该节点崩溃(挂起)都没有影响。

查看 OCFS2 的跟踪文件后,对表决磁盘的访问显然太慢(超过了 O2CB 心跳阈值)并导致 Oracle 集群件软件(以及节点)崩溃。控制台上将显示如下所示的消息:

...
Index 0: took 0 ms to do submit_bio for read
Index 1: took 3 ms to do waiting for read completion
Index 2: took 0 ms to do bio alloc write
Index 3: took 0 ms to do bio add page write
Index 4: took 0 ms to do submit_bio for write
Index 5: took 0 ms to do checking slots
Index 6: took 4 ms to do waiting for write completion
Index 7: took 1993 ms to do msleep
Index 8: took 0 ms to do allocating bios for read
Index 9: took 0 ms to do bio alloc read
Index 10: took 0 ms to do bio add page read
Index 11: took 0 ms to do submit_bio for read
Index 12: took 10006 ms to do waiting for read completion
(13,3):o2hb_stop_all_regions:1888 ERROR: stopping heartbeat on all active regions.
Kernel panic - not syncing: ocfs2 is very sorry to be fencing this system by panicing

我所使用的解决方案只是将 O2CB 心跳阈值从其默认设置 7 增大为 61。某些设置可能需要更高的设置。这是一个可配置参数,用于计算节点“隔离”自身所用的时间。在 OCFS2 的安装和配置期间,我们在“”一节中调整了该值。如果您遇到来自 OCFS2 的内核错误并需要增加心跳阈值,使用“”一节中描述的过程。

如果您使用的是 OCFS2 工具的以前版本(ocfs2-tools 版本 1.2.2-1 以前的版本),下面的内容描述了如何手动调整 O2CB 心跳阈值。

首先,我们了解一下如何确定 O2CB 心跳阈值的当前设置。为此,可以查询 /proc 文件系统,如下所示:

# cat /proc/fs/ocfs2_nodemanager/hb_dead_threshold
7

我们看到值为 7,但该值表示什么呢?其实,它用在以下公式中确定隔离时间(秒):

[fence time in seconds] = (O2CB_HEARTBEAT_THRESHOLD - 1) * 2

因此,如果 O2CB 心跳阈值为 7,则隔离时间将为:

(7 - 1) * 2 = 12 seconds

如果我们需要一个更大的阈值(如 120 秒),则需将 O2CB_HEARTBEAT_THRESHOLD 调整为 61,如下所示:

(61 - 1) * 2 = 120 seconds

现在我们了解一下如何手动将 O2CB 心跳阈值从 7 增大为 61。该任务需要在集群的所有 Oracle RAC 节点上执行。首先需要修改 /etc/sysconfig/o2cb 文件并将 O2CB_HEARTBEAT_THRESHOLD 设置为 61:

#
# This is a configuration file for automatic startup of the O2CB
# driver.  It is generated by running /etc/init.d/o2cb configure.
# Please use that method to modify this file
#

# O2CB_ENABELED: 'true' means to load the driver on boot.
O2CB_ENABLED=true

# O2CB_BOOTCLUSTER: If not empty, the name of a cluster to start.
O2CB_BOOTCLUSTER=ocfs2

# O2CB_HEARTBEAT_THRESHOLD: Iterations before a node is considered dead.
O2CB_HEARTBEAT_THRESHOLD=61

# O2CB_IDLE_TIMEOUT_MS: Time in ms before a network connection is considered dead.
O2CB_IDLE_TIMEOUT_MS=

# O2CB_KEEPALIVE_DELAY_MS: Max time in ms before a keepalive packet is sent
O2CB_KEEPALIVE_DELAY_MS=

# O2CB_RECONNECT_DELAY_MS: Min time in ms between connection attempts
O2CB_RECONNECT_DELAY_MS=

修改 /etc/sysconfig/o2cb 文件后,需要更改 o2cb 配置。同样,需要在集群的所有 Oracle RAC 节点上执行该操作。

# umount /u02/oradata/orcl/
# /etc/init.d/o2cb unload
# /etc/init.d/o2cb configure
Configuring the O2CB driver.

This will configure the on-boot properties of the O2CB driver. The following questions will determine whether the driver is loaded on boot. The current values will be shown in brackets ('[]'). Hitting without typing an answer will keep that current value. Ctrl-C will abort. Load O2CB driver on boot (y/n) [n]: y Cluster to start on boot (Enter "none" to clear) [ocfs2]: ocfs2 Specify heartbeat dead threshold (>=7) [7]: 61 Specify network idle timeout in ms (>=5000) [10000]: 10000 Specify network keepalive delay in ms (>=1000) [5000]: 5000 Specify network reconnect delay in ms (>=2000) [2000]: 2000 Writing O2CB configuration: OK Loading module "configfs": OK Mounting configfs filesystem at /config: OK Loading module "ocfs2_nodemanager": OK Loading module "ocfs2_dlm": OK Loading module "ocfs2_dlmfs": OK Mounting ocfs2_dlmfs filesystem at /dlm: OK Starting O2CB cluster ocfs2: OK

我们现在可以再次检查以确保这些设置应用于 o2cb 集群堆栈:

# cat /proc/fs/ocfs2_nodemanager/hb_dead_threshold
61

必须注意,用作 O2CB 心跳阈值的 61 并不适用于所有配置。在某些情况下,O2CB 心跳阈值可能需要增加到 601 以防止 OCFS2 惊扰内核。

 

阅读(2725) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~