HACMP环境下的排错-akQFQW2geCOxgJG-ChinaUnix博客

linux乐园37181

首页　| 　博文目录　| 　关于我

akQFQW2geCOxgJG

博客访问： 389723
博文数量： 1051
博客积分： 53280
博客等级：大将
技术积分： 6670
用户组：普通用户
注册时间： 2008-09-09 13:21

文章分类

全部博文（1051）

未分配的博文（1051）

文章存档

2011年（1）

2008年（1050）

我的朋友

最近访客

推荐博文

HACMP环境下的排错

分类：

2008-09-09 15:44:31

　　在一般情况下,HACMP软件很少需要手工干预,但一旦有问题发生,诊断和恢复的技巧是很重要的.需要能很快地断定问题然后运用你对HACMP的理解来恢复HACMP的正常运作.
　　一般地,HACMP环境下的排错包括:
　　.了解问题的存在.
　　.判断问题的出处.
　　.解决问题.
　　一了解问题的存在
　　您可以通过以下途径了解到一个CLUSTER环境下出现了问题.
　　.最终用户的投诉,他们无法访问应用程序.
　　.控制台上出现一些HACMP的信息.
　　
　　1.应用服务无法访问
　　最终用户的抱怨通常预示CLUSTER出现了问题.他们无法正常执行应用或是无法登录到系统.我们必须采集到详细的信息以判断到底那里出现了问题.是否有错误的信息提示?如果可能的话,让用户重复步骤以确定那里是错误的开始.您也可以在自己的系统上重复.要知道用户应用不可用并不代表HACMP有问题.问题可能出现在应用程序本身或是它的启动或终止脚本出现了问题.因此应用程序本身的排错也应是HA排错的一部分.
　　2.控制台上出现一些HACMP的信息
　　在HACMP启动,终止或出错时,控制台上会出现一些HACMP的信息,同时也会写入相应的文件中.
　　
　　二判断问题的出处
　　当错误出现时,我们应尝试发现错误的所在.但我们常常被错误的表面所误导.以下的步骤可以使我们得到更详细的信息.
　　1.保存好一些LOG文件.(/tmp/hacmp.out & /tmp/cm.log).因为它们可能被覆盖.
　　2.仔细检查HACMP所产生的LOG文件.它们能提供最初的判断线索.
　　3.用HACMP的工具和AIX的命令来检查HACMP的部件是否正常.
　　4.打开HACMP的跟踪工具来产生更详细的信息.
　　
　　.HACMP的LOG文件:以下文件都是文本文件,可以用VI来看.每个日志文件都含有每个信息的产生时间.
　　/usr/adm/cluster.log :记录了HACMP的状态,由HA的守护进程所产生.
　　/tmp/hacmp.out :记录了HA的详细脚本.
　　/usr/sbin/cluster/history/cluster.mmdd :记录了HA的各个事件的发生.
　　/tmp/cm.log :由clstrmgr进程产生,每次HA重起时会被覆盖.
　　
　　.HACMP FOR AIX的结构
　　
　　应用层
　　HACMP软件层
　　LVM & TCPIP 层
　　AIX 层
　　物理网络层
　　物理硬盘层
　　硬件层
　　
　　在物理网络层,物理硬盘层,硬件层,LVM & TCPIP 层,AIX 层我们可以用AIX系统命令来看是否硬件和系统出现了问题.一般地,在用errpt命令来看没有类型为PH的错误,lsvg -o 来看我们所须的VG已varyon,mount来看我们所须的文件系统已安装, netstat -i来看我们所须的service IP是UP的状态(或用ifconfig en*),cluster node 之间的service 与service IP ,standby与 standby IP 互相可以ping通.在各个节点上执行stty<　　在HACMP软件层上,我们可以用vi /tmp/hacmp.out来看,如果出现event failed的字段,则有可能问题出现在该层,如果在问题出现的时段,hacmp.out无信息出现,则问题可能出现在应用层.
　　
　　
　　以下是HA排错的一些守则:
　　.在第一时间保存好相关的日志文件,特别是那些会被覆盖的文件.
　　.尝试去重复问题的出现.不要被用户所反映的问题迷惑.
　　.渐进地去重复问题,如果有多个可能导致问题的出现,一个一个地去重复,而不要一次重复多个可能.
　　.不要凭经验来判断问题,而是要在各种测试后,由结果来判断.
　　.隔离问题的来源,根据我们上面所叙述的层次关系,至顶向下地诊断.
　　.由简到繁地做测试,我们先从一个简单的环境来做测试,不要尝试在一个复杂的环境中测试.
　　.一次做一次改动,否则我们无法知道是那个改动解决了问题.
　　.不要忽略各种可能,因小可失大,留心系统的每一个细节,包括电源,插头,连线等.
　　.保持各种测试的记录以及解决的步骤,用做将来排错的参考.
　　.拨打IBM服务热线,将问题现象和您所做的测试结果告诉IBM的工程师,他们将在CALL CENTER的测试中心重复试验,必要时会派工程师到场解决问题.
　　三 IBM HACMP 双机系统的管理和维护
　　本节将说明HACMP 双机软件的一些基本管理和维护命令这些命令将会在HACMP 双机
　　系统的日常工作中经常用到.
　　1 HACMP 双机系统的启动
　　要启动HACMP 双机系统必须要有root 用户的特权分别进入到系统各节点主机在命令
　　行上执行下述命令即可.
　　# smit clstart
　　或
　　# /usr/sbin/cluster/etc/rc.cluster -boot -N –I
　　需要注意的是在双机系统中HACMP 双机软件先启动的节点将成为主节点拥有资源
　　并对外提供关键服务后启动的节点将成为备节点.
　　另外在启动HACMP 前需要启动双机上的INFORMIX 和SCP 应用.
　　2 HACMP 双机系统的关闭
　　要关闭某节点上的HACMP 双机软件必须要有该节点root 用户的特权以root 用户进入到
　　该节点主机在命令行上执行下述命令即可.
　　# smit clstop
　　或
　　# clstop -gr
　　需要注意的是若该节点是主节点并且备节点上的HACMP 软件亦正常运行则需注意
　　clstop 关闭模式的三种选项的不同1 forced 是指立即关闭双机软件不调用任何客户应用的
　　善后处理例程.2 graceful 是指在关闭双机软件时将调用客户应用预定义的善后处理例程.3
　　takeover 是指该节点将关闭双机软件并释放资源请求备节点进行接管.如该节点是备节点
　　则关闭模式选项没有多大意义.
　　另外关闭HACMP 将关闭manager 和informix.
　　3 查询HACMP 双机系统的状态
　　在双机系统的运行当中*作员经常需要知道双机系统的当前状态才有可能对双机系
　　统出现的异常情况进行恢复处理才能保证双机系统的高可用性和高容错性.查询HACMP 双机系统的状态只需以root 用户进入需要查询的节点进行下列*作
　　首先检查HACMP 双机软件在该节点是否已启动命令如下
　　# lssrc -g cluster
　　若是系统显示出下面类似的信息则说明HACMP 双机软件已正常启动.
　　Subsystem Group PID Status
　　clstrmgr cluster 22500 active
　　clsmuxpd cluster 23674 active
　　clinfo cluster 28674 active
　　在已确认双机软件HACMP 正常启动的情况下在命令行执行下述命令来察看双机系统的当前状态
　　# /usr/sbin/cluster/clstat -a
　　如果双机系统一切工作正常则系统将显示下述类似信息
　　clstat - HACMP for AIX Cluster Status Monitor
　　-------------------------------------------------------------------------------------
　　Cluster: scp_cluster(80) Thu Jan 20 08:45:17 TAIST 2000
　　State: UP Nodes: 2
　　SubState: STABLE
　　Node: mscp1 State: UP
　　Interface: mscp1_svc (0) Address: 192.9.1.60
　　State: UP
　　Interface: mscp1_tty (1) Address: 0.0.0.0
　　State: UP
　　Node: mscp2 State: UP
　　Interface: mscp2_svc (0) Address: 192.9.1.61
　　State: UP
　　Interface: mscp2_tty (1) Address: 0.0.0.0
　　State: UP