征文：四大要点管理维护双机热备系统(2)-bfhf5753-ChinaUnix博客

备份恢复

首页　| 　博文目录　| 　关于我

bfhf5753

博客访问： 1305197
博文数量： 1211
博客积分： 10010
博客等级：上将
技术积分： 14340
用户组：普通用户
注册时间： 2008-06-09 11:20

文章分类

全部博文（1211）

未分配的博文（1211）

文章存档

2011年（1）

2008年（1210）

我的朋友

相关博文

征文：四大要点管理维护双机热备系统(2)

分类：服务器与存储

2008-06-13 14:04:40

二、定期查询HACMP的运行状态
我们需要定期地查询HACMP 双机系统的状态，在双机系统的运行当中，我们经常需要知道双机系统的当前状态，才有可能对双机系统出现的异常情况进行恢复处理，才能保证双机系统的高可用性和高容错性。查询HACMP 双机系统的状态只需以root 用户进入需要查询的节点进行下列操作：

首先检查HACMP 双机软件在该节点是否已启动命令如下。
# lssrc -g cluster

    若是系统显示出下面类似的信息则说明HACMP 双机软件已正常启动。
    Subsystem Group PID Status
    clstrmgr cluster 22500 active
    clsmuxpd cluster 23674 active
    clinfo cluster 28674 active

在已确认双机软件HACMP 正常启动的情况下在命令行执行下述命令来察看双机系统的当前状态。
# /usr/sbin/cluster/clstat -a

HACMP运行时只去检测网卡、网络和节点是否发生故障，并作出相应的转移、接管行为。对于其他故障，那么HACMP缺省不作任何动作。对于双机热备时出现硬盘控制卡和应用故障处理方法，一般是结合AIX基本功能和HACMP提供的一些机制，如Error Notification Facility, clinfo API 等，同样可以实现对故障的监控并采取相应措施。

如果用户的应用有kernel call调用，或以root身份来启动等，一旦应用发生故障，很容易导致AIX操作系统down掉，发生死机。这时实际上等于节点故障，HACMP会采取相应接管措施。如果只是应用自身死掉，AIX仍正常运行，HACMP最多利用Error Notification Facility来提供监控功能，对应用本身不采取任何动作。

但如果应用中调用了AIX的SRC (System Resource Controller)机制所提供的API接口，就可以使应用在down掉后自动重新启动。除了SRC提供API接口外，HACMP中的clinfo也提供这样的API。clinfo是cluster Information daemon,它负责维护整个cluster的状态的信息，clinfo API允许应用程序利用这些状态信息来采取相应行动。

三、Oracle 9i数据库的日常性维护

在Oracle数据库中，我们可以通过观测一定的表或视图来了解当前空间的使用状况，进而作出可能的调整决定。通过对表空间的自由空间的观察，可用来判断分配给某个表空间的空间是太多还是不够。关于自由空间的管理，可以利用Export及Import命令卸出和装入表空间可以释放大量的空间，从而缓解增加另外的数据文件的要求。

如果包含具有高插入(insert)和更新(update)活动的表的表空间中自由空间的比重下降到了15%以下，要为此表空间增加更多的空间。对于一个基本是静态表数据的表空间，如果有多于20%的自由空间，则可以考虑减少分配给它的文件空间量。减少SYSTEM表空间的空间量比较困难，因为那要重建数据库。

为了防止表或索引被过分扩展，及时实现对数据库的调整，用户应当经常对有关对象进行观察。我们可以利用export卸出表，然后删除表，再利用import命令将表装入，这样，可以将不连续的区域合并成一个连续的空间。

ORACLE 9i数据库在AIX运行维护过程中，经常会遇到使用Shutdown（只有Internal用户有此权）命令不能关闭数据库的故障。不能关闭数据库是因为数据库有未提交事务，此时可用Shutdown Abort命令关闭数据库，但是所有未提交事务将被废弃。

有时候，系统管理员会发现数据库Client端经常无故发生死机的情况，此时可在Server端使用Platinum EPM产品确认问题所在。使用EMP可以监控系统的运行，最有可能的原因是，用户因为误操作在数据库中发生死锁，引起Client 死机。经确定进程号后，到ORACLE用户下，使用“KILL －9进程号”命令，即可释放死锁，解决Client端死机问题。

四、保护磁盘阵列的数据安全

企业运行的重要数据平时都保存在磁盘阵列上，因此对磁盘阵列的日常运行维护就显得十分重要。需要做以下及几个方面的工作：

及时检查运行日志文件

磁盘阵列的日志文件详细记录了磁盘阵列内部运行情况，包括发生的每个事件序列号、严重级别、相关的服务器IP地址、有关设备的具体位置及事件发生的时间等内容，这些信息对于诊断和排除磁盘阵列故障十分有用。做好日志文件的日常管理工作，往往能起到防患与未然的作用。

采用RAID数据冗余技术，即使有一个物理磁盘损坏，也不会影响系统正常运行和数据的I/O，用户也仍能够正常访问服务器，这时故障不易被察觉，但阵列实际上已处于安全临界状态，下一步就会面临着突然宕机和存储数据随时丢失的危险，日志文件及时将这一情况记录在册，损坏的磁盘记录为下线(off line)，其所在阵列记录为临界状态(critical)，通过检查日志就能够及时发现阵列运行中存在的这个错误和隐患，迅速排除故障，保证阵列始终处于安全运行状态。

定期检查数据一致性

数据冗余是磁盘阵列主要技术之一，磁盘阵列通过数据冗余达到容错目的，但是由于各种原因，难免会遇到冗余数据与主数据块（Primary Data）不一致的情况，结果造成数据失效甚至宕机等现象。一致性检查能及时发现和纠正潜在的错误数据，保证阵列中数据的完整性。通过对RAID互为镜像的磁盘数据一致性检查，或者主数据块进行重新校验，将产生的校验数据与冗余数据比较，都能发现不一致的错误数据。一致性检查一般间隔时间以每周1～2次为宜。

建立热备用磁盘

热备用磁盘也是RAID技术的又一项技术，当磁盘阵列中一个正在使用的物理磁盘发生故障后，一个待机的磁盘会立刻上线，代替此故障盘，阵列控制器根据逻辑驱动器上的冗余数据，通过校验算法把原来存储在故障盘上的数据重建到热备用磁盘上。

成为热备用磁盘必须有三个条件：一是有不小于故障盘的容量；二是平时不得存储任何数据，也就是闲置不用；三是阵列控制器自动重建数据功能有效。在一个阵列中，只能有一个热备用磁盘。热备用磁盘增加了一次数据逃生的机会，系统管理员要及时更换发生故障的磁盘，并指定新的热备用磁盘。

定时备份重要数据

配备了磁盘阵列并不意味着可以高枕无忧了，对于重要业务数据一定要备份。数据备份的介质可以是磁带、可读写光盘，也可以还是磁盘。备份方式可以是通过操作系统本地备份或通过网络系统远程备份，目前可以采用DAS、NAS或SAN方式来进行数据备份。

在本方案中，对于7133磁盘阵列运行维护时，主要是通过它前面面板本身自带的指示灯来判断有无异常情况，也可以通过AIX的如diag、errpt和smit ssaraid等命令来运行和管理磁盘阵列。

阅读(358) | 评论(0) | 转发(0) |

上一篇：征文：四大要点管理维护双机热备系统(1)

下一篇：征文：四大要点管理维护双机热备系统(3)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6