现场环境磁带库为Adic scalar 1000,操作系统环境为solaris8 备份软件为Legato networker6.1.3.
故障现象,磁带库持续的报7C错误.当持续的报7C错误以后,磁带库变为offline.然后,和备份主机间断开,备份主机端报
I/O error使得备份任务不能进行.(注: 对于UNIX文件系统的备份,legato networker6.1.3还好说。当备份没有办法进
行的时候,直接停掉备份group的运行就可以了,但是,对于引导了nommo的oracle的RMAN备份是比较让人讨厌的.即使
你停掉了,备份的group,但是,在client端nommo这个进程依然在运行,同时,引导的RMAN还在进行.这样,很容易造成oracle
系统表的锁表,给oracle的运行带来影响.所以,这样经常下去会生产系统带来了不少的影响.
下面来描述一下,处理过程:
首先,第一次出现不能够抓磁带在最下面的2个driver上.上面的4个driver是正常的.考虑到会不会是机械手的LGR3卡的问
题,因为前面出现过这样的问题,后来,更换了LGR3卡以后问题得到了解决.当更换完LGR3卡以后,问题依然存在,所以,考虑到需
要更换机械手.当更换完机械手以后,问题依然存在.(因为在这之前的几年中,一直运行良好.没有出现过问题,除了更换driver外,
基本没有做过太大的操作)
问题没有得到解决,然后报原厂.将收集的log日志发送给原厂.后来,经过原厂对log的分析,判断为下面的两个driver有问题了.
需要更换下面的两个driver.(当时,抱着怀疑的态度.因为,直接对下面的两个driver进行读写的操作,一直都很正常.但是,机械
手抓带放入就会有问题.所以,怀疑,不是driver的问题).后来,证实怀疑是正确的.更换了driver以后,问题依然没有得到解决.
时间已经过了一段时间,发现对于上面的4个driver进行抓带的操作也出现了问题.放入磁带是正常的.但是,机械手在从driver中
抓取磁带的时候,需要好几回才可以抓到.至少在5次以上.
后来,怀疑是皮带的问题,因为这个磁带库使用基本上在5年以上了。会不会是皮带松了的问题.后来,检查皮带,发现皮带确实是
出现了松动.随后,对皮带进行了拉紧操作.操作完以后,问题依然没有得到解决.继续等待中……….
最后,查资料发现在不升级firmware的情况下也会出现7C的错误.最后,考虑将磁带库,SNC还有driver的firmware都升级了
一遍.然后,做TECH,然后inventory以后,发现磁带库没有包错。
然后,接通备份服务器,通过备份软件做inventory正常.
到此,问题全部得到解决.
阅读(2039) | 评论(0) | 转发(0) |