EMC电源故障导致oracle等应用中断
前段时间碰到一个案例,客户方EMC cx500存储电源故障,核心生产业务中断,造成了非常严重的后果。
NAS和SAN存储全部有问题,核心数据库RAC在mount时报错ORA-214、ORA-600 [kccpb_sanity_check_2];
后来在恢复的过程中碰到一堆的错误如ORA-00600 [kclchkblk_4] and ORA-00600 [2662] ,ora-600 [13031]等
折腾到最后,没有更好的办法,只能用之前的备份做了不完全恢复,丢了一部分数据。
关于这个事情,EMC厂商工程师解释说,这是从来没有过的案例,两个控制器同时失效,几乎是百年一遇的事情;
具体技术方面,他们是这么解释的:
oracle将数据提交写到存储上,认为已经写到磁盘了,但是EMC存储自身有缓存机制,部分数据仍保存在存储缓存里,并没有真正写到磁盘上;
当系统突然掉电,缓存数据丢失造成oracle不一致,控制文件损坏、数据文件等出现坏块,数据库无法正常打开;
阅读(838) | 评论(4) | 转发(0) |