Chinaunix首页 | 论坛 | 博客
  • 博客访问: 511707
  • 博文数量: 158
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 904
  • 用 户 组: 普通用户
  • 注册时间: 2016-10-10 11:17
文章分类

全部博文(158)

文章存档

2018年(74)

2017年(84)

我的朋友

分类: 网络与安全

2017-11-30 15:27:19

对于而言,DAG仅仅是使用了故障转移群集的部分功能,如群集数据库、群集心跳、仲裁等,但如共享资源等则不在依赖故障转移群集。从整体上看,DAG对故障转移群集依赖较小,其管理更是可通过Exchange工具完全实现。本文将分享Window故障转移群集名称资源脱机时对Exchange影响及其处理过程。



【正文】

一   故障现象及影响

用户在某个工作日发现EV存档失败,将该问题提交至EV工程师分析,得到回复是群集IP ping不通。经过沟通确认,EV存档是需要同群集IP通信后获取节点进而对节点下的数据库进行存档备份。

检查邮箱服务器,发现数据库状态、用户邮箱使用均正常。打开故障转移群集管理器,查看群集状态,发现节点、网络均正常,群集核心资源中显示群集名称脱机、文件共享见证失败。

综合来看,应该是由于群集名称脱机导致EV存档问题,该问题不影响用户邮箱正常使用。

                                                                        1-1

                                                                    1-2

二   排错思路

2.1      检查过程

a.检查数据库状态;

b.检查用户邮箱、邮件流等;

c.检查群集日志;

d.检查邮箱服务器应用程序日志;

e.检查文件共享见证设置的共享文件夹状态。

2.2  检查群集日志可以发现在群集日志中有ID1135的报错,提示“群集节点已停止群集服务”(见图2-1;

?  群集文件共享见证文件夹存在服务器上,但显示未共享;

                                                                         2-1

                                                                    2-2

2.3       问题分析

根据查到的日志报错及故障前的网络变更,可以确认是由于网络变更导致DAG各节点群集服务器停止,进而引起群集资源异常脱机。

根据报错ID 1135和故障现象,可以查询到有以下几种可能原因:

1)群集节点网络禁用“Allow This Network to Access By Clients”设置;

2)群集节点网络跨多网段,虚拟群集IP未配置多IP

https://blogs.technet.microsoft.com/timmcmic/2010/05/12/cluster-core-resources-fail-to-come-online-on-some-exchange-2010-database-availability-group-dag-nodes/

3)群集资源名称在AD中被删除;

https://blogs.technet.microsoft.com/askcore/2009/04/27/recovering-a-deleted-cluster-name-object-cno-in-a-windows-server-2008-failover-cluster/

4)仲裁失败导致。

按照以上查询结果,分别进行确认,1~3均可排除,4从理论上可能在网络故障时引起群集节点切换异常导致群集运行异常。按照这种分析,可以尝试先恢复仲裁设置,再恢复群集名称资源的联机。


三   解决方法

3.1        恢复文件共享见证资源

1)直接点击将文件共享见证资源联机,提示“操作时间超过预期时间”;

2)新建共享文件夹,然后添加新的文件共享见证,提示“操作时间超过预期时间”


3.2         恢复群集名称资源

1)选择群集名称,点击联机,提示“操作时间超过预期时间”


3.3   重启主服务器,切换群集

通过3.13.2尝试,可以初步判断群集目前无法正常运转,常规操作无法进行处理。在这种情况下,重启下“群集”尝试恢复群集,即重启群集当前主服务器,强制群集进行切换。

在对数据库进行手动切换后,保证当前主服务器未挂载活动数据库,重启服务器。重启后,群集自动切换至另一台节点,群集名称资源及文件共享见证自动恢复联机,检查服务器其他服务均正常。



四   小结

从故障现象、影响及最终解决方法来看,本次故障直接原因是网络变更调整,间接原因是文件共享见证失效,根本原因是群集运行不正常,通过切换,恢复了群集的正常运行,进而正常连接回群集名称资源和文件共享见证。

从本次故障处理,总结有以下几点注意事项:

生产环境变更操作在非生产时间进行;

涉及邮箱服务器重启,需提前切换数据库,确保重启期间用户使用;

在问题无明显思路时,重启不失为一个好的尝试方法,当然前提是不会造成其他影响。

阅读(2250) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~