作为网管员,每天要面对大大小小的各种故障,如何能够快速排除故障,让网络畅通无阻是网管员们关心的问题,本文则通过排除某次网络故障阐述了一个网管员的亲身感受。
网络结构
我们单位内部计算机局域网是一个具有一定规模的园区网络。网络物理层采用155M*2的ATM主干连接,网络层采用开放的TCP/IP,根据应用需求,采用VLAN技术划分为若干子网。网络汇接中心以两台 ATM机构成一个中心环,其中一台为主机(图1 ATM-S),即通常我们所说的三层交换机,它的模块完成VLAN间的路由功能,并负责园区网进入广域网的访问接入和局域网骨干路由寻径。广域网是采用Internet技术覆盖全国的内联网。各业务部门分别通过一台ATM交换机以155M的双链路与汇接中心的主交换机ATM-S相联,以形成冗余的物理和负载均衡。网络拓扑如图1示。
局域网在网络汇接中心通过与广域网互联。广域网路由器是Route-w,采用 路由器,负责园区网内外路由交换,它以专线方式对上联接广域网。的停火区是公共数据交换区,配置了一些公共及终端,作为园区网的部门网络,停火区交换机通过防火墙与内网主交换机ATM-S相联。考虑到局域网应用和用户,我们对防火墙做了一些规则设置,例如保证局域网用户可以浏览广域网网页;而广域网用户只能浏览停火区的公共Web。其中,局域网IP地址为1.64.0.0/12,停火区IP地址为1.64.10.0/24,广域网IP地址为1.0.0.0-32.0.0.0/8。局域网ATM-S交换机对内网关是1.64.1.1,对外网关是1.64.10.2。
故障现象分析
近期发现一个奇怪的故障现象,在停火区可以Ping通广域网所有IP地址,并能浏览广域网所有IP地址网页。而内网用户只能浏览广域网IP地址为1.0.0.0/8、13.0.0.0-32.0.0.0/8网段的网页,地址为2.0.0.0-12.0.0.0/8网段的网页不能浏览。从内网Ping广域网IP地址,只能Ping通1.0.0.0/8、13.0.0.0-32.0.0.0/8网段,Ping 2.0.0.0-12.0.0.0/8网段不通。
根据网络故障通常出现的几种可能,从网络物理层、数据链路层、网络层逐层查找故障。由于在局域网可以Ping通广域网的部分IP地址,因此首先可以排除网络物理层设备、线路的连接以及数据链路层路由器端口数据封装的问题。该故障基本可以定位在网络层。我们知道,网络层提供建立、保持和释放网络层连接的手段,包括路由选择、流量控制、传输确认、中断、差错及故障恢复等。
排障步骤
由于在局域网不能Ping通广域网,而在停火区可以,首先怀疑是防火墙设置问题。把防火墙断开,停火区交换机与内网主交换机ATM-S直接相连,停火区交换机与广域网路由器Route-w直接相联,此时内网依然不能与外网2.0.0.0-12.0.0.0/8网段互通。说明故障与防火墙设置无关,恢复防火墙设置。
接着检查路由器设置。首先查看广域网网关路由配置表,该路由器配置了静态和动态两种路由。该路由器的静态路由设置包括了局域网网段。动态路由OSPF路由仅包含停火区网段,试将原OSPF路由表停火区网段扩大成内网网段。再试,故障仍存在。
接着检查局域网主交换机ATM-S网关路由配置表。该路由器(模块)使用的是RIP协议。全0子网0.0.0.0(zero subnet)都已指向1.64.10.1网关。
之后,又检查两路由器(模块)网络接口IP地址配置及状态也正常。这时,我们试着将局域网网段某主机地址1.64.1.200改为停火区网段地址1.64.10.200,原网关设定不变,仍是内网网关1.64.1.1,从该主机Ping外网仍旧不通。接着,将该主机的ATM-S主交换机网关地址改为停火区网关地址1.64.10.1,此时该内网终端即刻可以Ping通外网IP地址2.0.0.0-12.0.0.0,并且可以浏览其Web页面。此时可以判定是路由器(模块)设置问题,并可排除交换机故障。
由于找不到故障原因,我们试着在局域网主交换机ATM-S上再加上一条目的地址为2.0.0.0/8 的网段指向内网网关1.64.10.1的路由配置命令,此时局域网用户即能Ping通2.0.0.0/8网段。但是故障还是不能解释,因为在原配置中全0子网已全部指向1.64.10.1,包括了2.0.0.0/8网段地址。
此时,我们在局域网终端利用DOS命令Tracert“追踪”6.1.1.2,发现所有IP数据包均走向局域网1.69.1.29。经过了解,原来该主机是一台NT服务器,启用了双网卡工作,本意是为了使这台服务器同时可以连接两个物理隔离的网络,如图2所示。其中广域网1的IP地址范围是1.0.0.0-32.0.0.0.0/8,广域网2的IP地址范围是1.0.0.0-12.0.0.0.0/8。该服务器的管理者在未经网络汇接中心网管人员许可的情况下自行启用了 NT支持的RIP路由协议功能。我们且称这台服务器为NT-RIP。
我们知道,RIP路由协议是一个基于距离向量的分布式路由选择协议,它的最大优点就是简单,最大的缺点也是简单。RIP路由器根据传输度量值“hop数”来决定一个数据包的最佳传输路径。运行RIP的路由器每30秒将它的路由表广播一次,使网上RIP 路由器之间的路由信息得到更新,但是RIP路由协议有一个致命的弱点是RIP路由器之间交换信息不必经过鉴别,也就是说允许“非法”的RIP路由器加入到网络中来进行路由交换。NT Server 4.0提供RIP路由器的功能,支持动态管理IP路由表。这样,由于局域网主交换机ATM-S运行的是RIP协议,所定义的目的IP 0.0.0.0/0的“下一跳”“NextHop Address”是1.64.10.1;而这台NT-RIP服务器通过“学习”,知道在1.69.1.29网关有到具体网段2.0.0.0.0-12.0.0.0.0/8的路由,因此局域网路由信息表被刷新为NT-RIP服务器的路由,使局域网所有去2.0.0.0-12.0.0.0网段的IP数据包全部走向1.69.1.29,造成事实上的路由欺骗,导致这一网络故障的发生。这里,由于停火区的路由交换由Route-w完成,与局域网ATM-S无关,因此在停火区可以与所有外网IP地址互通。在断开该NT-RIP服务器后故障消失。找到故障原因后,我们将ASM-W主交换机的路由表更新,增加了具体到12.0.0.0-32.0.0.0/8的网段,并增加了静态路由,由此屏蔽了“非法”路由器。
网管员的思考
通过这次网络故障的排除,给我们带来了几点思考:
网络管理员要确保配置合理、正确。一个单位的网络建设之初,网络设计完成后,的安装调试往往由网络集成商或厂商完成。但网络设备的配置不是一劳永逸的事情,网络管理员必须对网络设备不断地进行调整以适应网络应用的发展变化。这就要求网络管理员不但要深入了解网络设备的性能,还必须掌握当前网络运行状态,对既定网络配置参数如子网划分是否合理、路由配置是否恰当,防火墙配置是否符合策略等进行评估,并提出解决方案。
网络设备配置及网络故障诊断以网络原理、网络运行的知识为基础。这就要求我们要努力学习有关计算机网络技术理论,了解网络分层技术及相关协议和标准,指导我们的工作。网络故障不仅表现在数据链路层、网络层等高层协议。比如我们曾经遇到过一起物理电气特性不合格带来的严重的线路传输误码率高的网络故障。同时还要掌握网络的设计结构,包括网络拓扑结构、设备连接关系、系统参数设置及常用软件的使用等;熟练掌握各种不同厂商提供的网络设备的配置和使用,平时注意积累网络正常运行时的各种技术参数以备在故障检测时查找和对比。这样才能知其然,又知其所以然,以便故障查找。
熟悉常用的网络诊断工具。在这次故障的查找过程中,我们体会到,只有平时注意不断地积累网络诊断工具使用经验,以网络诊断工具为手段获取诊断信息,查找问题的根源,确定网络故障点,才能使故障排除更加得心应手。在终端上常用的DOS网络诊断工具有Ping、IPconfig、Winipcfg、Netstat、Tracert、Arp、Routeprint等。在这次故障查找过程中如果能较早使用DOS的 Tracert追踪命令,就能及早发现路由故障,少走弯路。
一般来讲,对于网络故障我们很少怀疑是网络客户端的问题,大都是从网络设备路由器、交换机和防火墙等着手,而这次的故障恰是用户在客户端随意设置自己的设备造成的。随着网络的建设和应用的普及,不同层次的网络用户给网络管理人员提出了不同的要求,除了这次的故障现象,还比如有的内网用户随意设置代理服务器和拔号服务器等等,都会给内网的安全带来极大的影响。
【责编:admin】
--------------------next---------------------