分类: 系统运维
2012-04-19 19:37:58
1. 环境简介
这是一个实际发生的利用率异常导致大量丢包的案例,用户的网络丢包现象很严重,给用户造成了很大的困扰。
2. 网络环境
用户的网络是一个省级网络环境,包括局域网和广域网,并同全国的广域网络相连。网络拓扑如下:
3.网络异常现象
该网络丢包现象严重,如果通过省局域网向地市网络或全国网络发包,每发出10个PING包将只能收到7个REPLY包,这样,基于网络的应用受到很大的影响。
4.找出产生网络最大的主机
同样利用Sniffer的Host Table功能,将该网络所有计算机产生的网络流量按照发出数据包的包数多少排序,结果如下图。
从上图中我们看到,IP地址为10.22.0.25的主机发出数据包最多,远远超过了其他主机,相应产生的流量也最大。
5.这台主机的网络流量
首先我们分析该主机的网络流量流向,也就是分析它在向谁发包,我们利用Sniffer的Matrix功能来监控。
通过Sniffer的Matrix,我们发现IP地址为10.22.0.25的主机发出的数据包很分散,我们调查了一下,发现IP地址为 10.22.0.25的主机为该网络的网络管理系统主机,而它发包的对象是该网络中地市级器的IP地址,也就是说网络的网管主机向地市器发出大量 的网络包,导致网络流量异常并导致网络大量丢包,使网络处于不稳定状态。
在发现这个问题后,我们将该网管主机的网络连接解除,发现网络马上恢复到了正常状态,不在有丢包现象发生,看起来这个网络的问题完全是由这台网管主机引起的一样,但这种现象非常难以理解,为什么网管主机会造成网络问题呢。
我们利用Sniffer的Decode功能将捕获到的网络流量解码,来分析网管主机发出的数据包的内容,看看到底它发出了什么样的数据包。
我们通过Sniffer的Decode发现这台网络主机向网络中地市路由器发送大量的ICMP Echo数据包,也就是Ping包,我们对其向10.22.127.246发送的ICMP Echo包进行分析,发现了奇怪的现象。
我们对我们捕获的由10.22.0.25向10.22.127.246发送的ICMP
Echo包其中相邻的数据包进行解码分析,图19为其发出的第739个数据包,上图为其发出的第740个数据包,我们发现这两个包的IP
Identification是一样的,都是15633,每个IP包都会有一个特定的Identification来标志其唯一性,这说明我们捕获到的这
两个数据包其实是同一个IP包。
而捕获到的这个数据包的Time to live也就是TTL值一个为251,另一个为250,TTL为IP包的生存时间,每经过一个路由处理,TTL值就会被减一,直至到0后被路由器丢掉。
我们看到其他的数据包也是同样的情况,这个IP
ID为15663的数据包不断在网络中出现,直到TTL值减到0,这种现象清楚的表明,网络里存在着路由环,发向10.22.127.246的数据包是在
路由器间不断的互相传递,最终被丢掉,这种现象也可以成为路由乒乓现象,出现路由环后,一个数据包将重复在网络中传送,而且瞬时流量会异常的大,造成网络
异常,这正和该网络的网络异常现象相吻合。
为什么会出现路由环呢,我们对其网络进行了详细的了解,发现其在路由器中设置了大量的静态路由,其路由设置如下图所示。
从上图中我们可以看出,如果二级网路由器同地市网络路由器之间的DDN网络连接一旦中断,二级网路由器中所设的指向地市网络路由器的静态路由就
会由于端口状态问题而无效,而其到各地市网段的路由指向就会采用缺省路由指向而指回省局域网交换机,这样路由的乒乓现象就形成了。
事实上当时的地
市网络并未调通,但网络的路由都已经设置完成了,同时各地市路由器的IP地址已经添加到了网管系统中,网管系统在固定的时间间隔内向这些路由器发出
ICMP包,验证这些路由器是否能够访问到,而这些ICMP包却在省局域网交换机和二级网路由器间被放大形成乒乓现象,造成网络丢包现象严重。
这个案例告诉我们,在配置静态路由时要非常小心,最好不要在网络配置中采用静态路由。