Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1338034
  • 博文数量: 464
  • 博客积分: 9399
  • 博客等级: 中将
  • 技术积分: 6364
  • 用 户 组: 普通用户
  • 注册时间: 2011-02-19 09:15
文章分类

全部博文(464)

文章存档

2014年(12)

2013年(123)

2012年(173)

2011年(156)

我的朋友

分类: 系统运维

2012-01-06 16:07:00

Cisco 2800系列硬件排除

说明:本文提供的是对思科设备的定制分析

简介
预备知识
         要求
         所用的组件
         惯例
         硬件—软件兼容性与内存要求
         错误信息
故障排除
模块与卡
         T1控制器VWIC2−2MFT−T1/E1 问题
NM−16ESW−PWR−1GIG 模块PoE问题
发现问题
         串行接口故障排除
         ISDN接口故障排除
         路由器死机故障排除
路由器重启/重加载
         路由器崩溃
         总线错误崩溃
连续/启动环路
         故障排除流程图
         SegV例外
         %ERR−1−GT64010
         软件镜像崩溃
         “看门狗”超时
路由器不启动
         接电后LED不亮
         接电后LED点亮,但控制台不显示任何信息
         路由器启动至ROMmon,控制台上不显示错误信息
         路由器启动至ROMmon,控制台上显示错误信息
         路由器在接收到错误信息后停止启动
路由器丢弃包
         周期性冗余检查(CRC)和帧错误
         以太网接口
         包被忽略
         输入和输出队列丢弃
路由器因NVRAM错误或故障而丢失配置
提出TAC服务请求时应收集的信息
NetPro讨论论坛——专题讨论


相关信息

简介
很多机构的宝贵时间和资源都浪费在了更换实际上运行正常的硬件上。本文的目的是帮助用户排除Cisco 2800系列路由器中潜在的硬件问题。另外,本文还将提供必要的信息,帮助用户查找引起硬件故障的组件。这些都与路由器发生的错误的类型有关。

注意:除了被误认为硬件故障的问题外,本文不讨论与软件相关的其它问题。

预备知识
要求
思科建议读者最好具备以下知识:

  • Cisco 2800系列硬件安装
  • 路由器崩溃故障排除
  • Cisco 2800系列路由器现场故障排除注意事项

所用的组件
本文信息基于Cisco 2800系列路由器。

惯例
如需详细了解文档惯例,请参考“思科技术惯例”。

硬件软件兼容性与内存要求
无论何时安装新卡、模块或Cisco IOS®软件镜像,都需要检查路由器是否有足够的内存,以及硬件和软件能否提供所需要的特性。

建议执行以下步骤,检查硬件—软件兼容性和内存要求:
1. 使用Software Advisor工具(只对注册客户),为网络设备选择软件。

提示:“硬件的软件支持”(只对注册客户)部分将帮助用户检查路由器上安装的模块和卡是否能得到特定Cisco IOS软件版本的支持。

提示:“特性的软件支持”(只对注册客户)部分将帮助用户选择希望实施的特性的类型,以便确定需要哪个Cisco IOS软件镜像。

2. 使用IOS Upgrade Planner(只对注册客户)检查Cisco IOS软件需要的最小内存(RAM和闪存),并下载Cisco IOS软件镜像。如需知道路由器上安装的内存大小(RAM和闪存),可以参考“怎样选择Cisco IOS软件版本”的“内存要求”一节。

提示:如需获得与路由器上当前安装的版本相同的特性,但不知道自己使用的是哪个特性集,可以从思科设备执行 show version 命令,然后将其粘贴到Output Interpreter Tool中。用户还可以用Output Interpreter Tool(只对注册客户)显示潜在的问题和修复方法。如需使用这个工具,必须先登录,并启用JavaScript。

提示:如果需要将Cisco IOS软件镜像升级到新的版本或特性集,可以参考“怎样选择Cisco IOS软件版本”。

3. 如果确实需要升级Cisco IOS软件,请参考“为Cisco 2800系列路由器升级系统镜像”。

提示:如果 2800路由器没有与网络或有效的Cisco IOS软件镜像建立连接,可以执行 tftpdnld ROMmon 命令,获取 IOS镜像。欲知详情,请参考“怎样利用TFTP、通过tftpdnld ROMMON命令为Cisco 2600/2800/3700/3800 下载软件镜像”。

错误信息
Error Message Decoder 工具(只对注册客户)可帮助用户了解错误信息的含义。错误信息显示在思科产品的控制台上,形式如下:

%XXX−n−YYYY : [text]

错误信息通常如下所示:

Router# %SYS−2−MALLOCFAIL: Memory allocation of [dec] bytes failed from [hex],
pool [chars], alignment [dec]

某 些错误信息只说明出错情况,某些则能够指出硬件或软件故障,并要求管理员采取措施。Error Message Decoder Tool不但能解释信息,还能提出更正建议(如果需要的话)。如果可能,还能够为管理员提供文档链接,提供与该错误信息相关的更全面的故障排除方法。

故障排除
“Cisco 2800 系列路由器故障排除”的以下章节非常有用:

  • 解决问题
    • 电源与制冷系统故障排除
    • 环境报告特性
    • 模块、电缆与连接的故障排除
  • 读取系统LED
  • 读取端口和模块LED
  • 系统信息

用户还可以参考“密码恢复步骤”,获得故障排除信息。

模块与卡
这些文档可以帮助用户检查 Cisco 2800 系列路由器支持哪种模块/卡:

  • 如需了解Cisco 2800系列路由器支持哪些接口卡、扩展模块、网络模块和高级集成模块,可以参考“Cisco 2800 系列支持的卡与模块”以及“Cisco 2800系列集成多业务路由器简介”。

 

T1控制器VWIC2−2MFT−T1/E1 问题
安装 VWIC2−2MFT−T1/E1 卡之后,IOS无法立即识别到该卡。用户必须执行 card type {t1 | e1} 命令,对路由器进行配置,才能完成卡的识别。欲知详情,请参考“第二代单端口和双端口 T1/E1 Multiflex 中继语音/广域网接口卡配置实例”。

NM−16ESW−PWR−1GIG 模块PoE问题
NM−16ESW−PWR−1GIG 是一个 EtherSwitch 网络模块,具有以太网供电(PoE)功能。添加此卡之后,可能无法配置PoE,因为路由器上必须安装了与之匹配的电源,才能支持PoE特性。如需详细了解 EtherSwitch网络模块和电源,请参考“思科EtherSwitch网络模块简介”。

发现问题
要发现问题,第一步是尽可能收集与问题有关的信息,以便找到问题的根源:

  • 控制台日志。可以参考“为控制台连接使用正确的终端模拟器设置”。
  • 系统日志信息。如果将路由器设置为向系统日志服务器发送日志,则可以及时获得事件信息。欲知详情,请参考“资源管理器的基本功能和系统日志分析”中的“怎样配置思科设备获取系统日志”一节。
  • show technical−support 命令输出。 show technical−support 命令是很多不同命令的组合,包括 show versionshow running−configshow stacks 命令。TAC工程师通常利用这些信息排除硬件故障。在执行重加载或接电之前,应收集 show technical−support 命令信息,因为这些操作可能会丢失关于问题的所有信息。
  • 如果路由器遇到启动错误,应严格按步骤启动机器。

 

如果具有思科设备的 show 命令输出(包括 show technical−support 命令),可以使用 Output Interpreter 工具(只对注册客户)显示潜在的问题和修复方法,但必须先登录,并启用 JavaScript。

串行接口故障排除
排除串行接口的故障时,可以参考以下内容:

  • T1故障排除流程图
  • 串行线路故障排除
  • T1/56K线路环回测试

ISDN接口故障排除
排除ISDN接口的故障时,可以参考以下内容:

  • ISDN BRI第1层故障排除
  • BRI第2层故障排除
  • 利用debug isdn q931命令排除ISDN BRI第3层的故障

路由器死机故障排除
2800系列路由器可能会出现死机现象。死机指路由器启动到某个状态之后,将不再接受任何命令或键盘输入。换言之,控制台屏幕在某个状态之后不再响应。造 成死机的原因一般不是硬件问题,多数情况下都是由软件引起的。如果遇到了路由器死机问题,请参考“路由器死机故障排除”。

路由器重启/重加载
路由器重启后,将恢复正常状态。正常状态意味着路由器运行正常,能传输流量,管理员能访问路由器。如需查看路由器重启的原因,可以执行 show version命令,分析输出结果。实例如下:

Router#show version
Router uptime is 20 weeks, 5 days, 33 minutes
System returned to ROM by power−on

路由器崩溃
系统崩溃指系统发生了不可恢复的错误,并且已经自行重启。崩溃的原因可能是软件问题、硬件问题或者两者的组合。本节将介绍硬件引起的崩溃以及与软件相关但与硬件问题表现类似的崩溃。

注意:如果在崩溃之后重新加载路由器,例如重新接电或执行 reload 命令,将丢失重要的崩溃信息。所以,在重新加载路由器之前,应收集 show technical−support show log 命令的输出,以及故障信息文件(如果可能)。

如需详细了解这个问题,请参考“路由器崩溃故障排除”。

总线错误崩溃
当处理器试图访问不存在(软件错误)或响应不正常(硬件问题)的内存时,将发生总线错误。总线错误可以通过路由器提供的 show version 命令的输出发现(如果没有重接电或人工重加载的话)。

因总线错误而崩溃的两个实例如下:

Router uptime is 2 days, 21 hours, 30 minutes
System restarted by bus error at PC 0x30EE546, address 0xBB4C4
System image file is "flash:igs−j−l.111−24.bin", booted via flash
.........

在控制台提示符下,这些错误信息也可以在发生总线错误时看到:

*** System received a Bus Error exception ***
signal= 0xa, code= 0x8, context= 0x608c3a50
PC = 0x60368518, Cause = 0x20, Status Reg = 0x34008002

如需详细了解这个问题,请参考“总线错误崩溃故障排除”。

连续/启动环路
路由器可能会因硬件问题而发生连续环路,使管理员无法再访问路由器。例如,管理员不能登录到启用模式,路由器不断地给出滚动的错误信息,直到断电为止。本 节将提供实例和故障排除步骤,帮助用户寻找引起连续环路的硬件原因。

故障排除流程图
总线错误例外的故障排除、SegV 例外、%ERR−1−GT64010 和“看门狗”超时连续环路的流程图如下:

如果路由器在上述故障排除步骤完成之后不再出现连续环路,则问题可能是网络模块装错了位置。建议对路由器实施24小时监控,以保证路由器不再发生此类问题,能够正常运行。

SegV 例外
如果用户并没有重接电,也没有重新加载路由器,但 show version 命令显示以下输出:

Router uptime is 2 days, 3 hours, 5 minutes
System restarted by error − a SegV exception, PC 0x80245F7C
System image file is "flash:c2600−js−mz.120−9.bin"

而且这些输出还出现在控制台日志中:

*** System received a SegV exception ***
signal= 0xb, code= 0x1200, context= 0x80d15094
PC = 0x80678854, Vector = 0x1200, SP = 0x80fcf170

如需详细了解这个问题,请参考“SegV例外”。

%ERR−1−GT64010
%ERR−1−GT64010 错误的实例如下:

%ERR−1−GT64010: Fatal error, PCI Master read
cause=0x0120E483, mask=0x0CD01F00, real_cause=0x00000400
bus_err_high=0x00000000, bus_err_low=0x04080000, addr_decode_err=0x14000470

软件镜像崩溃
启动时,路由器可能检测到 Cisco IOS软件 镜像已崩溃。此时,路由器将返回 compressed image checksum is incorrect 信息,尝试重新加载,并将此次崩溃确定为软件引起的崩溃:

Error: compressed image checksum is incorrect 0x54B2C70A

Expected a checksum of 0x04B2C70A

*** System received a Software forced crash ***
signal= 0x17, code= 0x5, context= 0x0
PC = 0x800080d4, Cause = 0x20, Status Reg = 0x3041f003

这种现象会无限地重复下去,或者路由器将退回到ROM显示器。

这种现象可能因Cisco IOS软件镜像在传输到路由器的过程中崩溃而引起。要解决这个问题,可以为路由器加载新镜像。如需为平台找到一种ROMmon恢复方法,可以参考“思科搜索”。

这个问题也可能因内存硬件错误或软件缺陷引起。

看门狗超时
思科处理器装有定时器,以监控某些类型的系统死机。CPU定期对“看门狗”定时器复位。“看门狗”定时器能够控制每个流程的时间。如果定时器未复位,将发生陷阱。如果流程超时,“看门狗”定时器能够从该流程逃逸。

“看门狗”超时共有两种。第一种一般由软件问题引起,以下面的方式报告:

  • show version 命令输出显示:

    "System returned to ROM by bus error at PC 0x602DADE0, address 0x480811"
    − 或者 −
    "System returned to ROM by error − a Software forced crash, PC 0x60435894"

  • 控制台日志显示:

    %SYS−2−WATCHDOG: Process aborted on watchdog timeout

第二种“看门狗”超时通常因硬件问题引起,以下面的方式报告:

  • show version 命令输出显示:

    Router uptime is 17 minutes
    System returned to ROM by watchdog timer expired
    System image file is "flash:c3640−is−mz.122−3.bin"

  • 控制台日志显示:

    System returned to ROM by watchdog timer expired
    *** Watch Dog Timeout ***
    PC = 0x800001b4, SP = 0x61e19590

这些都是潜在的软件问题,需要根据症状作进一步调查。请参考“总线错误崩溃故障排除”或者“了解软件崩溃”。进一步的判断需要依据 show version 命令的输出进行。如需进一步了解“看门狗”超时崩溃,请参考“看门狗超时故障排除”。

路由器不启动
排除路由器不启动的故障时,控制台显示的信息非常重要。控制台输出应当记录在文件中,以便进行分析。如果向TAC报了案,还应该向思科技术支持人员提供这些信息。本节将介绍不启动的症状,以及应该采取的措施。

接电后LED不亮
检查电线的插接是否稳固,供电是否正常。如果不能解决问题,应更换电线。如果问题仍然存在,应更换路由器。

接电后LED点亮,但控制台不显示任何信息
检查波特率是否为 9600 bps。如果不能解决问题,应检查与控制台相连的设备是否运行正常。检查控制台设备时,可以与运行正常的路由器相连。如果设备测试成功,但问题仍然存在,则更换路由器。


路由器启动至ROMmon,控制台上不显示错误信息
将配置寄存器设置为 0x2102,然后重新加载路由器:

rommon 1 > confreg 0x2102
rommon 2 > reset

如果路由器仍在 ROMmon中,执行“Cisco 2600 系列路由器与 VG200 ROMmon 恢复”中规定的步骤。

路由器启动至ROMmon,控制台上显示错误信息
启动时,可以看到如下错误信息:

  • device does not contain a valid magic number 
  • boot: cannot open "flash:" 
  • boot: cannot determine first file name on device "flash:" 
  • Error : uncompressed image checksum is incorrect [hex value] 

这些错误信息表示闪存为空,或者文件系统被破坏。

将有效镜像复制到闪存中可解决这个问题。复制时,系统将提示用户擦除闪存中原有的内容(如果有的话)。然后,重新加载路由器。如需了解怎样将有效镜像复制到闪存中,可以参考“Cisco 2600 系列路由器与VG200 ROMmon恢复”。

路由器在接收到错误信息后停止启动
启动过程中,路由器可能停止启动,并显示 pre− and post−compression image sizes disagree 错误信息。

引起这种错误的原因可能是:

  • 软件镜像崩溃
  • 闪存错误
  • DRAM错误
  • 内存插槽已坏

要解决这个问题,可以先将新的镜像复制到闪存中。如需了解怎样将有效镜像复制到闪存中,可以参考“Cisco 2600 系列路由器与VG200 ROMmon恢复”。

如果安装新镜像无法解决问题,可以更换内存。如果更换闪存和DRAM之后仍然无法解决问题,可能是因为机箱上的内存出现了故障。要解决硬件问题,可以使用 TAC Service Request Tool (只对注册用户)提出服务请求。

路由器丢弃包
硬件问题引起的包丢失比较容易识别。本节将利用 show interfaces 命令的输出识别包丢失。


周期性冗余检查(CRC)和帧错误
如果接口上的CRC错误或帧错误不断增加,说明存在硬件问题。

router#show interface ethernet 0/0
Ethernet0/0 is up, line protocol is up
...
121 input errors, 102 CRC, 19 frame, 0 overrun, 0 ignored

这种情况有一种例外,那就是当CRC和帧错误发生在通道化接口上的时候。这些信息说明还存在时钟问题。引起故障的错误可能在两个接口之间的任意地方:电缆、中间设备或接口本身。不同接口类型的故障排除技术稍有不同。

以太网接口
对于以太网接口,共享环境(设备通过集线器或同轴电缆相连)和交换环境(设备与交换机相连)采用不同的故障排除方法。

在交换环境中,只有五个组件能引发故障:

  • 电缆
  • 本地接口(端口)
  • 远程接口(端口)
  • 速度
  • 双工不匹配

因此,故障排除步骤比较简单。例如,如果路由器与交换机相连,则故障排除步骤为:

  • 更换电缆;
  • 如果不能解决问题,与交换机上的另一端口相连;
  • 如果问题仍然存在,更换以太网接口。

 

在共享环境中,问题的根源难以查找。网段中的每一个硬件都可能引起故障。因此,必须逐一测试所有组件(电缆、连接器等)。

包被忽略
如果没有空余缓冲区接受新包,它们就会被忽略。当路由器发生流量过载或接口出现错误时,就会发生这种情况。

router#show interfaces ethernet 0/0
Ethernet0/0 is up, line protocol is up
...
21 input errors, 0 CRC, 0 frame, 0 overrun, 21 ignored

如果所有接口都存在包忽略现象,则路由器可能发生了流量过载情况,或者与接口上最大传输单元(MTU)匹配的池中没有足够的空余缓冲区。如果是后面一种情况,忽略包总数的增长还将伴随着无缓冲区总数的增长:

router#show interfaces serial 0/0
...
1567 packets input, 0 bytes, 22 no buffer
22 input errors, 0 CRC, 0 frame, 0 overrun, 22 ignored, 0 abort

另外,在与MTU大小相匹配的池中,缓冲错误总数也不断增加:

router#show buffers
...
Big buffers, 1524 bytes (total 50, permanent 50):
50 in free list (5 min, 150 max allowed)
3066 hits, 189 misses, 0 trims, 24 created
12 failures (0 no memory)

预先配置的永久、空余和最大允许缓冲区的数量可能无法适应所有环境。如需了解怎样避免这种现象发生,请参考“为所有思科路由器调整缓冲区”。

如果只有一个接口的被忽略包增加,无缓冲区计数器的数值不增加,那么,接口可能并没有严重过载,而是接口出现了问题。在这种情况下,应收集 show tech−support 命令的输出,并与思科技术支持人员联系。如需了解接口上的负载,可以查看 show interfaces 命令的输出:

router#show interfaces serial 0/0
...
reliability 255/255, txload 100/255, rxload 122/255

输入和输出队列丢弃
输入队列丢弃绝对不会由硬件问题引起。只有输出队列经常爆满,没有包送出接口,输出队列丢弃才有可能由硬件引起。如需详细了解这些丢弃,请参考“输入队列丢弃和输出队列丢弃故障排除。”

路由器因NVRAM错误或故障而丢失配置
路由器无法加载以前保存的配置。错误信息显示如下:

System Bootstrap, Version 11.1(8)CA1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1)
Copyright (c) 1997 by cisco Systems, Inc.
Warning: monitor nvram area is corrupt ... using default values
Warning: NVRAM size is 0
environment checksum in NVRAM failed
Router#show startup−config
%Error opening nvram:/startup−config (Invalid Checksum)

这些错误信息通常表示存在硬件故障。如需详细分析错误原因,可以执行 test memory 命令。命令输出如下:

Router#test memory
Test NVRAM card [y/n] ? y
Failed

解决的方法是执行 write erase 命令,重新加载路由器。如果问题仍然存在,则需要更换硬件。

如果需要更换硬件,应采用以下方法:

  • 如果持有与思科签署的硬件支持合同,可使用Service Order Submit Tool(只对注册客户)直接请求更换零部件。
  • 如果属于保修服务,可以使用 TAC Service Request Tool(只对注册客户)通过网络与思科技术支持人员联系。
  • 如果产品不属于合同或保修的范围,则与思科合作伙伴或经销商联系,请求更换有问题的硬件。

提出TAC服务请求时应收集的信息
如果确定某组件需要更换,应该与思科合作伙伴或经销商联系,请求更换有问题的硬件。如果持有思科的支持合同,可以使用TAC Service Request Tool(只对注册客户)提出TAC服务请求,要求更换硬件。注意要附上下面的信息:

  • 控制台上显示的错误信息的内容
  • 控制台上显示的故障排除步骤和每个步骤中启动顺序的内容
  • 发生故障的硬件以及机箱的序列号
  • 故障排除日志
  • show technical−support命令的输出

 

NetPro讨论论坛——专题讨论
网络专家连接是一个论坛,在此论坛上,网络专家可以共同讨论问题,提出建议,并共享网络解决方案、产品和技术信息。以下链接是该项技术的一些最新讨论结果。

NetPro讨论论坛——路由器和IOS架构专题讨论
网络基础设施:局域网路由和交换


网络基础设施:广域网路由和交换

相关信息

  • Cisco 2800系列硬件安装
  • Cisco 2800系列卡和模块
  • Cisco 2800系列集成多业务路由器——现场操作注意事项
  • 路由器崩溃故障排除
  • 路由器死机故障排除
  • 总线错误崩溃故障排除
  • SegV例外
  • 软件引起的崩溃
  • “看门狗”超时故障排除
  • Cisco 2800系列集成多业务路由器支持
  • 思科路由器支持资源
  • 技术支持与文档——思科系统公司


  • CCIE Security 2009 IOS防火墙合集


阅读(1727) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~