分类:
2009-06-01 11:32:49
1、 系统内找不到某硬盘或某硬盘只读;
a、 在磁盘管理卡内找不到该硬盘;
拔插该硬盘;
更换新硬盘;
更换硬盘背板等硬件逐步排查。
b、 在磁盘管理卡内查看该硬盘信息不正常;
通过手动更改配置;(比如DELL PE系列服务器硬盘处于foreign状态,可能只需清楚foreign后重新配置raid即可,注意不能初始化硬盘)
拔插硬件;
更换该硬盘;
确定要在主板BIOS内找到所有硬盘。
c、 查看操作系统内硬盘配置是否正常;
2、 服务器ping不可达;
(如果业务报重启后ping不可达,也有可能是系统长时间没有重启过,进入系统是要强制检查文件系统,需要的时间比较长。也有可能)
a、 网络状态灯不正常;
拔插该网线(可能接触不实);
将该网线拔出插到笔记本上检查网络是否正常;(如果网络灯正常很有可能是网卡故障)
检查网络。(水晶头、网线、交换机端口等都是故障点)
b、 服务器不能正常启动;
检查电源指示灯;
按下电源开关时,键盘上指示灯是否会亮,风扇是否会转动;
显示器是否正常;
检查内存是否故障;
CPU是否故障;
清除CMOS;
尝试最小配置服务器(单颗CPU,最少的内存, 只连接显示器和键盘);
检查主板是否正常。
c、 自检不到磁盘管理卡;
拔插管理卡;
尝试更换槽位;
更换新管理卡;
更换转接卡;
更换主板尝试。
d、 自检到硬盘处有报错(PE系列、FS12-A3);
在磁盘管理卡BIOS内查看硬盘状态;
e、 自检未完成反复重启;
检查内存等硬件是否故障;
f、 自检硬件完成后不能进入系统;
在主板BIOS内查看启动顺序;
Grub是否正常启动;
启动操作系统中是否异常(有些异常不会影响服务器的正常运行,再次重启就有可能正常)。
g、 进入操作系统内仍不能ping通;
检查操作系统内网络相关配置;
是否能ping自身;
是否能ping网关;
h、 检查网络
3、 服务器死机、某些硬盘报I/O错误;
a、 查看操作系统的日志;
可以通过系统日志来判断部分造成死机的原因;(软件使用不当或系统工作压力过大也可能会导致服务器死机)
b、 查看硬件是否有报错;
通过检查配置或更换硬件排除报错;
c、 用Iometer测试存储子系统有读写错误;
依次更换扩展卡、数据线、磁盘管理卡、内存、CPU、硬盘背板、主板,并用Iometer逐步确定故障硬件;
d、 更换操作系统;
注意:系统死机故障需要在处理完后需要在一段时间内进行一定压力的拷机测试来尽一步检查故障是否彻底解决。
4、 服务器带外不通
a、 在远程管理卡内确认IP的获取状态为DHCP;
b、 检查网络灯状态;
拔插该网线(可能接触不实);
将该网线拔出插到笔记本上检查网络是否正常;(如果网络灯正常很有可能是网卡故障)
检查网络。(水晶头、网线、交换机端口等都是故障点)
(确认远程管理卡获取到相应的管理IP)
附:服务器故障排错的基本原则是:
1、从基本到复杂
a、系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理;
b、硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止;
c、软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。
2、交换对比
a、在最大可能相同的条件下,交换操作简单效果明显的部件;
b、交换NOS载体,既交换软件环境;
c、交换硬件,既交换硬件环境;
d、交换整机,既交换整体环境。
3、尽量恢复系统缺省配置
a、硬件配置:去除第三方厂商备件和非标配备件;
b、资源配置:清除CMOS,恢复资源初始配置;
c、BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序;
d、TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗?