分类:
2008-06-12 14:05:47
主机自动down机故障点判断的基本步骤(刘勇)
l 背景信息
在日常的维护工作中,经常遇到主机down机重启的情况。具体的down机原因可以通过下面的步骤来做一个大体的确认。
l 问题单编号
2849823
l 操作步骤
1、sol8以后的系统有电源管理,默认是30分钟未操作,系统自动挂起到ok。请查看/etc/power.conf文件:
#more /etc/power.conf
autopm default
# Auto-Shutdown Idle(min) Start/Finish(hh:mm) Behavior
autoshutdown 30 9:00 9:00 default
statefile //.CPR
如果显示为上面紫色的这种Behavior项为default,则该系统采用了默认电源管理模式。需要将default改为noshutdown
2、排除电源管理导致down机的可能之后,再确认是否是由于温度过高导致的系统保护自动down机。选择一个系统正在运行的时机,查看其日志信息。
#more /var/adm/messages
Mar 2 03:07:59 T2000 picld[149]: [ID 845468 daemon.crit] SUNW_piclenvd: 'cpu1' sensor temperature 95 outside safe operating limits (0...93).
看有没有类似于上面显示的这种温度过高报警。如果有,则需要对主机进行除尘和改善环境。
3、如果电源或者电源风扇有问题也可能导致主机温度过高而down机。
参考下面的步骤:
#/usr/platform/sun4u/sbin/prtdiag -v
System Configuration: Sun Microsystems sun4u Netra 240
System clock frequency: 160 MHZ
Memory size: 2GB
==================================== CPUs ====================================
E$ CPU CPU Temperature Fan
CPU Freq Size Impl. Mask Die Ambient Speed Unit
--- -------- ---------- ------ ---- -------- -------- ----- ----
MB/P0 1280 MHz 1MB
MB/P1 1280 MHz 1MB
看有没有ps0、ps1、fan等部件的报错。如果有,需及时更换。