Chinaunix首页 | 论坛 | 博客
  • 博客访问: 3386391
  • 博文数量: 631
  • 博客积分: 10716
  • 博客等级: 上将
  • 技术积分: 8397
  • 用 户 组: 普通用户
  • 注册时间: 2008-04-01 22:35
文章分类

全部博文(631)

文章存档

2020年(2)

2019年(22)

2018年(4)

2017年(37)

2016年(22)

2015年(1)

2013年(12)

2012年(20)

2011年(19)

2010年(20)

2009年(282)

2008年(190)

分类:

2008-06-12 14:05:47

 

主机自动down机故障点判断的基本步骤(刘勇)

 

 

l        背景信息

在日常的维护工作中,经常遇到主机down机重启的情况。具体的down机原因可以通过下面的步骤来做一个大体的确认。

 

 

l       问题单编号

2849823

 

l         操作步骤

 

1sol8以后的系统有电源管理,默认是30分钟未操作,系统自动挂起到ok。请查看/etc/power.conf文件:

#more /etc/power.conf

autopm   default

# Auto-Shutdown  Idle(min) Start/Finish(hh:mm) Behavior

autoshutdown       30               9:00 9:00   default

statefile  //.CPR

如果显示为上面紫色的这种Behavior项为default,则该系统采用了默认电源管理模式。需要将default改为noshutdown

 

2、排除电源管理导致down机的可能之后,再确认是否是由于温度过高导致的系统保护自动down机。选择一个系统正在运行的时机,查看其日志信息。

#more /var/adm/messages

Mar  2 03:07:59 T2000 picld[149]: [ID 845468 daemon.crit] SUNW_piclenvd: 'cpu1' sensor temperature 95 outside safe operating limits (0...93).

看有没有类似于上面显示的这种温度过高报警。如果有,则需要对主机进行除尘和改善环境。

 

3、如果电源或者电源风扇有问题也可能导致主机温度过高而down机。

参考下面的步骤:

#/usr/platform/sun4u/sbin/prtdiag -v

System Configuration: Sun Microsystems  sun4u Netra 240

System clock frequency: 160 MHZ

Memory size: 2GB       

 

==================================== CPUs ====================================

                      E$          CPU     CPU       Temperature         Fan

       CPU  Freq      Size        Impl.   Mask     Die    Ambient   Speed   Unit

       ---  --------  ----------  ------  ----  --------  --------  -----   ----

     MB/P0  1280 MHz  1MB         US-IIIi  2.4       -        -   

     MB/P1  1280 MHz  1MB         US-IIIi  2.4       -        -   

 

看有没有ps0ps1fan等部件的报错。如果有,需及时更换。

阅读(1745) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~