Chinaunix首页 | 论坛 | 博客
  • 博客访问: 3387849
  • 博文数量: 631
  • 博客积分: 10716
  • 博客等级: 上将
  • 技术积分: 8397
  • 用 户 组: 普通用户
  • 注册时间: 2008-04-01 22:35
文章分类

全部博文(631)

文章存档

2020年(2)

2019年(22)

2018年(4)

2017年(37)

2016年(22)

2015年(1)

2013年(12)

2012年(20)

2011年(19)

2010年(20)

2009年(282)

2008年(190)

分类:

2009-09-15 08:32:18

如何定期对系统做Health Check
系统每日运转,为了最大程度上减少系统的非正常停机,系统管理员应定期对系统作Health Check
1. Health Check的目的
1)发现及定位已经存在的风险
2)发现潜在的系统问题及风险
3)进行预防性的保养维护

 


本文适用于HPUX主机和系统,在PA-8600相关CPU的主机上测试通过,并可延伸到其他相关平台和主机。
本文作者未知,疑为HP工程师或相关人员。

如何定期对系统做Health Check
系统每日运转,为了最大程度上减少系统的非正常停机,系统管理员应定期对系统作Health Check
1. Health Check的目的
1)发现及定位已经存在的风险
2)发现潜在的系统问题及风险
3)进行预防性的保养维护
2. Health Check的步骤:
硬件系统
指示灯

    硬件系统通常都有状态指示灯,正常运行状态下多为绿灯(闪烁或恒亮),如果出现黄灯、红灯说明有故障(也有例外,应视具体硬件而定),系统管理员应注意观察和掌握住系统正常运行的状态指示灯,这样,硬件发生故障时,就能很快发现。
液晶面板和主控台

    主机正常运行时,液晶面板上通常有显示如下:

RUN   XXXXX

CPU    0 1 ...N
    
                  


    发生故障时,其液晶显示屏或主控台上都有ERROR或FLT一类的信息。
如果磁盘阵列运行过程中,液晶屏上或主控台上出现其他信息,如Disk Failue,Power Supply failure,X controller failure等时,应及时与HP响应中心联系
系统中的硬件信息及日志  
 
1、检查syslog.log
检查syslog.log和OLDsyslog.log中有没有关于硬件系统的诸如Error,Warning,Powerfail一类的信息。
2、使用mstm对硬件系统进行诊断并查看相应的硬件日志/usr/adm/diag/LOGXXX
3、使用相应的工具查看硬件的firmware版本及配置信息
硬件部件
察看信息
使用工具
System Borad
Pdc firmware
Mstm
GSP
Firmware
GSP command
CPU
Numbers & Status
Ioscan-fnC processor
Memory
Total Size
Dmesg|grep Physical
SCSI card
HW path& ID
ioscan
Fibre channel
Date Code/firmware
Mstm/hardware check
Disk
Model &firmware
Diskinfo -v
Tape drive
Model &firmware
Diskinfo -v
Cdrom/DVD
Model &firmware
Diskinfo -v
Disk Array
ALL info
Autoraid:arraydsp -a
    FC60: amdsp -a fc60
amdsp -d fc60
rebuild
amdsp -r fc60
amutil -rr 1:0 fc60
软件系统
●安装的软件


1、检查有无未configured的软件和补丁:swlist -l fileset -a state
2、在11.0系统中检查有无patch attribute的补丁:
swlist -l  patch -a is_patch  PH\*
3、检查Swverify有无错误输出
4、检查/var/adm/sw/swagent.log中ERRORs和WARNINGs
●系统日志
   检查/var/adm/syslog/syslog.log及OLDsyslog.log中有无错误及警告信息
●网络联接
   检查nettl.LOG00中最近的错误信息
   netfmt -f /var/adm/nettl.LOG00
Dump的配置
  
1、用lvlnboot -v 检查Dump区
2、检查core  dump目录
3、确认/etc/rc.config.d/savecore(10.x)或savecrash(11.x)值为1
系统备份


  确认系统备份计划执行良好,有最近的系统备份且定期作数据备份
系统交换区
 
1、确认系统有足够的交换区:swapinfo
2、若内存大于1GB,确认swapmemon为1
系统安全
1、检查失败的登陆:lasb
2、检查/etc/passwd中有无相同的rootid
系统起停
1、检查启动过程中的错误信息:/etc/rc.log
2、检查关机日志/etc/shutdownlog确认有无非正常关机和重启
LVM配置
1、确认/etc/lvmconf中包含所有逻辑卷组的配置信息
2、确认每个vg配置文件有备份
3、vgdisplay -v显示所有的激活的vg的信息
文件系统、磁盘空间、数据库表空间检查
1、bdf检查文件系统大小及剩余空间
2、vgdisplay -v检查每个vg的组成及剩余空间
3、使用数据库工具检查数据库表空间
Kernel
 检查/stand/vmunix存在,且其有备份存在于/stand目录下
Cluster
1、检查/etc/cmcluster/pkgXXX/control.sh.log中的错误信息
2、cmviewcl -v检查cluster状况
阅读(2500) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~