Chinaunix首页 | 论坛 | 博客

qsh

  • 博客访问: 3945564
  • 博文数量: 1015
  • 博客积分: 15904
  • 博客等级: 上将
  • 技术积分: 8572
  • 用 户 组: 普通用户
  • 注册时间: 2008-07-04 19:16
文章分类

全部博文(1015)

文章存档

2019年(1)

2017年(1)

2016年(19)

2015年(27)

2014年(30)

2013年(95)

2012年(199)

2011年(72)

2010年(109)

2009年(166)

2008年(296)

分类:

2008-09-27 14:07:29

日常维护检查

在对广大客户的支持服务中,我们经常发现,由于种种原因,客户往往未能及时发现系统中的一些异常现象,最终导致了对系统和应用的重大影响。

为了帮助客户各有效、方便地管理系统,我们设计了《日常检查维护表》,希望能够帮助广大用户加强日常管理,从而做到防患于未然,尽可能保障系统的运行。

我们分成以下几个部分进行介绍:

如何使用表格,如何使用相关命令进行检查。

同时由于客户的配置千变万化,允许HP客户支持工程师和客户共同对表格和指南进行定制。

 

日常维护检查使用指南

在《日常维护检查表》中,我们把日常的检查分成以下几个部分:

    • 硬件操作系统备份
    • 应用

我们下面分别描述各类检查的内容和方法。HP支持工程师和客户可以一起定制这份指南,例如,定制要检查那些应用日志和进程等等。

  • 硬件

在这部分中,我们检查以下内容:

    1. 面板指示:

在大多数的服务器中,都由一个液晶面板,显示服务器的执行状态。在正常情况下,应该是FxxF的格式。在系统出现故障时,会出现WARNING或FAULT的提示。具体请参见《技术指南》。

系统管理员应该定期检查该指示,确认系统正常工作;否则,应该立即联系HP公司。

 

    1. 服务器中的各个扩展卡的指示灯

在服务器中,存在多种扩展卡,例如,SCSI卡(连接SCSI设备),以太网卡等。这些卡都由一个或多个指示灯。从这些指示灯可以了解这些卡的工作情况。

具体情况,请参见各个卡的说明书。

    • SCSI卡:

在正常情况下,自检灯(self test)应该是暗的;终结电源指示灯(Terminator PWR)是亮的

    • 以太网卡:

在正常情况下,自检灯(self test)应该是暗的;连接灯(Link)是亮的

    • 其他卡:
    1. 外设的状态

大部分外设也都由自己的状态指示。下面是比较常见的几种:

    • M10,M20,M30磁盘阵列

这些磁盘阵列,正常情况下,硬盘的指示灯:应该是绿色;如果变成黄色,则说明该磁盘发生故障。

维修灯(Service Lamp):

应该是绿色;如果变成黄色,则说明该阵列中存在故障部件。例如,硬盘故障。

    • AutoRAID磁盘阵列

该磁盘阵列有一个液晶面板。如果出现故障,在面板上会出现Warning提示信息。

    • 磁带库

磁带库一般也有一个液晶面板。如果出现故障,在面板上会出现报错信息。

    • 其他外设

XP256:该外设实全冗余的如果有部件发生故障,会自动通过DDN拨号到美国技术中心。

    1. 其他硬件检测:

    在N4000中,有一个attention灯,正常情况下,该灯应该是暗的。如果是黄色的,则说明系统中存在一些问题。

  • 操作系统

在这一部分,通过一些实用、简单的命令,检查系统的情况:

    1. 控制台( console )显示

在系统出现问题时,常常会在控制台上显示一些出错信息。系统管理员应该定期检查这些信息。这往往是最方便的方式。

另外,在使用完毕后,应该确保退出控制台,从而避免一些安全性问题。

    1. 命令“dmesg”

系统中存在一个错误缓冲区,系统将自检信息和遇到的错误、报警放在该缓冲区中。

我们可以通过dmesg命令,阅读该缓冲区。

在正常情况下,该缓冲区只应该包含自检信息。如果出现了warining、error或者是一些不熟悉的信息,应该仔细检查或通知HP服务人员。

    1. 命令“uptime”

该命令显示了系统自从上次重启以来运行的时间。通过该命令,可以知道系统是否发生了异常的重启。

    1. 命令“bdf”

系统中文间系统过满,有时会导致系统工作不正常。我们可以用该命令显示了文件系统的使用情况。

如果发现某个文件系统过满,需要及时采取措施,或者删除无用的信息,或者扩大该文件系统。

    1. 命令“mail”

系统在发现问题时,往往会把一些信息发给root用户。

系统管理员应该定期检查root的mail信息,以确认系统中不存在异常。

    1. 日志“/var/adm/syslog/syslog.log”

该日志文件中包含一些重要的维护信息。系统管理员应该定期用more或者vi命令,检查该文件。

系统管理员如果发现warning、error、failure以及一些不熟悉的信息,应该提高警惕。

 

    1. 命令“cmviewcl”

对于运行了双机备份软件的用户而言,应该定期检查系统的运行情况。

确认应用包、节点和网络均正常工作。

    1. 其他命令

用netstat –in检查网络状况,尤其是ATM网卡。

 

  • 备份

系统管理员应该检查:

    • 是否按照计划完成了备份备份过程是否正常
    • 应用

系统管理员也应该养成定期检查应用的习惯。在支持服务中,操作系统工作正常,但用户应用由于种种原因无法正常工作的例子并不罕见。

根据具体情况,系统管理员应该检查:

    • 应用的日志文件
    • 组成应用的主要进程的执行情况,例如数据库的DBWR,LGWR等等。

日常检查维护表

日常维护检查表

日期

 

检查人

 

 

检查内容

检查结果

硬件

主机面板指示


扩展卡指示灯:


  • 各个卡的自检灯(self test)

  • 以太网卡的LINK灯

  • SCSI卡的TERMINATION PWR灯

  • 其他卡1

  • 其他卡2

外设状态:


  • M10/20/30的硬盘的指示灯

  • M10/20/30的维修(Service)灯

  • AutoRAID的面板

  • 磁带库的面板

  • 其他外设1

  • 其他外设2

其他硬件检测1


其他硬件检测2


操作

系统

控制台( console )显示


Demsg命令


uptime命令


bdf命令


root mail命令


cmviewcl命令


/var/adm/syslog/syslog.log


其他命令1


其他命令2


应用

应用的日志


应用的进程1


应用的进程2


应用的进程3


备份

备份是否完成


备份过程是否正常


注释:检查过程是否碰到问题?

    

 

阅读(1065) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~