分类: 系统运维
2016-10-24 09:13:38
原文地址:AIX 通过 errpt 来检查系统的错误日志 作者:wygdgb
--查看系统错误日志
#errpt
或者通过smitty-->System Environments --> Manage System Logs --> Error Log --> Generate Error Report
-- 清除距今N天前所有错误日志
#errclear 0
#errpt -d H 列出所有硬件出错信息
#errpt -aj ERROR_ID 列出详细出错信息
# errpt -a
--以下是对具体项目的说明
LABEL——事件的预定义名称。
IDENTIFIER——事件的数值标识符。
Date/Time——事件的日期和时间。
Sequence Number——事件的唯一编号。
Machine ID——您的系统处理器单元的标识编号。
Node ID——您的系统的助记名称。
Class——错误的一般来源。可能的错误类型包括:
H——硬件。 S——软件。 I——信息性消息。 U——未定的。
Type——所发生的错误的严重程度。可能的错误类型包括:
PEND——设备或组件的可用性损失是急迫的。
PERF——设备或组件的性能已下降到可接受的级别以下。
PERM——出现了不可恢复的情况。如果错误类型为这个值,那么通常是最严重的错误,并且很可能意味着出现了硬件设备或者软件模块的故障。如果错误类型为 PERM 之外的其他值,通常并不表示故障,但是对这些错误进行了记录,以便可以使用诊断程序对它们进行分析。
TEMP——在出现多次不成功的尝试之后,所恢复到的状态。这种错误类型也可以用于记录信息性条目,如 DASD 设备的数据传输统计信息。
UNKN——无法确定错误的严重程度。
INFO——错误日志条目是信息性的,并且不是某个错误所产生的结果。
Resource Name——检测到错误的资源的名称。对于软件错误,这是某个软件组件或可执行程序的名称。对于硬件错误,这是某个设备或系统组件的名称。它并不表示该组件出现故障或者需要更换。相反,它用于确定合适的诊断模块以用于对错误进行分析。
Resource Class——检测到故障的资源的一般类别(例如,磁盘的设备类别)。
Resource Type——检测到故障的资源的类型。
Location Code——设备的路径。最多可能有四个字段,分别是抽屉、插槽、连接器和端口。
VPD——关键的产品数据。这个字段的内容(如果存在)可能各不相同。设备的错误日志条目通常返回有关设备制造商、序列号、工程变更级别、以及只读存储级别的信息。
Description——错误的汇总信息。
Probable Cause——一些可能的错误原因的列表。
User Causes——由用户错误所导致错误的可能原因的列表。用户所导致的错误可能包括不正确插入的磁盘、未能开启的外部设备(如调制解调器和打印机)。
Actions——对于纠正用户所导致的错误的推荐操作的描述。
Install Causes——因为不正确的安装或者配置过程所导致错误的可能原因列表。这种类型的错误包括硬件和软件不匹配、电缆的不正确安装或电缆连接变松,以及未能正确配置的系统。
Actions——对于纠正安装所导致的错误的推荐操作的描述。
Failure Causes——可能的硬件或者软件故障列表。
Actions——对于纠正故障的推荐操作的描述。对于硬件错误,这将导致运行诊断程序。
Detailed Data——针对每个错误日志条目的、唯一的故障数据,如设备检测数据。
可以考虑下面的示例错误输出,这是运行不带任何标志的 errpt 命令的错误输出:
如果错误类别值为 H,并且错误类型值为 PERM(在这个示例中,标识符 BFE4C025 就是这种情况),则说明系统碰到了硬件问题,并且无法对其进行恢复。可能存在与这种错误类型相关联的诊断信息。
如果错误类别值为 H,并且错误类型值为 PEND,则表示因为系统检测到大量的错误,以使得某个硬件马上将变得不可用。
如果错误类别值为 S,并且错误类型值为 PERM(在这个示例中,标识符 F6A86ED5 就是这种情况),则说明系统碰到了与软件相关的问题,并且无法对其进行恢复。
如果错误类别值为 S,并且错误类型值为 TEMP,则表示系统碰到了与软件相关的问题。在经过几次尝试之后,系统能够对该问题进行恢复。
如果错误类别值为 O,则表示已经记录了一个信息性消息(在这个示例中,标识符 A6DF45AA、9DBCFDEE 和 192AC071 就是这种情况)。
注: errpt 命令将从错误日志中的条目生成一个错误报告,但是它并不进行错误日志分析;
当您怀疑出现了硬件问题的时候,可以使用 diag 命令来帮助查找问题。