关于AIX(RS/6000)日常维护基本查看命令释解
——————————————————————————————————————
因为我的环境如此,所以在此列出基本Pseries上操作,简单概念:
RS/6000上是IBM的UNIX系统,是开放平台,叫AIX, 目前最新版本是6,主流版本是5.3(P系列就是指RS6000)
AS400上是IBM自已开发的封闭式的操作系统,叫OS/400, 目前主流版本是v5r3.
我的系统版本:Welcome to AIX Version 6.1! Copyright IBM Corporation, 1982, 2010
系统维护在于日常的检查,非常重要,发现潜在的问题并给予解决,让业务无任何影响,是根本.
所以系统日常检查(日周月等检查类型)、故障处理(按需制定变更类型)、业务恢复与跟进。
*********************************************************************************
系统检查类:
查看硬件外部状态及情况:
故障灯颜色、异常报警、电缆连接情况、位置异常、机房整体环境等
一、查看系统维护的基本信息
#w
03:29PM up 13 days, 9:25, 1 user, load average: 0.47, 0.77, 0.98(系统负载情况)
User tty login@ idle JCPU PCPU what
wsl pts/0 03:25PM 0 0 0 w
#hostname
#id ---核对主机名与ID等基本信息
示例:
l@SEST1:/home/wsl>hostid
0xec1d2a64
@SEST1:/home/wsl>hostname">sl@SEST1:/home/wsl>hostname
SEST1
l@SEST1:/home/wsl>uname'>l@SEST1:/home/wsl>un">sl@SEST1:/home/wsl>uname -a
AIX SEST1 1 6 00FADFS64C0D0
#mail ---查看是否有异常信息发给用户
#errpt|more ---查看系统出错或各类提示信息
T:P永久;T临时 U未知
C:H硬件;S软件;O用户(operate);U未知(unknown)
是U的都要跟进处理。
#errpt -d H ---列出所有硬件异常信息
#errpt -d S ---列出所有软件异常信息
#errpt -aj XXX(ERROR_ID) ---列出该错误的详细信息
#df -k ---查看各个文件系统情况,正常各文件系统不应超过90%
#netstat -i 3 ---检查网络的畅通情况
同时还可以看与前面显示的主名进行核对,看主机名是否有对应的有IP
#netstat -i |grep SEST1 ---可以看到本主机名有IP物理IP指向的
lerrs/lpkts 和 oerrs/opkts是否>1%
示例:
w
sl@SEST1:/home/wsl>netstat -i
Name Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll
en0 1500 link#2 0.a1.5e.aa.84.dc 93428309 0 19392911 3 0
en0 1500 9.29.40 SEST1_boot1 93428309 0 19392911 3 0
en0 1500 9.29.42 SEST1_svc 93428309 0 19392911 3 0
en2 1500 link#3 0.a1.5e.ba.45.72 2976787 0 43366894 3 0
#netstat -rn ---检查路由是否正确
#ping XXXXXXX ---检查出口或对外连通性正常与否,是否有掉包现象
#lssrc -a|ps -ef ---检查系统进程是否有异常
如果有异常,用这几个命令处理,参数适时配置。
stopsrc 停卡服务
#stopsrc -h zork -s srctest -f
startsrc启动服务
#startsrc -g tcpip -h zork
refresh更新服务
#refresh -g tcpip
示例:
UID PID PPID C STIME TTY TIME CMD
root 1 0 0 Sep 21 - 0:08 /etc/init
root 1507502 1 0 Sep 21 - 0:00 /usr/dt/bin/dtl
二、更深入一步查看系统信息
#lsdev -C ---系统设备信息
hdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drive
hdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drive
hdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive
#lsvg -l xxx ---检查卷组信息
发现“stale”就是可能有异常情况
示例:
#lsvg
rootvg
sesdatavg
sesdackvg
sestheartvg
wsl@SEST1:/home/wsl>lsvg">sl@SEST1:/home/wsl>lsvg -l rootvg
rootvg:
LV NAME TYPE LPs PPs PVs LV STATE
hd5 boot 1 2 2 closed/syncd
hd6 paging 64 128 2 open/syncd
hd8 jfs2log 1 2 2 open/syncd
hd4 jfs2 4 8 2 open/syncd
hd2 jfs2 16 32 2 open/syncd
hd9var jfs2 8 16 2 open/syncd
hd3 jfs2 16 32 2 open/syncd
hd1 jfs2 20 40 2 open/syncd
#syncvg ---修复卷组,参数适时配置
#lsps -s ---内存交换分区使用状态
原则上不要超过80%,超过就要加产换分区或加内存
示例:
#lsps -s
Total Paging Space Percent Used
16384MB 1%
# 用lsfs查看所有文件系统有无异常。
示例:
#lsfs
Name Nodename Mount Pt VFS Size Options Auto Accounting
/dev/hd4 -- / jfs2 2097152 -- yes no
/dev/hd1 -- /home jfs2 10485760 -- yes no
/dev/hd2 -- /usr jfs2 8388608 -- yes no
/dev/hd9var -- /var jfs2 4194304 -- yes no
若 VFS 列参数显示为???,即odm对某个文件系统的记录与超极块记录不同步。
解决方法:synclvodm lvname和syncvg -v vgname
存储管理
a) VG的管理:
#lsvg vgname; lsvg -l vgname; lsvg -p vgname
示例:
#lsvg -l rootvg
rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 1 1 1 closed/syncd N/A
...
lv00 jfs 51 102 1 closed/stale /ibmcxx
lv01 jfs 1 1 1 open/syncd /cics_regions
lv02 jfs 4 4 1 open/syncd /var/mqm
b) LV的管理:
#lslv lvname; lslv -l lvname; lslv -m lvname
c) PV的管理:
#lspv pvname; lspv -l pvname; lspv -p pvname
*****************************************************************************
异常情况下的信息收集,可FTP至本地分析:
errdemon ---记录的是硬件、软件等其它操作信息
#more /var/adm/ras/errlog ---故障记录文件
#more /etc/security/failedlogin ---记录失败login的log。用who命令读取此文件;
#more /var/adm/sulog ---记录su的log;用more命令读取此文件;
故障记录文件:/var/adm/ras/errlog 可查看
需要检查某个用户最后来自登陆的IP;
#cat /etc/security/lastlog
系统出现故障也可以有自带的诊断程序:
运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。
当发现有硬件故障时应立即使用diag
#diag
> 选高级诊断(Advance Diagnostic)
> 选问题诊断(Problem Determination) 或
选系统检查(System Verification)
(选PD 会对系统错误记录进行分析)
diag运行后会给出SRN 代码,故障设备名称及百分比,
地址代码等。对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。
*****************************************************************************