Chinaunix首页 | 论坛 | 博客
  • 博客访问: 183715
  • 博文数量: 30
  • 博客积分: 1625
  • 博客等级: 上尉
  • 技术积分: 480
  • 用 户 组: 普通用户
  • 注册时间: 2006-02-13 10:09
个人简介

选择it 学习it 使用it

文章分类

全部博文(30)

文章存档

2015年(1)

2013年(2)

2012年(2)

2011年(8)

2010年(2)

2009年(4)

2008年(11)

我的朋友

分类: 系统运维

2011-10-04 08:57:57

关于AIX(RS/6000)日常维护基本查看命令释解
 
——————————————————————————————————————
   因为我的环境如此,所以在此列出基本Pseries上操作,简单概念:
 
RS/6000上是IBM的UNIX系统,是开放平台,叫AIX, 目前最新版本是6,主流版本是5.3(P系列就是指RS6000)

AS400上是IBM自已开发的封闭式的操作系统,叫OS/400, 目前主流版本是v5r3.
 
我的系统版本:Welcome to AIX Version 6.1! Copyright IBM Corporation, 1982, 2010
 
系统维护在于日常的检查,非常重要,发现潜在的问题并给予解决,让业务无任何影响,是根本.
 
所以系统日常检查(日周月等检查类型)、故障处理(按需制定变更类型)、业务恢复与跟进。
*********************************************************************************
系统检查类:
 
查看硬件外部状态及情况:
 
故障灯颜色、异常报警、电缆连接情况、位置异常、机房整体环境等
 
一、查看系统维护的基本信息
#w
  03:29PM   up 13 days,   9:25,  1 user,  load average: 0.47, 0.77, 0.98(系统负载情况)
User     tty          login@       idle      JCPU      PCPU what
wsl   pts/0       03:25PM          0         0         0 w
#hostname                      
#id                                 ---核对主机名与ID等基本信息
 
示例:
l@SEST1:/home/wsl>hostid
0xec1d2a64

@SEST1:/home/wsl>hostname">sl@SEST1:/home/wsl>hostname
SEST1
 
l@SEST1:/home/wsl>uname'>l@SEST1:/home/wsl>un">sl@SEST1:/home/wsl>uname -a
AIX SEST1 1 6 00FADFS64C0D0
 
#mail                               ---查看是否有异常信息发给用户
#errpt|more                        ---查看系统出错或各类提示信息
T:P永久;T临时  U未知
C:H硬件;S软件;O用户(operate);U未知(unknown)
是U的都要跟进处理。
#errpt -d H                        ---列出所有硬件异常信息
#errpt -d S                        ---列出所有软件异常信息
#errpt -aj XXX(ERROR_ID)         ---列出该错误的详细信息
#df -k                             ---查看各个文件系统情况,正常各文件系统不应超过90%
#netstat -i 3                     ---检查网络的畅通情况
同时还可以看与前面显示的主名进行核对,看主机名是否有对应的有IP
#netstat -i |grep SEST1             ---可以看到本主机名有IP物理IP指向的
                                          lerrs/lpkts 和 oerrs/opkts是否>1%
 
示例:
wsl@SEST1:/home/wsl>netstat -i
Name  Mtu   Network     Address            Ipkts Ierrs    Opkts Oerrs  Coll
en0   1500  link#2      0.a1.5e.aa.84.dc 93428309     0 19392911     3     0
en0   1500  9.29.40   SEST1_boot1      93428309     0 19392911     3     0
en0   1500  9.29.42   SEST1_svc        93428309     0 19392911     3     0
en2   1500  link#3      0.a1.5e.ba.45.72  2976787     0 43366894     3     0
 
#netstat -rn                      ---检查路由是否正确
#ping XXXXXXX                     ---检查出口或对外连通性正常与否,是否有掉包现象
#lssrc -a|ps -ef                  ---检查系统进程是否有异常
如果有异常,用这几个命令处理,参数适时配置。
stopsrc 停卡服务
#stopsrc -h zork -s srctest -f
startsrc启动服务
#startsrc -g tcpip -h zork
refresh更新服务
#refresh -g tcpip
 
示例:
  UID     PID    PPID   C    STIME    TTY  TIME CMD
 root       1       0   0   Sep 21      -  0:08 /etc/init
 root 1507502       1   0   Sep 21      -  0:00 /usr/dt/bin/dtl
 
二、更深入一步查看系统信息
#lsdev -C                          ---系统设备信息
hdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drive
hdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drive
hdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive
 
#lsvg -l xxx                       ---检查卷组信息
发现“stale”就是可能有异常情况
 
示例:
 
#lsvg
rootvg
sesdatavg
sesdackvg
sestheartvg
wsl@SEST1:/home/wsl>lsvg">sl@SEST1:/home/wsl>lsvg -l rootvg
rootvg:
LV NAME             TYPE       LPs     PPs     PVs  LV STATE
hd5                 boot       1       2       2    closed/syncd
hd6                 paging     64      128     2    open/syncd
hd8                 jfs2log    1       2       2    open/syncd
hd4                 jfs2       4       8       2    open/syncd
hd2                 jfs2       16      32      2    open/syncd
hd9var              jfs2       8       16      2    open/syncd
hd3                 jfs2       16      32      2    open/syncd
hd1                 jfs2       20      40      2    open/syncd
 
#syncvg                            ---修复卷组,参数适时配置
#lsps -s                           ---内存交换分区使用状态
原则上不要超过80%,超过就要加产换分区或加内存
示例:
#lsps -s
Total Paging Space   Percent Used
      16384MB               1%
 
# 用lsfs查看所有文件系统有无异常。
示例:
#lsfs
Name            Nodename   Mount Pt               VFS   Size    Options    Auto Accounting
/dev/hd4        --         /                      jfs2  2097152 --         yes  no
/dev/hd1        --         /home                  jfs2  10485760 --         yes  no
/dev/hd2        --         /usr                   jfs2  8388608 --         yes  no
/dev/hd9var     --         /var                   jfs2  4194304 --         yes  no

若 VFS 列参数显示为???,即odm对某个文件系统的记录与超极块记录不同步。
解决方法:synclvodm lvname和syncvg -v vgname
存储管理
a) VG的管理:
#lsvg vgname; lsvg -l vgname; lsvg -p vgname
示例:
#lsvg -l rootvg
rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 1 1 1 closed/syncd N/A
...
lv00 jfs 51 102 1 closed/stale /ibmcxx
lv01 jfs 1 1 1 open/syncd /cics_regions
lv02 jfs 4 4 1 open/syncd /var/mqm
b) LV的管理:
#lslv lvname; lslv -l lvname; lslv -m lvname
c) PV的管理:
#lspv pvname; lspv -l pvname; lspv -p pvname
*****************************************************************************
异常情况下的信息收集,可FTP至本地分析:
errdemon                             ---记录的是硬件、软件等其它操作信息
#more  /var/adm/ras/errlog       ---故障记录文件
#more /etc/security/failedlogin ---记录失败login的log。用who命令读取此文件;
#more  /var/adm/sulog             ---记录su的log;用more命令读取此文件;
故障记录文件:/var/adm/ras/errlog 可查看
 
需要检查某个用户最后来自登陆的IP;
#cat /etc/security/lastlog
 
系统出现故障也可以有自带的诊断程序:
运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。
当发现有硬件故障时应立即使用diag
#diag
> 选高级诊断(Advance Diagnostic)
> 选问题诊断(Problem Determination) 或
选系统检查(System Verification)
(选PD 会对系统错误记录进行分析)
diag运行后会给出SRN 代码,故障设备名称及百分比,
地址代码等。对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。
*****************************************************************************
阅读(1925) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~