2011年(20)
分类: 系统运维
2011-03-05 10:51:27
AIX学习笔记
一、系统安装完成后,手工安装以下fileset :
1、将AIX作系统的第一张CD插入CD-ROM 驱动器,在系统提示处输入快速路径smitty install_all。在Input device / directory for software 选项中按F4 选择/dev/cd0。在SOFTWARE to install选项中键入:
bos.acct
bos.data
bos.rte.control
perfagent.tools
bos.dosutil
bos.perf
bos.net
bos.sysmgt
bos.adt
2、在安装完上述软件包后,需要给系统打补丁。使用随AIX系统盘所带的Update CD或从IBM得到的最新的补丁盘。插入CD-ROM 驱动器,在系统提示处输入快速路径smitty update_all,在 Input device / directory for software 选项中按F4 选择/dev/cd0,将COMMIT software updates?选择 no ,将SAVE replaced files? 选择 yes 。服务更新完毕后按F10 退出。这可以保证在新的补丁出现问题时,可以退回以前的版本。当此补丁稳定运行了一段时间后,可以commit它。
3、可用如下命令检查当前系统所打的补丁:
# instfix -i | grep ML
二、磁带机清洁的检查命令:#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n
显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
三、AIX内核属于动态内核,核心参数基本上可以自动调整,因此当系统安装完毕后,应考虑修改的参数一般如下:
A、单机环境
1、系统用户的最大登录数maxlogin
maxlogin的具体大小可根据用户数设定,可以通过smitty chlicense命令修改,该参数记录于/etc/security/login.cfg文件,修改在系统重新启动后生效。
2、系统用户的limits参数
这些参数位于/etc/security/limits文件中,可以把这些参数设为-1,即无限制,可以用vi 修改/etc/security/limits文件,所有修改在用户重新登录后生效。
default:
fsize = 2097151 ----》改为-1
core = 2097151
cpu = -1
data = 262144 ----》改为-1
rss = 65536
stack = 65536
nofiles = 2000
3、Paging Space
检查paging space的大小,在物理内存<2G时,应至少设定为物理内存的1.5倍,若物理内存>2G,可作适当调整。同时在创建paging space时, 应尽量分配在不同的硬盘上,提高其性能。利用smitty chps修改原有paging space的大小或smitty mkps增加一块paging space。
4、系统核心参数配置
利用lsattr -Elsys0 检查maxuproc, minpout, maxpout等参数的大小。maxuproc为每个用户的最大进程数,通常如果系统运行DB2或ORACLE是应将maxuproc调整,Default:128、调整到500,maxuproc增加可以马上起作用,降低需要AIX重起。当应用涉及大量的顺序读写而影响前台程序响应时间时,可考虑将maxpout设为33, minpout设为16,利用smitty chgsys来设置。
5、文件系统空间的设定
一般来说,系统的文件系统/、/usr、/var、/tmp的使用率不要超过80%,/tmp建议至少为300M,文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统,如/ (根文件系统)满则会导致用户不能登录。用df 查看。
# df -k (查看AIX的基本文件系统)
Filesystem 1024-blocks Free %Used Iused %Iused Mounted on
/dev/hd4 24576 1452 95% 2599 22% /
/dev/hd2 614400 28068 96% 22967 15% /usr
/dev/hd9var 8192 4540 45% 649 32% /var
/dev/hd3 167936 157968 6% 89 1% /tmp
/dev/hd1 16384 5332 68% 1402 35% /home
利用smitty chfs扩展文件系统的空间。
6、激活SSA Fast-Write Cache
利用smitty ssafastw来激活每一个逻辑盘hdiskn的Fast-Write Cache:选择硬盘后,把Enable Fast-Write一项改为Yes后回车即可。
7、激活AIO
AIO通常只对文件系统起作用,对裸设备没有作用。最大为10X并行磁盘数<80,最小为最大的一半。
a、定义系统中的AIO设备
smit aio -> Configure Defined Asynchronous I/O 然后回车执行;
b、激活系统中的AIO设备
smit aio -> Change / Show Characteristics of Asynchronous I/O回车出现AIO配置对话框,将对话框中〔STATE to be configured at system restart〕域选择为“available”,然后回车执行;
注:系统会提示只有在重起后才能生效。
8、rootvg镜像
因为rootvg损坏系统将无法运行,即使通过备份磁带恢复,也会造成系统停机,因此在磁盘空间充裕的情况下,可考虑对rootvg作镜像,同时在建立rootvg镜像时应尽量使用连接在不同SCSI 上的硬盘以做到负载均衡。利用smitty mirrorvg修改。
B、双机环境
在双机环境中,除了考虑上述参数设置外,还需考虑:
1、 High water mark for pending write I/Os per file(maxpout) 和Low water mark for pending write I/Os per file
它们缺省值为0,在双机环境中一般应设High water mark为33,Low water mark为24,这两个参数可用smitty chgsys来设置。
2、 syncd daemon的数据刷新频率
该值表示刷新内存数据到硬盘的频率,缺省为60,一般可改为20,也可根据实际情况更改。该参数通过vi /sbin/rc.boot更改,其中一行如下:
nohup /usr/sbin/syncd 60 >/dev/null 2>&1 &
改为:
nohup /usr/sbin/syncd 20 >/dev/null 2>&1 &
四、IBM RS/6000巡检内容及操作指导
1. IBM RS6000小型机机房要求:
a. 机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。
b. 温度(摄氏 ℃):10 ℃-40℃ ,湿度(%):8% -80%
2. 设备故障灯分类:主机故障灯
面板上不能有数字显示,如果有的话,说明系统有故障。
7133磁盘阵列故障灯
告警灯为黄色表示有故障
磁带机故障灯
告警灯为黄色说明有故障或磁带机太脏,须清洗。
3. 系统错误报告(Error Log)的检查:
硬件故障检测命令:# errpt -d H -T PERM
若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户
软件故障检测命令:# errpt -d S -T PERM
若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果报告给客户
4. 有否发给root用户的错误报告(mail):#mail
a. 观察所有未读消息,注意有关diagela的消息。
b. 常用命令:
h [] Display headings of group containing message
t [] Display messages in or current message.
n Display next message.
q Quit
c. 对发现的问题详细分析,结果报告给客户
5. 件系统的检查:命令:# df –k
%Used为文件系统的使用率。所有文件系统的使用率不能大于80%
6.磁带机清洁的检查:命令:
#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n
显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
7. 信系统的检测:
a. 网卡的状态:命令:
#ifconfig –a
输出判断:
en0: flags=e080863
inet 192.9.200.2 netmask 0xffffff00 broadcast 192.9.200.255
en1: flags=e080863
inet 192.9.201.1 netmask 0xffffff00 broadcast 192.9.200.255
主备网卡的flag为UP属正常。同时检查ip地址和netmask是否正确。
b. 路由的检测
命令:
#lsattr –El inet0
authm 65536 Authentication Methods True
hostname h24 Host Name True
gateway Gateway True
route net,,0,172.16.23.81 Route True
bootup_option no Serial Optical Network Interface True
rout6 FDDI Network Interface True
c. 络的检测
命令:
#ping [ip address]
输出判断:
用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。
RAID 的Hotspare 属性是否打开
#smitty ssaraid? Change/Show Attributes of an SSA RAID Array
检查Enable Use of Hot Spares属性是否为YES
8.系统DUMP设置的检查
命令:
#sysdumdev –l
输出判断:
结果应为
primary /dev/hd6
secondary /dev/sysdumpnull
copy directory /var/adm/ras
forced copy flag TRUE
always allow dump FALSE
dump compression OFF
若不正确请用下列命令修改:
#sysdumdev –P –p /dev/hd6 –s /dev/sysdumpnull
9.HACMP 配置检测: Cluster Verification:
命令:
# /usr/sbin/cluster/diag/clconfig -v '-tr'
输出判断:
结果无Fail项输出。
10.系统硬件诊断:
命令顺序为:
1.#diag
2.Enter
3.Diagnostic Routines
4.System Verification
5.All Resources
6.F7
输出判断:
结果应为No trouble was found.
11.补丁程序(PTF)的检查
系统维护补丁版本为ML09,检查命令为:#instfix –i |grep ML
12.系统参数的检查
a.HIGH water mark for pending write I/Os
# lsattr -El sys0 |grep maxpout
输出判断:
结果应为
maxpout 33 HIGH water mark for pending write I/Os per file True
b.LOW water mark for pending write I/Os
# lsattr -El sys0|grep minpout
输出判断:
结果应为
minpout 24 LOW water mark for pending write I/Os per file True
更改命令为:
#chdev -l sys0 -a maxpout='33' -a minpout='24'
c.Syncd参数
# grep syncd /sbin/rc.boot
输出判断:
结果应为
nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &
更改命令为:
#vi /sbin/rc.boot
d.aio参数
# lsdev -Cc aio
输出判断:
结果应为
aio0 Available Asynchronous I/O
# lsattr -El aio0
输出判断:
结果应为
minservers 1 MINIMUM number of servers True
maxservers 10 MAXIMUM number of servers True
maxreqs 4096 Maximum number of REQUESTS True
kprocprio 39 Server PRIORITY True
autoconfig available STATE to be configured at system restart True
fastpath enable State of fast path True
更改命令为:
#smitty aio
e.Limits文件的设置:
#ulimit –a
输出判断:
结果应为
time(seconds) unlimited
file(blocks) 2097151
data(kbytes) 262144 //尤其是这项参数
stack(kbytes) 32768
memory(kbytes) 32768
coredump(blocks) 2097151
nofiles(descriptors) 2000
更改命令为:
#vi /etc/security/limits
更改data为524288
五、ssa卡的电池可以用如下命令看ssa卡电池的寿命:
/usr/lpp/diagnostics/bin/ssa_fw_status -a ssan
六、dump device空间不够:
1,用sysdumpdev -l看dump device 。
2,用sysdumpdev -e估计dump 的大小。
3,根据需要扩dump device的大小。
七、查看/var里文件所占的比例:
1、cd /var
2、du -a|sort -rn|more
八、JFS LOG的大小:
1、JFS LOG最大到256MB。
2、2MB JFS LOG可以支持大小为4GB的文件系统。
3、1个100GB的文件系统未必一定需要50MB的JFS Log,还要取决于该文件系统的文件数量和修改的平凡程度。
4、多个文件系统可以使用同一个JFS LOG,但是,当对于非常繁忙的文件系统,应该建立其各自的JFS LOG,并且尽可能地将JFS LOG放在不同的PV上。另外,建议大家在一些复杂的环境中应该尽可能的在创建文件系统时避免使用系统自动创建的JFS LOG: loglvxx,应该专门将loglvxx按照命名规则改名或另行创建新的JFS LOG,这样可以避免在不同的系统中importvg时出现LV重名的情况。
九:查找大于某一字节的文件的方法:
find -size +文件大小,-size 寻找的文件大小是以512 bytes 计算的,如找大于15MB文件用 :find / -size +30720