aix管理总结-bamboo789-ChinaUnix博客

斑竹园wangyuying.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

bamboo789

博客访问： 1483311
博文数量： 122
博客积分： 340
博客等级：一等列兵
技术积分： 2967
用户组：普通用户
注册时间： 2009-04-01 11:50

个人简介

斑竹网络专注为中小企业客户提供以管理服务为核心的IT全方位服务 https://www.sysadm.cn

文章分类

全部博文（122）

数据库技术（12）

oracle（3）

mysql（9）
程序设计（3）

shell（3）
系统运维（92）

Wiki（1）

puppet（1）

Zabbix（9）

windows2003（3）

solaris（3）

虚拟化（0）

个人感悟（1）

hadoop（0）

lfs（1）

AIX（2）

postfix（0）

freeBSD（2）

websphere（3）

mq（1）

tomcat（0）

qmail（7）

nginx（1）

nagios（0）

linux系统运维（49）

jboss（2）

java（1）

git（1）

exchange2003（1）

apache（2）

运维理论（1）
网络技术（3）

cisco（0）

网络理论（1）

华赛（1）

juniper（1）
系统集群（0）

linux（0）
转载（3）

apache（0）

网站运维（3）
linux系统运维（3）

postfix（1）
PHP程序设计（0）
随笔（2）
C语言程序设计（4）

源程序（3）
linux（0）
未分配的博文（0）

文章存档

2018年（2）

2017年（1）

2015年（2）

2014年（30）

2013年（81）

2011年（5）

2009年（1）

我的朋友

相关博文

aix管理总结

分类： AIX

2013-12-03 14:01:29

一、AIX系统数据安全措施
　　在IBM小型机硬件配置期间，就应该考虑数据的安全性，系统资源的配置要满足容错处理的要求。主要应考虑以下几点：

①生产主机发生硬件故障后，备机可以马上自动接管应用系统；
　　②提高操作系统的硬件冗余，尽量减少单点故障对系统的影响；
　　③加强系统备份，减少系统版本升级造成的影响。
　　针对以上要求，可以采取一些安全措施，主要是硬件资源的冗余备份、系统软件和应用软件的合理分布以及高可靠性集群软件的使用。我们的经验是：把AIX操作系统和HACMP(High Availability Cluster Multi-Processing)软件安装在rootvg上，因为rootvg损坏，系统将无法运行，即使通过备份磁带恢复，也会造成系统停机。因此在磁盘空间充裕的情况下，可考虑对rootvg作镜像。具体做法是将主机的两块内置硬盘做rootvg镜像，这样可提高系统的安全性，防止单块硬盘损坏对系统的影响，即使内置硬盘坏了一块，系统仍可正常运行。在建立rootvg镜像时，应尽量使用连接在不同SCSI上的硬盘，以做到负载均衡。另外，为提高系统的容错能力，可对磁盘阵列上的硬盘进行镜像配置（RAID０）或RAID５冗余配置，配置为datavg，在上面安装数据库和应用程序。为提高节点可靠性，可搭建HACMP集群环境，做到双机热备，即在２台互为备份的主机上配置HACMP参数，满足系统热备要求。在日常操作方面，要做好系统备份工作，定期对生产机做两个或两个以上的介质备份。

１．rootvg的配置
　　将hdisk０和hdisk１做成mirror，配置为rootvg。
　　①把hdisk０、hdisk１加到rootvg：smitty extentvg hdisk１、hdisk０ →rootvg。
　　②做mirror：mirrorVG －ｃ２ rootvg。
　　③在hdisk０、hdisk１上创建boot IMAGE:bosboot -ad hdisk０，bosboot -ad hdisk１。
　　④改变启动设备的顺序：bootlist -m normal hdisk０，hdisk１ cd0
　　
　　２．HACMP工作原理
　　 HACMP主要是对群集（cluster）资源的管理，根据应用复杂程度和配置的不同，其群集资源的接管时间在30秒到300秒不等，完全不需要人工干预。一个群集中的资源通常包括：应用程序、硬盘、卷组（VG）、文件系统、NFS文件系统、IP地址等。资源分属三类资源组（Resource Group）：层递式（Cascading）、替换式（Rotating）、同时存取式（Concurrent）。不同类型的资源组对应不同的接管方式。一个群集中可以有几个资源组，它们可以分别是不同类型，因此，资源接管的方式可以多种多样，配置十分灵活。
　　我们一般采用的是层递式方式，即热备份工作方式，其工作原理是：NodeA和NodeＢ都是资源组ａ的成员，该资源组ａ被设置成层递式方式，NodeＡ对其拥有最高优先级。因此NodeＡ在群集中处于active状态时，它会控制资源组ａ中的所有资源，此时NodeＢ处于闲置（idle）状态，仅当NodeＡ down掉时，NodeＢ才会接管资源组ａ，一旦NodeＡ重新加入群集，NodeＢ将释放资源组ａ?NodeＡ重新取得控制权。NodeＢ发生任何故障，不会造成任何影响。

二、AIX系统维护经验
　　
　　１．故障信息的收集
　　收集故障信息对于判断、诊断故障原因，修复系统非常重要。我们通过检查系统错误报告?errorlog?、发给root用户的错误报告mail和检查HACMP.out、smit.log、boot.log等内容来判断系统是否发生故障，根据故障信息进行相应的处理。
　　（１）系统故障记录
　　 errdemon 进程在系统启动时自动运行，记录包括硬件、软件及其他操作信息，故障记录文件为/var/adm/ras/errlog，可备份下来或拷贝到别的机器上分析，使用errpt 命令（普通用户权限也可使用）。
　　 #errpt |more 列出简短出错信息
　　 #errpt -d H 列出所有硬件出错信息
　　 #errpt -d S 列出所有软件出错信息
　　 #errpt -aj ERROR_ID 列出详细出错信息
　　（２）控制面板上的LED代码
　　（３）SMS(System Management Service)故障记录
　　当主控台出现键盘图标后（LED显示“E1F1时”）按1键。选择“Utilities”，选择“Error log”，抄下８位故障代码。
　　（４）Mail检查
　　系统出现故障后会向root用户发mail，报告出错信息。通常系统出现故障后没有进行检查修复，系统还会定时以mail方式提醒root用户。
　　（５）运行故障诊断程序
　　对系统硬件进行检查和诊断，当发现有硬件故障时应立即使用diag。
　　 #diag
　　＞选高级诊断（Advanced Diagnostic）
　　＞选问题诊断（Problem Determination）或选系统检查（System Verification）
　　 diag运行后会给出ＳＲＮ代码、故障设备名称及百分比数、地址代码等。
　　（６）其他用于收集系统信息的命令
　　  lsdev -C 系统设备信息
　　  lspv 查看物理卷信息
　　  lsvg 查看卷组信息
　　  lslpp 查看文件组信息
　　  lsattr 查看设备参数设置
　　  lscfg 查看VPD（Virtual Product Data）信息
　　
　　２．系统硬件故障定位
　　    IBM 小型机硬件故障定位方法包括小型机机柜上的显示面板上的Checkpoints信息，Error Code和SRNs。Checkpoints检查点是系统加电CMOS初始化程序   （IPL,Initial Program Load）运行后显示在机柜的显示面板上一系列信息。
　　IPL流程如下：当系统加电后，自动进入IPL流程，IPL流程包括4个步骤，
　　①Service Processor的初始化，始于系统加电，直到OK显示在机柜上的显示面板上为止。这个步骤会显示8***或9*** Checkpoints代码。
　　②由Service Processor引导的硬件初始化，始于按下机柜上的白色电源开关。这个步骤会显示9*** Checkpoints。“91FF”是最后的代码，标志着第３步的开始。
　　③系统固件的初始化，一个系统处理器接管控制并继续初始化系统资源，这个步骤会显示E***。“E105”是最后的代码，标志着第4步骤AIX启动的开始。在这个过程中还会显示各种位置码（位置码代表着系统的每一个部分）。
　　④AIX启动，当AIX开始启动时，显示面板上的代码为0***，同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时，第4步骤结束，同时显示面板上再无任何信息显示。
　　    当系统运行发现错误时，SRNs码（Service request numbers，服务请求码）会以***-***的形式显示在显示面板上，同时在AIX的errorlog中也会进行登记；当SSA磁盘柜出现故障时，在磁盘柜前面板的液晶显示屏上会显示相应的SRNs，同时黄色的显示灯会闪动，在AIX的errorlog中会登记相应错误信息，在出现问题后记录下代码，并告之IBM公司解决。
　　
　　3．软件问题处理
　　软件故障情况错综复杂，下面列举几个常见的故障处理方法。
　　（１）文件系统空间不够
　　查看有没有“满”的文件系统。特别是/、/var、/tmp，不要超过90%。文件系统满可导致系统不能正常工作，尤其是AIX的基本文件系统。如 / 根文件系统满则会导致用户不能登录。用df -k查看。
　　 # df -k 查看AIX的基本文件系统
　　除/usr文件系统，其他文件系统都不应太满，一般不超过80%。
　　处理方法1：删除垃圾文件
　　 #du –sk |sort –rn |head

查找出当前目录下占空间最大的子目录，逐层往下直到找出占空间最大的文件（要区分哪些目录是文件系统的 mount point，哪些是文件系统的子目录）。删除文件，释放空间。有时删除文件后空间并不马上释放，这是由于删除的文件正被某个程序打开。只有当这个程序停止后，空间才释放，有时甚至需要重启系统。
　　处理方法2：增加文件系统大小
　　 # smitty chjfs
　　只要卷组VG中有剩余空间，文件系统可以在任何时候加大。
　　（２）检查文件系统的完整性
　　 # umount filesystem_name
　　 # fsck -y filesystem_name
　　注意：文件系统必须先umount，再做检查和修复，否则将导致未知的后果。
　　（３）查看卷组信息
　　查看是否有“stale”状态的逻辑卷。若有，用syncVG命令修复。
　　（４）检查内存交换区使用率
　　检查使用率是否超过70%，若超过则用chps -sX pgname增加X个PP或用 mkps -a -n -sX myVG在myVG上增加一个PP数为X的内存交换区。
　　（５）小型机内存泄漏问题
　　小型机出现内存泄漏，即系统或应用进程无法将使用过的内存释放，使可用内存的容量逐渐减少。如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程，就会造成系统瘫痪。通常我们可以用ps和sar命令来查看小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的发展趋势。使用ps命令，可查看内存和CPU占用率的基本情况。找出其中占用内存数不断变大的进程，这个进程可能就已经发生了内存泄漏。
　　
　　４．IBM HACMP 双机热备系统的管理和维护
　　（１）HACMP 双机系统的启动
　　以root用户身份分别进入系统各节点，执行# smit clstart命令。
　　（２）HACMP 双机系统的关闭
　　以root用户身份分别进入系统各节点，执行#smit clstop命令。
　　（３）查询HACMP 双机系统的状态
　　在双机系统的运行中，操作员只有知道双机系统的当前状态，才有可能对双机系统出现的异常情况进行恢复处理，保证双机系统的高可用性和高容错性。查询HACMP双机系统的状态，以root用户身份进入需要查询的节点，用# lssrc -g cluster命令检查HACMP双机软件在该节点是否已启动，系统显示3个active的信息，则说明HACMP 双机软件已正常启动。
　　在确认双机软件HACMP 正常启动的情况下，在命令行执行# /usr/sbin/cluster/clstat -a命令查看双机系统的当前状态。
　　
　　５．网络故障处理
　　（１）网络不通的诊断过程
　　 ifconfig 查看网卡是否启动（up）；netstat -i查看网卡状态；Ierrs/Ipkts和Oerrs/Opkts是否>1%；ping本机网卡地址；ping其他机器地址，如不通，在其机器上用diag检测网卡是否有问题。
　　在同一网中，子网掩码应一致。
　　（２）网络配置的基本方法
　　 ①如需修改网络地址、主机名等，一定要用chdev 命令。
　　 # chdev –l inet0 -a hostname=myhost
　　 # chdev -l en0 -a netaddr=‘112.0.15.1’ -a netmask=‘255.255.255.0’
　　 ②查看网卡状态：# lsdev -Cc -if
　　 ③确认网络地址：# ifconfig en0
　　 ④启动网卡：# ifconfig en0 up
　　 ⑤配置路由，有两种方式加入路由：
　　 a．永久路由
　　 # chdev -l inet0 -a route=‘112.1.15.2’,’112.0.15.254’
　　 b．临时路由
　　 # route add 112.1.15.2 112.0.15.254
　　用命令 netstat -rn 查看路由表
　　
　　６．IBM公司的巡检流程
　　 IBM公司的巡检流程，对我们日常维护应重点关注的事项有所帮助，大家可以借鉴一下。
　　（１）检查系统硬件情况：设备故障灯是否亮。
　　（２）系统错误报告。
　　（３）检查是否有发给root用户的错误报告。
　　（４）检查HACMP.out,smit.log,boot.log。
　　（５）关键系统的文件使用率不大于80%。
　　（６）逻辑卷有否stale。
　　（７）内存交换区使用率是否超过70％。
　　（８）内存交换区的大小是否为物理内存的1.5倍。
　　（９）检查备份情况（是否有系统备份、用户数据备份，磁带机是否需要清洗）。
　　（１０）检查通信设置（网卡、IP、路由表、ping、/etc/hosts、DNS设置等）。
　　（１１）是否有数据保护方式如RAID１０/RAID５?是否有HotSpare。
　　（１２）系统DUMP设置是否正确。
　　（１３）检查系统参数是否正确。
　　（１４）检查rootvg是否镜像。
　　（１５）检查errdemon srcmstr是否正常运行。
　　（１６）检查机房环境（电压、湿度）。
　　（１７）检查系统性能：是否存在性能瓶颈?topas vmstat?。
　　（１８）检查补丁程序（PTF）、微码（是否需要升级）。
　　（１９）进行HACMP测试：Cluster Verification。
　　（２０）进行系统硬件诊断：运行故障诊断程序（Diagnostic）。

三、AIX系统参数优化
　　 AIX内核属于动态内核，核心参数基本上可以自动调整，因此当系统安装完毕后?应考虑修改的参数一般包括以下内容。
　　
　　１．系统用户的最大登录数maxlogin
　　 maxlogin的具体大小可根据用户数设定，可以通过smitty chlicense命令修改，该参数记录在/etc/security/login.cfg文件中，修改在系统重新启动后生效。
　　
　　２．系统用户的limits参数
　　这些参数位于/etc/security/limits文件中，可以把这些参数设为-l?即无限制，可以用vi修改/etc/security/limits文件，所有修改在用户重新登录后生效。
　　
　　３．PagingSpace
　　检查PagingSpace的大小，在物理内存<2G时，应至少设定为物理内存的1.5倍，若物理内存>2G，可作适当调整。同时在创建PagingSpace时? 应尽量分配在不同的硬盘上，提高其性能。利用smitty chps修改原有PagingSpace的大小或利用smitty mkps增加一块PagingSpace。
　　
　　４．系统核心参数配置
　　利用lsattr -Elsys0检查maxuproc，minpout，maxpout等参数的大小。maxuproc为每个用户的最大进程数?通常如果系统运行Oracle应调整maxuproc，将Default:128调整到500，maxuproc增加可以马上生效。当应用涉及大量的顺序读写而影响前台程序响应时间时，可考虑将maxpout设为33?minpout设为16，用smitty chgsys命令设置。
　　
　　５．文件系统空间的设定
　　一般来说，文件系统/、/usr、/var、/tmp的使用率不应超过80%，/tmp建议至少为300M，文件系统满将导致系统不能正常工作，尤其是AIX的基本文件系统，如/?根文件系统?满则会导致用户不能登录。用df 查看:#df -k（查看AIX的基本文件系统），利用smitty chfs扩展文件系统的空间。
　　
　　６．激活SSA Fast -Write Cache
　　利用smitty ssafastw激活每一个逻辑盘hdiskn的Fast -Write Cache:选择硬盘后，把Enable Fast -Write改为Yes后，回车即可。
　　
　　７．Hign water mark for pending write I/Os per file?maxpout?和Low water mark for pending write I/Os per file配置
　　其缺省值为0，在双机环境中一般应将Hign water mark设为33?Low water mark设为24，这两个参数可用smitty chgsys来设置。
　　
　　８．syncd daemon的数据刷新频率
　　该值表示刷新内存数据到硬盘的频率，缺省值为60，一般可改为20，也可根据实际情况更改。该参数通过/sbin/rc.boot配置，将nohup/usr/sbin/syncd 60>/dev/null 2>&1&参数中的60改为20即可。

四、AIX系统备份和恢复
　　备份和恢复是系统管理员经常要做的事情，主要包括rootvg备份和用户数据备份。
　　
　　１．操作系统和系统程序的备份
　　 #tctl -f /dev/rmt0 rewind
　　 #smit mksysb
　　在“备份设备或文件”中添入“/dev/rmt0”后回车，系统会运行很长时间，等到屏幕显示OK后拿出磁带。这时候，系统备份完成。mksysb仅备份rootvg中已安装的文件系统。
　　
　　２．用户数据备份
　　（１）常用磁带机选项
　　 /dev/rmt0? 若选择/dev/rmt0，在插入磁带和写完一次磁带时，磁带机都将磁带反绕到头。因此?下一次备份文件将覆盖本次备份。
　　 /dev/rmt0.1?若选择 /dev/rmt0.1?则插入磁带和写完一次磁带时，磁带机均不反绕磁带。因此，一盘磁带可以连续备份几个文件或文件系统。
　　（２）#smit fs
　　　选择“备份文件系统”，输入要备份的“文件系统名称”，输入“/dev/rmt0.1”，重复上述操作即可在同一盘磁带上备份多个文件系统。
　　
　　３．rootvg的恢复
　　启动机器进入维护模式，当出现“Welcome to Base Operating System Installation and Maintanence”时，选3 “Start Maintenance Mode for System Recovery”，要恢复系统，继续选4“Install from a System Backup”，出现“Choose mksysb Device”画面，选“/dev/rmt0”并插入磁带后回车，系统自动恢复操作系统。
　　
　　４．用户数据恢复
         #tctl -f /dev/rmt0 rewind
         #smit fs
         选择“恢复文件系统”，添入“设备名称”和“目标目录”，系统会自动恢复相应目录。

五、AIX系统日常检查
　　 AIX系统日常检查工作是应用维护非常重要的部分，可以把系统故障排除在萌芽阶段，以下日常检查很有参考价值。
　　（１）硬件检查
　　检查各指示灯状态和各物理设备的可用情况。
　　（２）进程检查
　　检查是否有死进程，使用ps -ef命令列出正在运行的所有进程的各种信息。
　　（３）文件系统是否满
　　适用df -k命令可以以k为单位检查文件系统的使用率。
　　（４）检查系统出错日志
　　使用errpt |more令检查，清除现有的log?Errclear 0。
　　（５）检查系统合法/非法登录情况
　　使用Last命令检查登录地点。
　　（６）检查系统是否有巨大的Core文件生成
　　使用find / -name core - print命令检查。对Core文件，一般直接删除即可。
　　（７）系统性能检查
　　 ①CPU性能：使用vmstat、topas命令检查。
　　 ②内存使用情况：使用topas，vmstat命令检查。
　　 ③检查I/O平衡使用情况：使用iostat命令检查。
　　 ④交换空间使用情况：使用lsps -a命令检查。
　　（８）Mail检查

#mail

系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查

修复，系统会定时提醒root用户。

阅读(2108) | 评论(0) | 转发(0) |

上一篇：从零开始配置MySQL MMM .

下一篇：IBM_AIX学习笔记

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6