全部博文(323)
分类: 系统运维
2008-03-06 10:59:04
IBM小型机有时会出现死机情况,同时液晶板上会出现888的字样。这是由于系统软件或硬件的故障导致机器宕机,并且机器同时搜集宕机前的相关信息,产生dump文件。客户需要把dump文件 收集下来,送交IBM进行分析,以找出机器问题所在。但是在搜集数据时我们需要注意一些事项。
1。系统会自动把dump文件vmcore 文件放到 /var/adm/ras 下 (注dump文件最初放置在paging space即hd6中,当重新启动机器后,dump文件会被自动拷出)。但如果/var/adm/ras 目录下没有足够的空间去放置dump文件,在重启机器时,系统会要求放置一盘磁带或其他媒质来放置dump文件。
2。当系统重启后,我们可以用sysdumpdev 来管理和控制dump文件。如:
root@r6f50 > sysdumpdev -l
primary ------------/dev/hd6
secondary--------- -/dev/sysdumpnull
copy directory -----/var/adm/ras
forced copy flag --VFALSE
always allow dump --TRUE
dump compression ---OFF
可以看出主dump设备是 /dev/hd6 ,副设备是/dev/sysdumpnull,dump文件放置目录是/var/adm/ras ; --当机器内存大于4G的时候系统会默认生成一个DUMP设备名为:lg_dumplv。参考如下:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
lg_dumplv sysdump 24 24 1 open/syncd N/A
lg_dumplv缺省大小是按以下规则分配的:
. 4GB < = 服务器的内存 〈 12GB lg_dump 的大小为 1GB
. 12GB < = 服务器的内存 〈 24GB lg_dump 的大小为 2GB
. 24GB < = 服务器的内存 〈 48GB lg_dump 的大小为 3GB
. 48GB < = 服务器的内存 lg_dump 的大小为 4GB
#lsattr -El mem0
goodsize 31616 Amount of usable physical memory in Mbytes False
size 31616 Total amount of physical memory in Mbytes False
又如:
root@r6f50 > sysdumpdev -L
Device name: ---------/dev/hd6
Major device number: -10
Minor device number:- 2
Size: ----------------1077248 bytes
Date/Time: -----------Thu Feb 13 01:38:17 GMT 2003
Dump status:--------- -3
dump crashed or did not start
Dump copy filename: /var/adm/ras/vmcore.13
可以知道上次系统产生dump文件的时间,大小,文件名称等,而且客户也可以根据上述信息估计下次dump 文件大小以便扩充/var/adm/ras 目录。
3。如果/var/adm/ras 目录空间不够,我们可以在重启机器时选择拷贝dump文件的介质,如磁带机。(当然,我们也可以选择不拷贝dump文件,跳过这一步骤)。这时在磁带机上就有了dump文件以及/unix 文件 。如果客户要把文件靠出来,需要用pax 命令。如:
pax -rf /dev/rmt0.1
pax -rf /dev/rmt0.1 (注: dump_file文件和/unix 文件是顺序写在磁带机上的,所以要依次读出)。
或者用 pax -rf /dev/rmt0
------tctl -f /dev/rmt0.1 fsf 1
------pax -rf /dev/rmt0
--/var/adm/ras 的空间大小检查可以作为巡检的内容。也可以在系统繁忙的阶段用以下命令来预估DUMP文件的大小:
#sysdumpdev -e
4.当然只有dumpwen文件对分析问题还是远远不够的,IBM工程师需要了解更多机器信息,以便更快更准确的分析dump文件。
系统提供一个snap工具来搜集系统其他信息,如:errpt 错误报告,lslpp 系统包安装情况及版本等等。
客户可以用snap -a 命令,系统会自动搜集机器信息并放在/tmp目录新下生成的一个/ibmsupt 目录下。如果系统/var/adm/ras 目录足够大,dump 文件 vmcore 已经产生,snap -a 命令会把dump 文件也收集到/inmsupt目录下,这样客户只要把/tmp/ibmsupt 下的内容交给ibm工程师即可。如果dump文件在启机时已经拷贝到介质如磁带机里,客户需要把/tmp/ibmsupt 以及磁带都交给IBM. 当然客户也可以用snap -gfkd 命令同时收集dump文件和相关信息到/tmp/ibmsupt 目录下并交给IBM.