DUMP 文件收集时的几个注意事项
环境:(产品aix,平台rs600,机型all,软件版本v4,v5,等)
问题描述: 客户的机器有时会出现死机情况,同时液晶板上会出现888的字样。这是由于系统软件或硬件的
故障导致机器宕机,并且机器同时搜集宕机前的相关信息,产生dump文件。客户需要把dump文件
收集下来,送交IBM进行分析,以找出机器问题所在。但是在搜集数据时我们需要注意一些事项。
1。系统会自动把dump文件vmcore 文件放到 /var/adm/ras 下 (注dump文件最初放置在paging space
即hd6中,当重新启动机器后,dump文件会被自动拷出)。但如果/var/adm/ras 目录下没有足够的空间
去放置dump文件,在重启机器时,系统会要求放置一盘磁带或其他媒质来放置dump文件。
2。当系统重启后,我们可以用sysdumpdev 来管理和控制dump文件。如:
root@r6f50 > sysdumpdev -l
primary /dev/hd6
secondary /dev/sysdumpnull
copy directory /var/adm/ras
forced copy flag FALSE
always allow dump TRUE
dump compression OFF
可以看出主dump设备是 /dev/hd6 ,副设备是 /dev/sysdumpnull ,dump文件放置目录是 /var/adm/ras ;
又如:
root@r6f50 > sysdumpdev -L
Device name: /dev/hd6
Major device number: 10
Minor device number: 2
Size: 1077248 bytes
Date/Time: Thu Feb 13 01:38:17 GMT 2003
Dump status: -3
dump crashed or did not start
Dump copy filename: /var/adm/ras/vmcore.13
可以知道上次系统产生dump文件的时间,大小,文件名称等,而且客户也可以根据上述信息估计下次dump 文件
大小以便扩充/var/adm/ras 目录。
3。如果/var/adm/ras 目录空间不够,我们可以在重启机器时选择拷贝dump文件的介质,如磁带机。(当然,我们也
可以选择不拷贝dump文件,跳过这一步骤)。这时在磁带机上就有了dump文件以及/unix 文件 。如果客户要把文件
靠出来,需要用 pax 命令。如:
pax -rf /dev/rmt0.1
pax -rf /dev/rmt0.1 (注: dump_file文件和/unix 文件是顺序写在磁带机上的,所以要依次读出)。
或者用 pax -rf /dev/rmt0
tctl -f /dev/rmt0.1 fsf 1
pax -rf /dev/rmt0
4.当然只有dumpwen文件对分析问题还是远远不够的,IBM工程师需要了解更多机器信息,以便更快更准确的分析dump文件。
系统提供一个snap工具来搜集系统其他信息,如:errpt 错误报告,lslpp 系统包安装情况及版本等等。
客户可以用snap -a 命令,系统会自动搜集机器信息并放在/tmp目录新下生成的一个/ibmsupt 目录下。如果系统
/var/adm/ras 目录足够大,dump 文件 vmcore 已经产生,snap -a 命令会把dump 文件也收集到/inmsupt目录下,
这样客户只要把/tmp/ibmsupt 下的内容交给ibm工程师即可。如果dump文件在启机时已经拷贝到介质如磁带机里,
客户需要把/tmp/ibmsupt 以及磁带都交给IBM. 当然客户也可以用snap -gfkd 命令同时收集dump文件和相关信息
到/tmp/ibmsupt 目录下并交给IBM.
阅读(3599) | 评论(0) | 转发(1) |