转载。
17号早上接到用户电话,IBM数据库主机宕机,驱车前往。
查看错误日志,发现如下报错:
BE0A03E5 0117084308 P H sysplanar0 ENVIRONMENTAL PROBLEM
BFE4C025 0116210008 P H sysplanar0 UNDETERMINED ERROR
查看内容:
#errpt -aj BE0A03E5
---------------------------------------------------------------------------
LABEL: EPOW_SUS_CHRP
IDENTIFIER: BE0A03E5
Date/Time: Thu Jan 17 08:43:43 BEIST 2008
Sequence Number: 284
Machine Id: 000A074ED600
Node Id: ACCA_MU_DRAS
Class: H
Type: PERM
Resource Name: sysplanar0
Resource Class: planar
Resource Type: sysplanar_rspc
Location:
Description
ENVIRONMENTAL PROBLEM
Probable Causes
Power Turned Off Without a Shutdown
POWER OR FAN COMPONENT
Recommended Actions
RUN SYSTEM DIAGNOSTICS.
PERFORM PROBLEM DETERMINATION PROCEDURES
#errpt -aj BFE4C025
---------------------------------------------------------------------------
LABEL: SCAN_ERROR_CHRP
IDENTIFIER: BFE4C025
Date/Time: Wed Jan 16 21:00:36 BEIST 2008
Sequence Number: 283
Machine Id: 000A074ED600
Node Id: ACCA_MU_DRAS
Class: H
Type: PERM
Resource Name: sysplanar0
Resource Class: planar
Resource Type: sysplanar_rspc
Location:
Description
UNDETERMINED ERROR
Failure Causes
UNDETERMINED
Recommended Actions
RUN SYSTEM DIAGNOSTICS.
Diagnostic Analysis
Diagnostic Log sequence number: 115
Resource tested: sysplanar0
Resource Description: System Planar
Location:
SRC: B17CE433
Description: Surveillance Error Predictive Error, general. Refer to
the system service documentation for more information.
Additional Words: 2-030000F0 3-28D91510 4-C13920FF 5-40000000
6-00000000 7-0000029F 8-000002AE 9-00000000
Possible FRUs:
Priority: H Maintainence Procedure: FSPSP33
Location: n/a
Priority: M Maintainence Procedure: FSPSP04
Location: n/a
Priority: L FRU: 03N6493 S/N: YL10HA585019 CCIN: 28D9
Location: U787B.001.DNW52FA-P1
看来是1月17号早上8点43宕机的。而1月16号晚上21点的报错有异常,估计是由于它引起的系统宕机。从错误日志上看是一个未知的系统平台错误。错误位置可能在“U787B.001.DNW52FA-P1”,这一位置是机器的PCI bus。联系IBM工程师被告知可能是微码问题或机器主板问题,建议先升级系统微码,然后观察,如果继续报错就的更换主板了。
查询机器现在的微码:
#lsmcode
DISPLAY MICROCODE LEVEL 802811
IBM,9133-55A
The current permanent system firmware image is SF235_185
The current temporary system firmware image is SF235_185
The system is currently booted from the temporary firmware image.
看来是比较老的微码了,IBM工程师建议升级到SF240_320,此微码是05/14/2007的。
等到晚上关闭应用数据库后,对系统做了一个mksysb,开始升级机器微码。
mksysb的脚本:/usr/bin/mksysb '-i' /dev/rmt0
微码升级步骤:
首先是把微码补丁从IBM网站下到个人电脑里(微码下载地址: ,然后进入小机的cd /tmp目录,在该目录下创建firmware文件夹,然后在个人电脑的运行中进“ftp”,进入到cd /tmp/firmware目录下
ftp> cd /tmp/firmware
再用lcd命令进入补丁存放的当前目录(我们前面说过补丁存在C盘根目录下)。
ftp> lcd C:\
二进制传输模式执行传输
ftp> bin
200 Type set to I.
然后使用PUT命令把补丁从C盘中复制到小机的cd /tmp/firmware文件夹中
ftp> put 123.bin
然后进入小机的cd /tmp/firmware目录,再LS查看是否复制成功。
# cd /tmp/firmware
# ls
123.bin
然后查看文件的权限,ls -l
-rw-r-r--- 1 root system 0 Jan 03 18:50 123.bin
没有执行权限就要用chmod命令添加该权限。
# chmod u+x 123.bin
在查看是否成功
# ls -l
total 8
-rwxr--r-- 1 root system 0 Jan 03 18:56 123.bin
权限添加成功后,开始本地执行该文件(相当于解压),执行后文件变成img格式。
# ./123.bin
然后使用sum命令查看补丁序号和ibm网站的对照看是否正确
# sum 123.img
对照无误后进入cd /usr/lpp/diagnostics/bin目录。
# cd /usr/lpp/diagnostics/bin
在该目录下执行update_flash命令
# ./update_flash -f /tmp/firmwire/123.img
执行完该命令后系统会提示是否重起,选择是,机器便自动重起,在重起的过程中自动写入微码。重起过后,再用lsmcode -A命令检查升级是否成功。
#lsmcode
DISPLAY MICROCODE LEVEL 802811
IBM,9133-55A
The current permanent system firmware image is SF240_320
The current temporary system firmware image is SF240_320
升级后系统没有再出现系统平台报错,系统运行正常。据IBM工程师经验,一般系统报平台错误的解决办法,90%升级微码就可以解决,不行才换主板。这就是这类问题的解决思路。