Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2021681
  • 博文数量: 593
  • 博客积分: 20034
  • 博客等级: 上将
  • 技术积分: 6779
  • 用 户 组: 普通用户
  • 注册时间: 2006-02-06 14:07
文章分类

全部博文(593)

文章存档

2016年(1)

2011年(101)

2010年(80)

2009年(10)

2008年(102)

2007年(16)

2006年(283)

我的朋友

分类:

2010-11-08 14:48:13

IBM POWER6 服务器 Firmware 升级与维护

李 光成, 软件工程师, IBM中国软件开发中心
曹 立, 软件工程师, IBM 中国软件开发中心
余 长勇 (), 软件工程师, IBM 中国软件开发中心
赵 杨 (), 部门经理, IBM 中国软件开发中心
王 磊 (), 软件工程师, IBM 中国软件开发中心

简介: 服务器的 Firmware 升级和维护是系统管理员重要的日常工作之一,周期性的 Firmware 升级是提高系统稳定性,可用性和功能性的关键内容。本文将针对 IBM POWER6 服务器 Firmware 升级和维护的方法和过程进行详细的阐述。本文的重点将集中在 Firmware 升级和维护的技术实施层面,关于 Firmware 升级和维护的策略以及准则,可参阅文档《IBM System p Firmware / Microcode Service Strategies and Best Practices》,该文档可以从 IBM 公司的网站上下载。

发布日期: 2008 年 7 月 16 日
访问情况 143 次浏览
建议: 0 (添加评论)

1 star2 stars3 stars4 stars5 stars 平均分 (共 0 个评分 )

IBM POWER 6® 服务器的 Firmware 升级可以通过多种途径来完成,如 HMC、IVM、运行中的 Linux/AIX 操作系统、诊断光盘、系统管理软件 ( 如 IBM Cluster System Management) 等。本文将重点论述使用频率较高的两种方法:HMC 和 IBM Cluster System Management。

  1. Firmware:一种嵌入到硬件设备中的程序,用于提供软件和硬件之间的接口。在 IBM POWER 6® 服务器范畴内,Firmware(固件), Microcode(微码)和 Licensed Internal Code(许可内码)是三个可以互换的概念。
  2. 系统 Firmware (System Firmware): 用于初始化系统配置和使系统启动和运行的 Firmware,同时系统 Firmware 也提供操作系统软件和硬件之间的接口。
  3. 电源子系统 Firmware (Bulk Power Subsystem Firmware):POWER 6® 服务器电源管理子系统的 Firmware,用于提供系统的电源管理和控制。
  4. 并发 Firmware 维护 (CFM,Concurrent Firmware Maintenance):并发 Firmware 维护是 IBM POWER 6® 服务器 Firmware 升级和维护的专用名词,是指在一个运行的系统上升级 Firmware 而无需重新引导系统,也不会对运行中的程序造成影响。
  5. 延迟升级 (Deferred Update):是指 Firmware 升级可以在并发模式下完成 , 但是升级后的某些 Firmware 功能需要在下次系统重新引导时才会起作用。
  6. 破坏性升级 (Disruptive Update):Firmware 升级完成后需要系统重新引导,在系统重新引导前 Firmware 升级的任何内容都不会生效。
  7. T-Side/P-Side: IBM POWER 6® 服务器的服务处理器 (Service Processor) 维护了两份 Firmware 的拷贝用以减少由于 Firmware 维护造成的停机频率和停机时间,这两份 Firmware 拷贝分别位于 T-Side(Temporary firmware side) 和 P-Side(Permanent Firmware Side),系统运行所使用的是位于 T-Side 的 Firmware,在 Firmware 升级和维护过程中,P-Side 一般用来存放旧的稳定的 Firmware 版本,而 T-Side 一般用来存放新的测试版本,如果证明新的 Firmware 版本运行良好,就可以将 T-Side 的 Firmware 拷贝到 P-Side,这个过程叫做提交 (Commit) 或者接受 (Accept) 新的 Firmware 版本,反之,如果证明新的 Firmware 版本存在问题,就可以将 P-Side 的 Firmware 拷贝到 T-Side,这个过程叫做拒绝 (Reject) 或者移除 (Remove) 新的 Firmware 版本。
  8. 已激活级别 (Activated Level): 运行系统正在使用的 Firmware 版本,该 Firmware 版本位于 T-Side。
  9. 已接受级别(Accepted Level): 系统中安装的最低版本的 Firmware,该 Firmware 版本位于 P-Side.
  10. 已安装级别 (Installed Level): 系统中安装的最高版本的 Firmware,安装版本可能已经被激活或者尚未被激活。

IBM Support Download Site 提供了所有 IBM POWER 6® 服务器的 Firmware 下载,从 IBM Support Download Site 下载的 Firmware 文件严格遵守 IBM POWER 6® 服务器的 Firmware 命名规则,也就是说 Firmware 文件名本身就提供了丰富的信息,本节将对 IBM POWER 6® 服务器 Firmware 文件的命名规则进行详尽的说明:

例如,POWER 6® 服务器 9117-MMA 的最新 Firmware 版本为 01EM320_040,可以在 或者

下载到该 Firmware 版本。

Firmware 文件由 15 个字符组成,由两个下划线将文件名分隔为三个字段,我们以通用格式 PPNNSSS_FFF_DDD 为例:

  1. PP: 子系统识别符 (Package Identifier),用以标识此 Firmware 所适用的子系统。系统 Firmware 的子系统识别符为 "01", 电源子系统 Firmware 的子系统识别符为 "02".
  2. NN: 平台识别符 (Platform Identifier), 用以标识此 Firmware 所适用的服务器类型。平台识别符是由 IBM 公司统一分配的。下表列出了目前所有的 POWER 6® 服务器平台识别符:
类型描述 服务器型号 平台识别符
IBM POWER 6® 570 9117 EM
IBM POWER 6® 520/550 8202 EL
IBM POWER 6® 575 9125 ES
IBM POWER 6® 595 9119 EH
BPA for POWER 6® 575 9A00 EP
BPA for POWER 6® 595 9A01 EB

表 1 POWER 6® 服务器平台识别符

  1. SSS: 发布级别标识符 (Release Level Indicator),每一个新的 Firmware 发布级别都会相应的包含新的功能和新的服务器类型支持,IBM 的 Firmware 发布策略为每年内一般不会超过两个新的发布级别。发布级别的升级都将是破坏性升级。
  2. FFF: 修订级别 (Service Pack Level),一个发布级别之下的修订版本级别。一般情况下,一个修订级别只包含一些问题的修复而不会包含新的动能或者新的服务器类型支持。
  3. DDD: 上一个破坏性级别 (The last disruptive Level),从“DDD”所标识的修订级别之前的修订级别升级到该修订都将是破坏性升级。

进行 IBM POWER 6® 服务器的 Firmware 升级可以通过多种途径如 HMC、IVM、运行中的 Linux/AIX 操作系统、诊断光盘和 IBM 系统管理软件 ( 如 Cluster System Management)。本节将说明用 HMC 和 CSM 进行 Firmware 升级和维护前应该做的准备工作。后面的章节将详细介绍这两种升级方法的详细步骤。

升级方法 准备工作
HMC
  1. 兼容的 HMC 版本
  2. P 服务器和 HMC 之间的正确连接
  3. Firmware 映像,包括 Firmware 的 RPM 和相应的 xml 文件。
CSM
  1. 配置 CSM 对服务器和 HMC 的管理功能
  2. Firmware 映像,包括 Firmware 的 RPM 和相应的 xml 文件

注:所有 IBM POWER 6® 服务器的 Firmware 映像都可以从 IBM Support Download Site 下载。


本节将假设 HMC 对目标服务器的管理功能已经配置完成,也就是说 HMC 已经可以正确管理要进行 Firmware 升级的服务器。如果该配置还没有完成,可参阅 HMC 配置的相关文档。另外,本节将论述的是系统 Firmware 的升级,电源子系统 Firmware 的升级和系统 Firmware 的升级非常类似,唯一的区别是 Firmware 映像不同,系统 Firmware 和电源子系统 Firmware 各自使用单独的 Firmware 映像,对电源子系统的 Firmware 升级在此不做详细的论述。

  1. 登录 HMC

    POWER 6® HMC 支持 web 方式登录,可以用任意 web 浏览器如 Internet Explorer 或者 Mozilla Firefox 进行登录。

    登录方式: ip address or hostname>

  2. 检查服务器的当前 Firmware 版本信息

    在 HMC 控制界面左侧选中“更新”,进入 Firmware 升级界面,选中目标服务器后,点击服务器名称右上角的 icon 弹出菜单的“查看系统信息”或者屏幕下方的“查看系统信息”,将会显示服务器目前的 Firmware 版本信息,如下图所示:




    图 1

    通过 EC 号中的平台标识符可以得知,该机器类型为 POWER 6® IH 同时配置了 POWER 6® BPA,系统 Firmware 和电源子系统 Firmware 的发布版本为 330,已安装级别,已激活级别和已接受级别均为 14.

  3. 确定升级类型

    根据现有 Firmware 版本和目标 Firmware 版本之间的关系,Firmware 升级可以分为两种类型:更改当前发行版的许可内码(即修订版本升级)和将许可内码升级到新的发行版(即发布版本升级)。修订版本升级和发布版本升级在操作 上基本类似,只是修订版本升级有可能是并发升级而发布版本升级一定是破坏性升级。以下的论述将以修订版本升级为例因为 IBM POWER 6® 575 到目前为止仅有一个发布版本 330。

  4. 确定 Firmware 存储位置

    HMC 支持使用多种 Firmware 存储位置来进行 Firmware 升级,包括 IBM 服务 Web 站点、IBM 支持系统、DVD 驱动器、FTP 站点和硬盘驱动器。

    如果 HMC 有 Internet 连接,可以:

    1. 使用 IBM 服务 Web 站点去获取最新的 Firmware 版本
    2. 或者使用 IBM 支持系统去获取所有的可以使用的 Firmware 版本。

    如果 HMC 没有 Internet 连接,则可以:

    1. 建立本地的 FTP 服务器然后使用 FTP 站点作为 Firmware 存储位置
    2. 或者将 Firmware 映像刻录到光盘中然后使用 DVD 驱动器作为 Firmware 存储位置
    3. 或者使用 HMC 高级功能中的 retrieve 功能将 Firmware 映像先下载到 HMC 的硬盘驱动器 , 然后使用硬盘驱动器作为 Firmware 存储位置(缺省目录 /opt/ccfw/data)
    4. 如果以前曾经进行过成功的 Firmware 升级,HMC 将会在硬盘驱动器上保存一份 Firmware 的拷贝,则可以使用硬盘驱动器作为 Firmware 存储位置
  5. 升级 Firmware:

    1. 选中目标服务器后,点击服务器名称右上角的

      icon

      弹出菜单的“更改当前发行版的许可内码”或者屏幕下方的“更改当前发行版的许可内码”,将会弹出更改许可内码窗口。


      图 2

    2. 可以使用更改许可内码向导或者选择“查看系统信息”来设置 Firmware 存储位置。

      在 Firmware 升级就绪检查窗口点击确定后,将会弹出 Firmware 存储位置选择窗口,我们在此选择 FTP 站点。




      图 3

    3. 点击确定后输入 ftp 服务器的登录信息后点击确定,然后根据向导的提示进行后续的操作即可,基本上无需更改任何配置。直到 Firmware 升级过程开始,请注意 Firmware 升级需要花费较长时间,根据我们的经验值,Firmware 升级可能需要几十分钟到 1、2 个小时,所需时间会跟服务器的型号和配置有关。


      图 4




      图 5

    4. 当 Firmware 升级完成后会看到如下的界面


      图 6

      从上图中我们可以看出,Firmware 升级过程总共用时 64 分钟。

  6. 验证 Firmware 版本

    当 Firmware 升级完成后,可以使用步骤 2 中描述的方法查看升级后的 Firmware 版本信息,如下图所示:




    图 7

    已安装级别和已激活级别都已经更新为 15,而由于我们尚未进行提交 (Commit),所以已接受级别仍然为 14.

  7. 接受新的 Firmware 版本

    当确认新的 Firmware 版本工作良好以后,可以将 Firmware 从 T-Side 拷贝到 P-Side,也就是进行接受操作。要进行提交操作,可以在步骤 5-1) 的界面中选中“选择高级功能”后点击确定,会弹出如下的窗口 :




    图 8

    在窗口中选择“接受– 将临时复制到永久”后点击确定即可根据向导的提示进行提交操作。由于当前激活的版本为 T-Side 的 Firmware,所以无法“将永久复制到临时”。

  8. 除去新的 Firmware 版本

    如果证明新的 Firmware 版本存在问题,我们可以除去新的 Firmware 版本。要进行除去操作,可以在步骤 7 的窗口中选择“除去并激活”即可根据向导的提示进行除去操作。




    图 9


CSM(Cluster System Management)是 IBM STG(Systems and Technology Group)高性能运算软件协议栈中的集群管理软件。在高性能运算的集群中被广泛应用,用于提供系统管理方案。CSM 提供了完善的对 IBM P 系列服务器的硬件控制功能,其中包括远程电源管理,远程控制台,硬件发现,网卡 MAC 地址收集,Firmware 升级以及分区信息列举等。本文将说明如何利用 CSM 提供的 Firmware 升级功能升级和维护 POWER 6® 服务器的 Firmware。关于 CSM 操作和配置的具体信息,请参考《IBM Cluster Systems Management for AIX and Linux Administration Guide》。

如上节所述,用 HMC 可以完成 POWER 6® 服务器 Firmware 升级维护,但是用 HMC 升级维护 POWER 6® 服务器 Firmware 在易用性方面存在一定的限制,特别是在大规模的集群环境中。CSM 提供了 Firmware 升级维护方面很多易用性改进,只需利用简单的数个 CSM 命令,就可以完成 POWER 6® 服务器 Firmware 的升级和维护。例如,利用 CSM 可以方便地对多个不同类型的 POWER 6® 服务器进行 Firmware 升级或者对一个 HMC 所管理所有服务器同时进行 Firmware 升级。

本节假设在第三节中说明的准备工作已经完成,即目标 HMC 和服务器已经添加为 CSM 集群的管理设备(Managed Device)和管理节点(Managed Node)。并且已经配置从管理服务器(Management Server)到 HMC 的无需密码的 ssh 访问。

  1. 检查服务器的当前 Firmware 版本信息

    CSM 提供了一个命令 rfwscan 用于获取服务器的 Firmware 版本信息,rfwscan 可以灵活的指定目标服务器的范围,如某个服务器、所有在集群中的服务器、某个或多个 HMC 所管理的所有服务器等。如下用 -c 指定某个 HMC 可以列出该 HMC 所管理的所有服务器的系统 Firmware 和电源子系统 Firmware 信息。

    CSMMS # rfwscan -c c180hmc1.clusters.com
    HMC = c180hmc1.clusters.com
    Frame Number = 1
    Power Subsystem MTMS = 9A00-100*992003X
    Power Subsystem Release Code Level = 02EB330
    Active Service Code Level = 14
    Installed Service Code Level = 14
    Accepted Service Code Level = 14
    Power Subsystem Current Release Code Level A = 02EB330
    Current Service Code Level A = 14
    Power Subsystem Current Release Code Level B = 02EB330
    Current Service Code Level B = 14
    Managed System MTMS = 9125-F2A*02A96F0
    Managed System Release Code Level = 01ES330
    Active Service Code Level = 14
    Installed Service Code Level = 14
    Accepted Service Code Level = 11
    Managed System Current Release Code Level Primary = 01ES330
    Current Service Code Level Primary = 14
    Managed System Current Release Code Level Secondary =
    Current Service Code Level Secondary =
    Managed System MTMS = 9125-F2A*02A97D0
    Managed System Release Code Level = 01ES330
    Active Service Code Level = 11
    Installed Service Code Level = 11
    Accepted Service Code Level = 11
    Managed System Current Release Code Level Primary = 01ES330
    Current Service Code Level Primary = 11
    Managed System Current Release Code Level Secondary =
    Current Service Code Level Secondary =

    …由于列表过长,此处省去若干行。

  2. 将 Firmware 映像复制到 CSM 管理服务器

    将已经下载的 Firmware RPM 映像和相应的 xml 文件复制到 CSM 管理服务器,映像文件可以放置在任何目录下。例如,在如下的例子中为 IBM POWER 6® 575 服务器的系统 Firmware。

    01ES330_015_015.rpm 01ES330_015_015.xml

  3. 用 mkflashfiles 准备升级环境

    CSM 提供了一个命令 mkflashfiles 用于确定 Firmware 所适用的平台类型,同时将 Firmware 映像文件复制到相应的目录中。例如:系统会自动将 01ES330_015_015.rpm 和 01ES330_015_015.xml 识别为 IBM POWER 6® 575 服务器的系统 Firmware 并复制到目录 /csminstall/csm/fw/p6_ih/system/update 中。

    CSMMS # mkflashfiles -f 01ES330_015_015.rpm

    Copying Code Update Package ./01ES330_015_015.rpm to /csminstall/csm/fw/p6_ih/system/update.

    CSMMS #

  4. 用 rfwflash 升级和维护 Firmware

    rfwflash 命令是 CSM 提供的用于 Firmware 升级和维护的最主要的命令,rfwflash 提供了丰富的命令参数用于执行各种 Firmware 升级和维护功能,如 Firmware 升级、Firmware 接受、Firmware 拒绝等,同时 rfwflash 也可以指定灵活的升级目标范围,如某个服务器、所有在集群中的服务器、某个或多个 HMC 所管理的所有服务器等。在此将给出在若干种升级和维护场景中的命令参数,由于命令输出内容较多,在此将不再列出。

    1. 使用并发模式升级服务器 server1 的系统 Firmware

      rfwflash –n server1 -t system --activate concurrent

      如果该升级为破坏性升级,rfwflash 将给出出错信息提示该升级必须为破坏性升级

    2. 使用破坏性升级升级服务器 server1 的电源子系统 Firmware

      rfwflash –n server1 -t power --activate disruptive

    3. 升级 HMC c180hmc1 所管理的所有服务器的系统 Firmware

      rfwflash –c c180hmc1 -t system --activate disruptive

    4. 升级集群中所有服务器的电源子系统 Firmware

      rfwflash –a -t power --activate disruptive

    5. 对 HMC c180hmc1 所管理的所有服务器执行系统 Firmware 接受操作

      rfwflash –c c180hmc1 -t system --activate disruptive --commit

    6. 对集群中所有的服务器进行电源子系统 Firmware 移除操作

      rfwflash –a -t power --activate disruptive --recover


虽然 POWER 6® 服务器与 POWER 5® 服务器在 Firmware 升级与维护的概念、术语和基本过程上保持了延续性,但是 POWER 6® 服务器的 Firmware 升级维护还是与 POWER 5® 服务器的 Firmware 升级维护存在一定的差异。

1. 平台识别符

POWER 5® 系列服务器使用统一的平台识别符,系统 Firmware 的平台识别符为 SF,电源子系统的平台识别符为 BP;与之形成对比的是,POWER 6® 服务器的不同型号使用不同的平台识别符,具体的 POWER 6® 服务器平台识别符可参见表 1 POWER 6® 服务器平台识别符。对于 POWER 6® 服务器的 Firmware update,在从 IBM Support Download Site 上下载 Firmware 映像时应当注意系统识别符,以保证下载的 Firmware 映像对应正确的 POWER 6® 服务器类型。

2. 用户接口

POWER 5® 服务器的 HMC 使用 IBM Web-based System Manager 进行管理,进行 Firmware 升级的用户接口也是通过 IBM Web-based System Manager 提供的,因此在进行 POWER 5® 服务器 Firmware 升级时应先安装并配置 IBM Web-based System Manager,下图为 POWER 5® 服务器 Firmware 升级界面,可以看出与 POWER 6® 服务器 Firmware 升级的界面基本上是相同的;而 POWER 6® 服务器的 HMC 使用 Web 浏览器进行管理,因此在进行 POWER 6® 服务器 Firmware 升级前无需进行额外的系统配置。



图 10

本文论述了在使用 HMC 管理 POWER 6® 服务器的场景中如何对 POWER 6® 服务器的 Firmware 进行升级和维护。虽然 IBM 尽力实现 Firmware 升级维护的并发性,但是 Firmware 升级在相当多的情况下仍然是破坏性的,系统管理员需要规划好 Firmware 升级和维护的时间窗口,以免对用户和系统运行造成大的影响。如果在没有 HMC 可以使用的情况下,IBM 也提供了相应的接口对 Firmware 进行升级和维护,但没有 HMC 可用的情况毕竟属于少数,限于本文的篇幅在此不做论述。


学习

  • : 本红皮书向您详细地介绍了 HMC 的配置和使用,是全面学习 HMC 的很好的资料。

  • : 本文将向您介绍一些管理 p 系列服务的 Firmware 的最佳实践,会让您对于进行 Firmware 操作有一个很具体的了解。

  • : 本文将向您介绍一些使用 HMC 的最佳实践。

  • : HMC 的在线信息中心,将向您提供全面的和 HMC 相关的资料。

  • AIX and UNIX 专区 :developerWorks 的“AIX and UNIX 专区”提供了大量与 AIX 系统管理的所有方面相关的信息,您可以利用它们来扩展自己的 UNIX 技能。

  • AIX and UNIX 新手入门 :访问“AIX and UNIX 新手入门”页面可了解更多关于 AIX 和 UNIX 的内容。

  • AIX and UNIX 专题汇总 :AIX and UNIX 专区已经为您推出了很多的技术专题,为您总结了很多热门的知识点。我们在后面还会继续推出很多相关的热门专题给您,为了方便您的访问,我们在这里为你把本专区的所有专题进行汇总,让您更方便的找到你需要的内容。

  • developerWorks 技术事件和网络广播:了解最新的 developerWorks 技术事件和网络广播。

  • :访问此 AIX 相关技术信息的协作环境。

  • Podcast:收听 Podcast 并与 IBM 技术专家保持同步。

  • 获取 本专区的 RSS Feed。(了解关于 RSS 的更多信息。)

获得产品和技术

  • IBM 试用软件:从 developerWorks 可直接下载这些试用软件,您可以利用它们开发您的下一个项目。

讨论

李光成 IBM 中国软件开发中心 HPC 部门的软件工程师,主要从事集群系统管理软件的相关研发工作。

曹立是是一名 IBM 中国软件开发中心的软件工程师。从事多年 IBM 集群管理软件 CSM 的测试工作,目前负责 xCat 的测试项目,对 IBM POWER 系列产品和 AIX 拥有丰富的管理经验。

余长勇:IBM 中国软件开发中心 HPC 部门的软件工程师,主要从事集群系统管理软件的相关研发工作。

赵杨:IBM 中国软件开发中心 HPC 部门经理,管理的项目主要有集群系统管理软件和 IBM 并行文件系统 GPFS。

王磊,IBM 中国软件开发中心 HPC 部门的软件工程师,主要从事集群系统管理软件的相关研发工作。

阅读(1202) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~