10年知名互联网公司技术背景,关注人工智能、机器人领域。
分类: 系统运维
2006-10-07 12:49:18
|
Linux Technology Center 评估 Linux 的长期可靠性 |
|
|
级别: 初级
Li Ge, 助理软件工程师, Linux Technology Center, IBM 2004 年 2 月 01 日 本文记录了 Linux 内核和其他核心 OS 组件的测试结果与分析,从库和设备驱动程序到文件系统和网络,测试范围无所不含,所有的测试都是在相当不利的条件下进行,并且经历了很长的时间。IBM Linux Technology Center 刚刚结束了这次长达三个多月的全面测试,并将他们的 LTP (Linux Test Project) 测试结果与 developerWorks 的读者共享。 IBM Linux Technology Center (LTC) 成立于 1999 年 8 月,想让 Linux 成功的共同梦想使其与 Linux 开发团体直接合作。它的 200 多名员工使之成为开放源代码开发者的较大团队组织之一。他们提供的代码范围包括,从补丁到结构化的内核改变,从文件系统和国际化工作到 GPL'd 驱动程序。他们还致力于追踪 IBM 内部进行的 Linux 相关开发。 LTC 尤其感兴趣的领域是 Linux 可扩展性、适用性、可靠性和系统管理 —— 所有的目的都是为了使 Linux 更适用于企业。他们为 Linux 团体所做出了诸多贡献,包括使 Linux 可以工作于 S/390 主机,将 JFS 日志文件系统移植到 Linux,等等。 LTC 的另一项核心任务是,以测试商业项目的方式在实验室条件下对 Linux 进行专业的测试。LTC 与 SGI、OSDL、Bull 和 Wipro Technologies 一道促成了 LTP Linux 测试项目(LTP)。下面是经过 LTP 套件在 Linux 内核上超长时间全面测试得到的结果。如您所猜,Linux 极好地承受了持续的压力的考验。
Linux 可靠性度量 目标 对 IBM Linux Technology Center 来说,Linux 可靠性工作的目标是,使用 LTP 测试套件对 Linux 操作系统进行超长时间的测试,重点在于 Linux 用户环境相关的工作负荷(参阅 参考资料 以深入了解 LTP)。而并不是致力于证明缺陷。 测试环境概述 本文描述的是使用 LTP 测试套件进行的 30 天与 60 天的 Linux 可靠性度量测试的测试结果和分析。测试以 SuSE Linux Enterprise Server v8 (SLES 8) 作为测试内核,以 IBM pSeries 服务器作为测试硬件。使用的是一个特别设计的 LTP 压力测试场景,在使用网络与内存管理的同时并行地运行大范围的内核组件,并在测试系统上生成高工作负荷压力。Linux 内核、TCP、NFS 和 I/O 测试组件以重工作负荷压力为目标。
测试 30 天 pSeries 30 天 LTP 压力执行结果
观测结果:
图 1. 30 天 LTP 压力执行结果 ![]() 60 天 60 天 LTP 压力执行结果:pSeries
观测结果:
图 2. 60 天 LTP 压力执行结果 ![]()
测试基础设施 硬件与软件环境 表 1 列出了硬件环境。 表 1. 硬件环境
pSeries 630 Model 7026-B80 和 pSeries 650 (LPAR) Model 7038-6M2 上的软件环境是相同的。表 2 列出了软件环境。 表 2. 软件环境
方法学 系统的稳定性和可靠性通常以连续运转时间和系统的可靠运行时间来度量。 最初运行的是一组为期 30 天的基线运转,然后增加到 60 天和 90 天的 xSeries 和 pSeries 服务器上的 Linux 测试运转。初始重点在于内核、网络和 I/O 测试。
测试工具 Linux Test Project(即 LTP; 参考资料 中有链接和更多信息)是 SGI、IBM、OSDL、Bull 和 Wipro Technologies 合作的项目,目的是为开放源代码团体提供测试套件,以测试 Linux 的可靠性、健壮性和稳定性。Linux Test Project 是测试 Linux 内核和相关部件的工具的集合。目的是通过使内核测试工作自动化来帮助改进 Linux 内核。 当前,在 LTP 套件中有超过 2000 个测试用例,涵盖了内核的大多数接口,比如系统调用、内存、IPC、I/O、文件系统和网络。测试套件每月都会更新发布,可以运行于多种体系结构上。已知的 LTP 测试套件测试过的体系结构有 11 种,包括 i386、ia64、PowerPC、PowerPC 64、S/390、S/390x (64bit)、MIPS、mipsel、cris、AMD Opteron 和嵌入式体系结构。我们的可靠性测试中使用的 LTP 版本是 20030524,这是当时可以获得的最新版本。
测试策略 在基线运转中有两个特别的阶段:一个 24 小时的“初始测试”,接下来是压力可靠性运转阶段,或者说是“压力测试”。 通过初始测试是开始测试的必要条件。初始测试包括 LTP 测试套件在硬件和操作系统上 24 小时的成功运转,这些硬件和操作系统将用于可靠性运转。LTP 测试套件包附带的驱动程序脚本 runalltest.sh 用于验证内核。这个脚本串行地运行一组成包的测试,并报告全部结果。也可以选择同时并行地运行几个实例。默认地,这个脚本执行:
压力测试可以验证产品在系统高使用率时的健壮性。作为 runalltest.sh 的补充,特别设计了一个名为 ltpstress.sh 的测试场景,在使用网络与内存管理的同时并行地运行大范围的内核组件,并在测试系统上生成高压力负荷。ltpstress.sh 也是 LTP 测试套件的一部分。这个脚本并行地运行相似的测试用例,串行地运行不同的测试用例,这样做是为了避免由于同时访问同一资源或者互相干扰而引起的间歇性故障。默认地,这个脚本执行:
系统监控 LTP 测试套件附带的修改过的 top 工具用作系统监控工具。使用 top 可以实时地观察处理器的行为。改进的 top 工具具有附加的功能,可以将 top 结果的快照保存到文件中,并给出结果文件的平均总结,包括 CPU、内存和交换空间利用率等信息。 在我们的测试中,每 10 秒钟截取一次系统利用率(或者 top 输出文件)的快照,并保存到结果文件。另外,每天或每周要处理系统利用率的快照和 LTP 测试输出文件并得到数据分数,以确定系统在长时间运转中性能是否下降。此功能由 cron 作业和脚本控制。
测试之前 注意,这是一个测试场景;现实生活中,最好建议用户保持安全设置远高于最低设置。
测试期间
测试之后
结束语 本文论述的结果基于一个在实验室环境下创建并测试的解决方案。这些结果可能并不是在所有的环境中都可以得到,而且在这种环境中实现可能还需要另外的步骤、配置和性能分析。 然而,由于大部分的 Linux 内核测试工作历时都比较短,因此本系列测试为我们提供了长时间运转的第一手数据和结果。本系列测试还提供了高工作负荷压力下 Linux 内核组件以及 TCP、NFS 和其他测试组件的数据。测试证明,Linux 系统在长时间内是可靠的和稳定的,可以提供一个健壮的、企业级的环境。
参考资料
作者简介
|