Chinaunix首页 | 论坛 | 博客
  • 博客访问: 11296511
  • 博文数量: 8065
  • 博客积分: 10002
  • 博客等级: 中将
  • 技术积分: 96708
  • 用 户 组: 普通用户
  • 注册时间: 2008-04-16 17:06
文章分类

全部博文(8065)

文章存档

2008年(8065)

分类: 服务器与存储

2008-12-12 15:09:39

   随着虚拟化基础设施在生产环境中的广泛应用并且经常支持重要的商业服务,虚拟化的第二阶段出现了,即虚拟化2.0,在虚拟化2.0中,管理性就是一切。

  这个转变的重点是商业服务管理,而不仅仅局限于“虚拟机管理意味仅仅监视正常运行时间或者虚拟机和物理服务器的资源使用水平”,整个IT基础设施工作正常是不够的。

  本文重点介绍虚拟化管理员和设计师在虚拟化2.0中面临的关键挑战,定义虚拟化2.0监视和管理解决方案的核心功能。

  虚拟化1.0与2.0区别

  虚拟化1.0主要包括分阶段地在开发环境中使用虚拟基础设施。这个阶段的重点是保证虚拟化提供许多承诺的好处,包括空间整合、节省电源、方便地设置和部署。

  从性能的角度看,这个重点是保证虚拟化的基础设施提供的性能与纯物理基础设施提供的性能一致。这通常是通过过度设置虚拟化服务器实现的。在这个阶段,整个重点是功能,而不是性能,是实现更新的提供服务的计划,如使用虚拟化支持远程桌面应用程序。

  随着虚拟化2.0的到来,管理员拥有了一种虚拟化技术的选择,热门研究的管理程序现在几乎成了一种商品。面对日益减少的预算,管理员正在寻求一些方法通过优化资源的技术用有限的硬件和软件资源发挥最大的功能,提前规划未来的需求。因此,过度设置虚拟基础设施已经成为过去。

  管理虚拟化基础设施的挑战是有各种类型的软件层必须要一起工作才能保证商业服务的适当功能。这些软件层包括应用层、协议层、虚拟机中的操作系统和虚拟化平台。许多软件层是在虚拟基础设施的范围之外的,因此,准确地找出故障是在虚拟基础设施中、应用程序中还是在网络中等真正根源是非常重要的。故障诊断速度越快,服务中断的时间就越短,整个服务性能就越好。

  这些因素的结合意味着对整个基础设施的有预见性地监视和有效的故障根源诊断将在虚拟化2.0中获得突出的地位。虚拟化环境中工作的IT专业技能的严重短缺意味着管理解决方案必须提供优越的自动化和故障根源诊断以便让管理人员用有限的技术知识有效地找到故障点并且迅速地采取适当的纠正措施。本文定义了“虚拟化2.0可用的”监视解决方案应该有的一些关键特点。

“虚拟化2.0可用的”监视解决方案的要求

  虚拟化2.0中监视和管理的重点正在从虚拟机管理转移到商务服务管理,也就是知道商务服务是如何执行的,哪一个领域(网络、服务器、虚拟机、应用程序)工作正常,哪一个领域工作不正常。因此,仅仅监视正常运行时间或者虚拟机和物理服务器的资源使用水平并且认为整个IT基础设施工作正常是不够的。

  “虚拟化2.0可用的”监视和管理解决方案的关键要求如下:

  1.提供一个单一的窗口观察虚拟和物理基础设施:尽管虚拟基础设施正在被许多重要任务应用程序使用,大多数企业仍仅以分阶段的方式向虚拟化过渡。例如,I/O(输入输出)密集型应用程序仍在由非虚拟化服务器托管。因此,一些商务服务可能会包括一些在物理服务器上运行的应用程序和一些在虚拟机上运行的应用程序。为了向目标基础设施提供一个统一的窗口,这个监视和管理系统需要能够用一套对虚拟机和物理服务器同样好的方式管理基础设施,提供一个跨越这些不同技术的单一的集成的接口。

  2.支持多个虚拟化技术:管理员现在拥有一个以自己的商务需求和偏爱为基础的虚拟化技术选择。VMware ESX、Citrix Xen、微软的Hyper-V、以及不同的Unix选择(Solaris Containers、AIX LPARs) 都为虚拟化提供了强大的解决方案。大多数大型基础设施将包含这些虚拟化技术的组合。用一个统一的操作台监视这些不同的虚拟化技术是非常重要的。

  3.跟踪虚拟机可用的物理资源、设置和使用:随着虚拟基础设施部署的普及,管理员拥有一个全面地观察虚拟基础设施的窗口是非常重要的。虽然可以安装和使用设计用于监视传统的物理服务器的监视器,但是,这些设备没有监视虚拟环境的特殊功能。了解管理程序是如何工作的、那些虚拟机开机了、它们正在使用什么资源、物理服务器是否有足够的资源处理处理这个工作量、虚拟机是否配置了足够的资源等事情是非常重要的要求。只有专门用于虚拟基础设施的监视解决方案才能提供这些功堋?/P>

  许多虚拟化平台支持高可用性和动态迁移配置以便为重要应用程序提供可靠性和容错功能。管理员需要知道这些功能的工作是否正常,设置是否需要调整(如,迁移是否太频繁?迁移为什么突然发生?)。

  4.提供有明显问题的虚拟机的“内视图”:虽然大多数虚拟化管理员都知道跟踪一台物理服务器中的每一个虚拟机使用资源的水平(CPU、内存、硬盘和网络)的重要性,但是,几乎没有人能够监视每一个虚拟机内部的情况。这是因为大多数虚拟化1.0监视解决方案重点在容量规划和配置方面。对于容量规划和配置来说,重点是跟踪每一个虚拟机占用的物理服务器资源的那部分。

  观察所有的虚拟机对一台物理服务器的资源使用情况是在一个虚拟机的观察窗口之外的。虽然外部的窗口能够帮助识别一个特别需要资源的虚拟机,但是,它不能提供对诊断故障和进一步优化都非常重要的额外信息。例如,为什么一个具体的虚拟机占用过多的资源?它是因为应用程序故障吗(如应用程序失控或者在虚拟机上运行的一个应用程序发生内存泄露)?要提供这个信息,每一个虚拟机的内视图是必要的。

  随着虚拟化成为主流,仅仅正确地规划和配置虚拟基础设施已经不再是充分的了。生产环境是动态的,当发生问题时,重要的是确定引起故障的原因。是物理服务器容量用完了?是因为配置不正确虚拟机没有足够的资源?是虚拟机中的应用程序故障?这些问题的答案决定了谁负责维修这个故障。是虚拟机管理负责?还是应用程序管理员/专家负责?只有能够提供外部和内部视图的监视解决方案才能提供这种丰富的信息。

  5.自动建立性能基线和标准:监视的重点通常仅仅是故障诊断。当发生故障的时候,管理员要知道什么出问题了。虽然故障检测是容易的(如果你的监视系统没有提醒你,你的用户会提醒你),但是,隔离这个故障并且确定引起故障的真正原因是很困难的。建立性能基准和标准在非虚拟化领域是非常重要的。这在虚拟化领域中更加重要,因为“移动部件”的数量很多(管理程序、虚拟机、应用程序、迁移等)。

  理解什么东西改变了和什么时候改变的对于迅速缩小故障愿意的范围是非常重要的。自动建立这些标准的能力在许多方面都是很重要的。管理员并不是一直知道在他们的环境中什么是正常的。根据规模的不同,一台服务器的标准与另一台服务器的标准是不同的。理解应该采用什么标准的专家是很少的,并且很难找到这样的专家。甚至对于这样的专家来说,为每一台服务器制定一个标准也是一项非常繁重的任务。因此,重要的是在监视系统中内置正确的自动化工具,自动确定这个基础设施应该采用什么性能基准。

  这种能力对于有预见性地监视你的基础设施也是很关键的。这个监视解决方案应该能够对照这个基线比较当前的性能,并且能够在发生故障之前发出警告。这为管理员提供了宝贵的提前通知,有助于管理员避开商务服务性能中可能出现的严重故障。

  6.执行真正故障根源诊断的自动关联:虽然自动基准能够提供提前的报警,但是,分析这些报警并且确定一个故障的准确的根源是一个巨大的挑战。有效的故障根源诊断对于减少业务服务中断时间和提高运营效率减少专家救火的时间都是非常重要的。

 物理基础设施中的故障根源诊断是一个巨大的挑战。增加了虚拟化只能使这个问题更难解决。要理解这个原因,考虑一下多应用程序层的一个典型配置支持的一个商务服务(见图1)。在这个例子中,用户通过一个防火墙访问这个服务。一个网络服务器把用户的请求发送到一台中间件软件应用服务器。这台应用服务器执行商务逻辑,访问后台数据库以得到用于分析的数据。如果这个数据库服务器突然速度减慢50%,由于这个应用服务器依靠这个数据库发挥自己的功能,应用服务器的速度将变得比平常慢。这将导致网络服务器速度减慢和最终用户的响应很糟糕。

  在这种情况下,一个应用层的故障影响到了依赖它的所有其它的层。在多层架构中诊断一个故障需要理解在基本的基础设施中所有的应用程序之间的相互依赖关系。然后,利用这些相互依赖的关系确定故障的根源在哪里以及故障的影响是什么。

虚拟化2.0核心是管理 IT机构需要新管理工具

  图1.当在一个多层基础设施中诊断故障时,一个商务服务通常包括多层的相互依赖的应用程序。因此,一个层中的故障能够影响到其它所有的层。故障根源诊断必须考虑这些相互依赖性。

  在这个例子中,如果支持商务服务的应用程序正在物理服务器上运行,根据早些时候发生的情况,我们不能做结论说数据库服务器是引起性能故障的根源。然而,这个应用程序实际上是在虚拟基础设施上运行的,也就是在虚拟机上运行的。在这个例子中,假设这个甲骨文数据库服务器是在同一台物理服务器上运行作为一个Citrix应用程序和一个媒体服务器(简图2)。这个媒体服务器的访问量突然增加能够引起那个物理服务器硬盘访问量的增加,从而使那台服务器硬盘的访问成为瓶颈。

  图2.虚拟化基础设施中的故障根源诊断比物理基础设施中的故障根源诊断更困难。甲骨文、Citrix和媒体服务器应用程序是在同一台物理服务器上虚拟机托管的。那台媒体服务器的访问请求突然增加将引起那个物理服务器过量的读盘,从而减慢甲骨文数据库服务器的性能、

  在这个阶段,数据库服务器处理的请求开始占用越来越长的时间。因此,图1中数据库的减慢实际上可能是图2中媒体服务器工作量的突然增加引起的。在这种情况下,故障的根源是媒体服务器应用程序的工作量增加引起的物理服务器上的硬盘瓶颈。

虚拟化2.0核心是管理 IT机构需要新管理工具

  从这个例子可以看出,虚拟环境的故障根源诊断应该超越物理环境的工作情况。对于真正的故障根源诊断来说,每一个物理服务器上运行的虚拟机都必须是能够自动找到的。每一个虚拟机上运行的应用程序要能够检测到,并且监视系统应该自动确定在同一台物理服务器上共存哪些应用程序。这些信息然后用来确定故障的根源在什么地方。

  自动化的范围决定了监视解决方案提供的节省成本的程度。减少了关机时间对于企业的盈亏底线将有直接的影响。而且,通过准确地找出故障的根源,一个监视解决方案能够节省大多数IT机构查找故障的大量时间。这个节省成本的结果主要体现在提高运营效率和减少日常救火的人工时间。

  7.随着监视的基础设施的成长而升级:随着虚拟化在企业中的普及,大量的应用将有数百台物理服务器和数千个虚拟服务器需要监视。事实上,随着桌面虚拟化的流行,虚拟机和物理服务器的比例可以高达30比1.这个监视解决方案必须能够升级处理这样庞大的基础设施。

  8.支持虚拟化的桌面环境:虚拟桌面基础设施被看作是基于Citrix和终端服务器的远程接入技术的一种可行的替代方法。在每一个用户都需要自己的桌面,而不需要共享地访问一个操作系统的情况下,虚拟桌面基础设施被看作是一种远程接入技术的选择。

  虚拟桌面环境拥有与使用虚拟机托管数据库和网络服务器等服务器应用程序(见表1)的环境不同的特点。虚拟桌面基础设施环境新的应用程序技术的生态系统,如连接代理、终端接入控制器等。一个虚拟化2.0可用的监视解决方案应该能够处理虚拟服务器和虚拟桌面环境的多种监视需求。

虚拟化2.0核心是管理 IT机构需要新管理工具

  表 1: 虚拟应用服务器环境和虚拟桌面环境之间的监视需求存在这差别。一个虚拟化2.0可用的监视解决方案应该能够处理这两种环境。

  9.为机构的相关责任人提供个性化的窗口以实现协作的管理:负责支持一项业务的不同的相关责任人也许需要从不同的角度观察需要监视的基础设施。例如,虚拟化管理员、应用程序专家、数据库管理员、基础设施设计师、服务台人员和容量规划者也许都需要从不同的角度观察这个基础设施以保证履行自己的任务和责任。这个监视系统必须是灵活的,为每一个相关责任人提供符合他们在机构中的角色的窗口。

 虚拟化2.0中的机构处理挑战

  虽然上面讨论的是虚拟化2.0中的监视要求,但是,理解虚拟化2.0还将影响到大多数机构运营处理的核心是同样重要的。

  大多数机构处理虚拟机配置都与他们购买物理服务器时的做法一样。业务部门和应用程序的拥有者指定他们需要的虚拟机的大小,适当的虚拟机配置由虚拟化小组负责完成。这个虚拟化小组负责处理建立虚拟机的物理服务器。然而,虚拟化小组通常不知道虚拟机内部托管了什么应用程序。当这个物理服务器过度设置和较少的虚拟机并行运行时,虚拟化小组和应用程序小组互不通气的竖井式的方法是不充分的。

  但是,采用虚拟化2.0,机构想得到更好的虚拟化技术的投资回报,在虚拟环境中部署更复杂的应用程序。现在,虚拟化小组仍然不注意应用程序小组和他们的虚拟机的资源需求是不行的。例如,在一同台物理服务器上的两个内存密集型应用程序可能会争夺相同的资源,因此会影响相互的性能。

  当然,通过严格地分区每个虚拟机使用的资源,这个虚拟化小组能够提供性能保证。但是,这样做有两个关键的缺点。第一,严格的分区减少了虚拟机之间资源共享的可能性,从而限制了虚拟化提供的整合的好处。第二,由于虚拟化技术的局限性,并非所有的资源都能够在虚拟机之间完全隔离的,例如硬盘的I/O就是如此。因此,虚拟化2.0要求的机构的虚拟化小组在如何配置虚拟机方面发挥积极的作用,包括理解每一个虚拟机托管哪一个应用程序、推测这些虚拟机工作量和资源需求、不同的应用程序的工作量在不同的时间和工作量方面有什么变化。所有这些细节对于有效的负载平衡和优化虚拟基础设施中的资源使用都是非常重要的。

  例如,通过在同一台物理服务器上托管一个内存密集型应用程序和CPU密集型应用程序。这个虚拟化小组将比在同一台物理服务器上托管两个CPU密集型应用程序更有效地利用可用的资源。

  虚拟化管理员在虚拟化2.0环境中遇到的另一个问题是发现和诊断故障(见图3)。一个单个的商务服务经常涉及到多个应用程序和网络层。因此,当发生故障的时候,不清楚引起故障的原因是什么,例如,是网络?应用程序?数据库?服务器?在虚拟化环境中,故障的原因又增加了一些可能性,如在虚拟机中?在物理服务器中?在硬件中?在虚拟网络接口中?还是在存储局域网中?

虚拟化2.0核心是管理 IT机构需要新管理工具

  图3:以竖井的方式监视一个IT基础设施是不充分的,因为指出所有的竖井管理员的毛病需要很长的时间,导致更高的商务服务关机时间。

  由于大多数管理员已经拥有用于监视和管理的竖井式的工具,没有一个监视和诊断整个基础设施状况的统一的控制台。虚拟化管理员应该适应在拥有多个竖井的机构中工作。在那里,受到指责是常见的。提供机构的每一个层次的每一层的可见性并且能够作为机构中不同的管理员的统一的控制台的监视和管理解决方案要保证虚拟化2.0环境正常地工作还有很长的路要走。

  结论

  虚拟化2.0识找出了如何更有效地监视虚拟化环境所需要的基本变化。本文简要介绍了虚拟化继续增加在企业生产环境中的应用时必须要克服的关键的管理挑战和机构的挑战。

阅读(498) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~