转帖-[垃圾猪ORAIN作品]-我到底有几个CPU-lqjboy-ChinaUnix博客

lqjboy

首页　| 　博文目录　| 　关于我

lqjboy

博客访问： 40655
博文数量： 15
博客积分： 1476
博客等级：上尉
技术积分： 165
用户组：普通用户
注册时间： 2009-12-31 22:42

文章分类

全部博文（15）

未分配的博文（15）

文章存档

2010年（11）

2009年（4）

我的朋友

最近访客

推荐博文

转帖-[垃圾猪ORAIN作品]-我到底有几个CPU

分类：

2010-07-11 18:33:35

（以下文章中所说的CPU，如无特别说明，都是传统意义上的CPU，也就是一个物理CPU，一个指令流处理单元）

从IBM POWER4多核开始，IBM的CPU弄得越来越复杂。业界别的厂商也一起煽风点火，加上集成商、销售的大嘴，标书撰写者的有意混淆视听或无意不懂装懂，这CPU是越来越乱了。本文是为了澄清一些事实而写。在写东西之前，先统一概念定义。不同厂商可能有不同的说法，但在这大家先统一一下，免得说来说去被偷换了概念。另外下面的概念多是IBM的概念，别的厂商也应当有类似的名词，请对照使用。

Actived
激活的CPU，IBM通过CUoD License控制，可以让你只使用一部分机器中安装的CPU，这样下次你升级CPU的时候，就不需要硬件更换插拔停机等操作，输入一个激活码，CPU就出来了。

Book
大型机器CPU被一组一组地安装在一个可拆卸模块里面，外面有铁皮保护，插脚也不会是CPU上脆弱而密集的针、点接触，便于维护。通常升级、更换的时候必须以一个book为单位进行。例如这种机型一个book里面是8个CPU，那你就不能购买4个，最少就是8个，或者16个，24个CPU这样去购买。但如果用户需要10个CPU怎么办？那物理采购的还是16个，但通过CUoD激活只激活10个。采购的价格虽然比10个CPU的价值稍多（不会多很多），但是以后升级方便。另外更重要的是CUoD只计算活动CPU的数量，也就是如果在运行过程中，忽然一个CPU坏掉了，只要还有未激活的CPU，就会自动顶替上，始终保证用户可用的CPU数量是10个，避免了因为CPU坏掉而造成的停机（根据坏CPU当时执行的线程有关），如果是用户线程，通常分区不会死掉。但无论多严重的故障，也只是一个分区出问题，别的分区还会照常运行。

Core
这就是一个传统意义的CPU，一个计算单元。之所以叫Core是由于以前集成电路技术不高，一个Core就是一个物理存在的一个集成电路芯片。但现在随着集成电路技术提高，多个CPU被集成到一个芯片内，而人们往往还是对一个芯片叫做一个CPU，所以以前传统意义的CPU就被降格为Core，一个“核心CPU”。

CPU
原始意义的CPU是指计算机的中央处理器，而现在多指一个封装模块，也就是说可能多个中央处理单元连同辅助的协处理器、内存缓存管理器等等只要被封装在一个集成电路芯片里，就被称为一个CPU。

CUoD
Capacity Upgrade on Demand容量按需升级。IBM提出的一种硬件License管理技术，就是购买时多买一些物理资源（CPU，内存等等，通常与只购买使用的CPU、内存相比，额外成本很低），但通过激活码控制，只能使用一部分，当需要的时候，随时购买新的激活码，激活不能使用的CPU和内存，实现升级。

HMT
Hard Multi-Thread 硬件多线程。这里要注意区分多指令和多线程。在CPU里面执行指令，指令仿佛水流一样在流动。对于现代的多任务操作系统而言，同一个时刻，有很多任务（线程）需要处理，即使是多个CPU，也不能满足同时处理线程数的要求。也就是说，系统可能只有4个CPU，但同时要求处理的线程数可能已经达到了100个，每个CPU平均要处理25个。由于一个线程要处理很长时间，甚至属于永不终结的线程，操作系统不能完全处理完一个线程，等其退出再去处理另一个，如果这样，别的线程大概就要等几分钟，甚至几小时，也许永远等不到那一天（如果此线程是无限循环的）。所以操作系统使用的折中的方案，就是每个线程处理一段时间，当此线程暂时不需要CPU或者处理了太长的时间之后，通过分时的方式，把此线程停下来，而去执行另一个线程。这也就是说，通过“软”的方式，实现了多线程处理。由于这是操作系统的软实现方案，每次线程切换都需要执行额外的指令（操作系统指令），因此切换效率比较低。IBM POWER系列CPU从RS64型号之后，就开始支持硬切换了，也就是CPU能够完成指令切换。注意，在CPU这个级别，它根本不知道什么线程不线程的，只能看到一列指令。当指令在执行的时候，很可能会停下来，等待一些辅助操作，例如等待中断、必须的数据或指令不在Cache中，这时候CPU执行的指令流都会中断，而去等待新的指令流接续。HMT技术就是将这个等待时间利用起来，把另一组需要执行的指令调入CPU执行，这样就比以往增加了CPU的利用度，减少CPU空闲时间。

HT
Intel对HMT的称呼，可以说是一种HMT的技术实现。

Installed
安装的物理资源，就是机器里面装的CPU或者内存数量。不过这些资源并不一定全都可用，由于物理故障被deconfig，由于没有买License而没有激活，都会使可用的物理资源数少于安装的资源数。

lcpu
从操作系统看到的可用CPU，又被称为逻辑CPU。从操作系统角度，一个CPU的概念是能够在当时（无需分时等额外处理）处理一条指令流（也就是一个线程）的执行单元。多任务操作系统可以同时并行执行很多线程，但是这种并行并不是严格意义上的并行，而是多CPU并行（这是真正意义上的并行）及分时并行的混合结果。从用户角度看来，如果以1秒钟时长取平均，那么10个CPU，每个CPU花一秒钟执行完1个线程和1个CPU每0.1秒执行完1个线程，总效果都是1秒钟总计执行完10个线程，效果是一样的，但是这两种做法操作系统底层编程显然有区别。精细的考察，多CPU系统线程执行比较“平滑”，但是对于不能进行线程拆分（例如有严格的执行顺序要求）的程序，执行效果较差，因为可能9个CPU闲置，无事可做，而第10个CPU非常忙；单CPU系统“抖动”比较大，在多线程环境响应不太好，对于某个特定的线程而言，偶尔有短暂“死机”感觉（在多任务调度不好的操作系统，或者某个线程有非常高的计算、内存数据移动要求时尤其如此）。在AIX中，使用vmstat命令可以看到，在POWER5,6等支持SMT技术的机型中，lcpu是2倍于proc的数值，这是由于这两种CPU，能够利用SMT技术，单一CPU同时执行两条线程的指令流，看起来好像多了一倍的CPU。

Module DCM, QCM, MCM
多个CPU内核（core）被集成到一个集成电路芯片里，每块这样的集成电路芯片就叫做一个Module，如果是双核芯片，被称为Dual Core Module，4核叫做Quad Core Module，很多个核叫做Multi-Core Module

Pipe Line
CPU的一种设计、实现方式。CPU在处理指令的时候，需要经过取指令、解码指令、处理指令、放置结果等多个子过程，为了提高效率，可以采用流水线作业的方式，一条指令在取指令，前一条已经进入解码阶段，再前一条则正在处理，再之前的一条则已经到了放置结果阶段。通过这种技术，以前一个子过程需要1微秒，4个子过程则需要4微秒，也就是一条CPU指令需要4微秒的时间才能完成。而用流水线技术则1微秒就可以完成一条指令，当然CPU刚启动执行的第一条指令还要等4微秒，不过也仅仅等着一次。其它需要等待的时间是发生了指令跳转（包括指令转移），下一条要执行的指令不一定在什么地方，这样预先取址、解码的指令可能不是下一条要执行的指令，流水线就中断了，需要重新初始化流水线。但无论怎样，大部分指令，例如80%的指令都能顺序下来，流水线的效率还是很高的。另外，CPU设计者引入了其它的办法协助解决这个问题，例如如果解码到的指令是条件指令，会触发取址指令把可能的跳转目的地址的指令都取出来进行解码，这样无论条件判断出来转到那里，指令都已经解码好了，缺点是需要额外的解码单元电路；还有的做法是进行一些“智能”分析，大概估算出跳转的可能，并与编译程序配合，在程序编译的时候就做出适当的组合和特别标志位，协助CPU进行条件跳转的判断。

Physical CPU
与虚拟、逻辑CPU对比而言，一个实实在在能马上执行指令的CPU单元就是物理CPU，其它的虚拟CPU，逻辑CPU则是从高层系统看起来是个CPU，可以执行指令，但指令只是交给了物理CPU硬件，用某种队列方式进行处理，并不能真正立即执行。

Proc
AIX操作系统中看到的CPU，是Processor的简称，可能是一个物理CPU或者通过虚拟化技术虚拟出的虚拟CPU，到底是物理CPU还是虚拟CPU，则根据机型不同。如果是POWER5、6的机型，看到的是虚拟CPU，如果是POWER4或更早的机型，则是物理CPU。虚拟CPU和物理CPU之间有一定的对应关系，请参考Virtual Processor的说明。

Processing Unit
IBM POWER5或6机型的物理CPU被称为Processing Unit，简称PU

Processor
同proc

Socket
同Module，但略有不同。Module一般指一个芯片，而一个Socket可能是一个小电路板，上面焊了几个芯片。

SMT
Simultaneous Multi-Thread。模拟多线程，但这不是用软件模拟，而是硬件CPU本身来“模拟”是POWER5,6 CPU特有的技术。当一个物理CPU单元执行指令的时候，由于在某个瞬间，只是一条指令在执行，而CPU是为了处理各种各样指令而设计，好比是一个加工工厂，同时有车钳铣刨多种设备，但这个工厂每次只加工一个工件，SMT技术则考虑到有很多个加工设备，同时弄进几个工件（指令）进行处理。但这种技术不同于pipe line和super scale，也不同于HMT。可以理解为SMT同时利用了HMT和pipe line/super scale的优点。

pipe line/super scale是指令层面的技术，只对单独的指令流有效，它们看不到线程这么高的层次。而对于线程层次的认知则几乎可以完全避免指令跳转造成的CPU指令流流水线中断，因为两个线程指令之间完全不可能存在相互依存关系，两组指令流之间的执行顺序可以任意调整，绝对不可能冲突；

HMT技术则只处于线程切换层次，与指令层结合的时候不“平滑”，也就是切换的时候要把当前的指令流停下来，或等待当前指令流停下，这样就存在一个短暂的指令中断间隙。虽然这个暂停时间很短，例如只是1，2个时钟周期，但如果频繁发生HMT切换，这个中断时间也不少。

SMT同时利用了两者的优势，通过操作系统内核和CPU的特殊标志寄存器，让CPU在进行指令流调度的时候，把两组线程的指令调配到同一条物理CPU的处理流水线上，这样一来，一个线程在进行加法运算，另一个线程可能需要跳转，它们两者显然使用不同的寄存器进行操作，可以同时被处理，而且不用担心它们两者之间会发生干涉，例如一组指令更新另一组指令的输入结果，这是不可能发生的！因为操作系统对线程的定义就是他们之间没有直接相互关系。线程之间的通信通过更高层的共享内存空间、信号灯等机制完成，其结果就是一条：两组指令流都可以畅快地执行，没有干涉发生。

SMT虽然在指令执行并行性上实现了突破，但并非万能。如果两组指令流在某个时刻都在进行乘法运算，出现了竞争同一个物理CPU寄存器的情况，其中一条指令流还是要停下来的。这时候POWER5,6 CPU使用HMT的能力，一条指令流无中断执行，另一条指令流被硬切换出去，再调入其它线程的指令流。总之，SMT技术使单一物理CPU永远至少能够执行1条以上指令流，最好的情况下能够达到并行两条，平均而言，一般是1.3-5倍的执行效率。在AIX操作系统，为了反映出这个额外的指令流处理能力，使用了逻辑CPU，也就是lcpu的概念。

Super Scale
与Pipe Line技术对应，这是CPU电路设计的另一种方案，在这种方案中，CPU一次取一组指令，进行统一解码、执行。如果完成一条指令需要4微秒，那么只要能同时取4条指令并行处理，则平均1条指令完成时间就变成了1微秒，CPU执行速度大大提高。这种方案同样会遇到条件跳转问题，解决方案与Pipe Line技术类似，例如同时虚拟执行条件跳转的两个（或者多个）目标地址的指令，最后通过条件指令的结果去实际选择到底采用那个分支。当然，这也需要CPU硬件电路、编译系统配合，来提高执行效率。

Virtual Processor/VP
也也是IBM POWER 5,6 CPU引入的技术。这两种CPU能够让操作系统以为有若干物理CPU，但实际上只分配给它们很少一部分物理CPU时间片，只有当有处理要求的时候，才把物理CPU的时间片交过去，执行指令。初始分配时最大的比例是1:10，运转过程中动态分配的比例是1:100。这里面涉及的分配过程稍微复杂一点，我下一节再继续说，看到这时你才能了解你到底有多少CPU，能用多少CPU，是怎么用的。

Way
可以把Way等同于物理CPU，等同于core，等同于Processor Unit/PU

现在我先交代一下分配规则（以下都是针对POWER 5,6的机型的说明，POWER 4及以前的机型，分配了多少物理CPU，就是多少，毫无疑问）。
给一个分区分配的物理CPU可以是0.1到物理机器所有可用的（激活）的物理CPU（Processor Unit / PU）中间的任何数值，小数点后只有1位。如果整机有16颗激活的CPU，则一个分区可以分配的物理CPU可以是0.1，0.8，6.4 .... 15.9到16中的任何数值。这个数值被称为Entitlement的CPU(EC)数。也就是说，对于这个分区，EC的数量是必保的，你可以不使用那么多，但是只要你想用，无论发生什么情况，你一定能拿到这么多。
于此对应，在进行分区的时候还要分配Virtual Processor （VP）。前面说过，VP是给操作系统看的，也就是蒙骗操作系统，让它“认为”你分了多少物理CPU给它。VP数量必须是整数，让操作系统去对用户讲0.1个CPU过于复杂，IBM不想把事情弄得太乱了。另外，既然是虚拟的，那就不能少了，只有你这种大公无私的人才会借给别人5.3元，却对他说：就当我借给你5块好了！IBM不会这么傻，它会告诉操作系统：6块！实际上，更激进一些，它可以让操作系统觉得拥有从6-53中间任何整数的CPU。也就是说，VP最少是圆整后的EC的整数值，最多是10倍的EC/PU。当然，也有上限，就是操作系统（AIX）目前支持的最大CPU个数：64。如果一个物理机器最多物理CPU个数为32，你给一个分区分配了6.4的EC，虽然理论上你可以分配给这个分区64的VP，但超过32的数值没有实际意义，仅可用来作为支持测试。
VP仅仅是虚数，给操作系统炫耀的么？当然不是，它还是有实际意义的，但必须处于uncapped（不封顶）状态下才有效。uncapped也是四个分区CPU资源分配参数之一（到现在，我们有了EC或者叫PU，VP, uncapped，还有另一个weight一会会提到）。如果uncapped参数设定的是no，则VP多少都没用，操作系统最多用到分配的PU就到头了。但如果uncapped，那就可以继续“抢占”，只要别的分区（在同一CPU共享池内）有空闲的PU（分配的EC并未使用100%）；或者物理整机有未分配的PU；或者POWER 6机型有可以“抢占”专属分区（物理CPU不共享）空闲CPU的license（不共享还可以抢占？！IBM还卖这种霸道的License，掉到钱眼里了）。抢占的上限就是VP的个数。因此，一个uncapped的分区，操作系统看起来有VP个“物理CPU”，如果使用传统意义上按CPU数量收费的软件，并且有技术限定，会监视CPU个数，则需要按VP个数购买license（你肯定亏了！）。分区最少可以使用0个物理CPU（其实怎么也是大于0，多少需要一点）；如果别的分区不太忙，或者整机有空闲的物理CPU，则此分区最多可以抢占到VP个物理CPU；如果别的分区也很忙，大家都要抢占，那就看各自的weight，按照weight比例抢占，但无论如何，必保此分区分配的PU，也就是EC，这是别的分区抢不走的。
那么还有一些东西，在做分区的时候，Processor Unit 和 Virtual Processor的min, desire, max有什么关系？这三个参数只和你分区启动时能获得多少物理、虚拟CPU，以及分区运行过程中，可以动态迁移的物理、虚拟CPU的最大、最小数量有关。也就是分区启动是，尽力获得desire的数值，如果不行，则尝试最多能获得多少，只要大于min数值就可以启动分区。分区运行过程中动态迁移CPU资源（物理、虚拟都包括），能移走资源，使分区达到的最小值就是min，不能移走更多。反之，能加进资源，是分区达到的最大值就是max，也不能加进来更多。
你到现在明白你有多少CPU了么？
如果你是好学后进，大概此时还意犹未尽：规则我了解了，但IBM技术上如何实现的呢？看官，您继续耐心坐会。。。
无他，还是时间片技术。当然，着不仅仅是软件技术，更需要硬件技术。具体来说，是两硬加一软。物理CPU本身有能力进行快速线程切换；操作系统知道自己所处的虚拟环境，积极加以配合；特殊的管理硬件（在IBM叫做Hypervisor）有一些寄存器用来保存CPU运行状态，例如PURR，Processor Utilization Resource Register，并可以控制CPU进行强制进程切换。
首先，时间被切成以10ms为单位的小时间片，分区所能使用的时间片通过hypervisor控制进行分配，PURR用来记录时间片的使用情况。奇妙的是，绝对意义上，CPU自己是不知道自己是否繁忙的，因为CPU始终在执行指令，即使没有任何任务可做，CPU也在执行指令----操作系统的管理指令。操作系统的空闲进程会插入一些空指令，这是最基本的空闲标志，CPU看到这些空指令，会毫无疑问地把当前进程转到等待，可惜，空指令实在是太少了，在当今这种复杂的多任务管理系统环境，长时间执行类似x86上0x90操作码的空指令几乎不可能。其实CPU经常是很闲的，不知是执行空指令的时候，因为CPU有太多组件，不是所有的组件都忙得要死，跟一个大公司一样，忙的人忙死，闲的人闲死。CPU还有其他的空闲时候，例如，每当线程进入中断等待、操作系统无可执行队列的时候，此时操作系统主动更新某些特殊的寄存器，才可能让CPU知道，现在不忙了，可以休息了。当然，CPU也可以自我感觉繁忙程度，但是不太准确。典型的情况包括刚才提到的空指令，其它情况包括：长时间CPU都没有使用某些寄存器（或者访问频度很少），都没有进行内存数据访问，没有IO，所有指令都在L1 cache里面等等，这都说明CPU比较闲了。
这两种CPU繁忙的判断方式导致了虚拟化技术的两种不同实现。Intel等采用的是trap-and-emulate，也就是对特殊指令进行捕捉和仿真。在x86一类CPU里面有中断陷入、空操作等等指令（或者指令执行的结果），通过对这一类指令进行捕捉，就可以发现CPU处理暂停的时候。不过这种捕捉太细致，是指令级，会产生大量的指令流content switch，这些都是虚拟化后CPU的额外消耗增加。IBM则是采用操作系统自我认知方案，称为paravirtualization，让操作系统定期执行特殊的系统调用，告诉hypervisor自己现在的状态。这两种方案各有优缺点。Intel的方案对于操作系统没有要求，只要能够在老CPU、系统运行，就可以在新的支持虚拟化的CPU上执行。缺点是虚拟化系统开销较大；IBM的方案需要能支持虚拟化调用的新版本操作系统，自行汇报工作情况，hypervisor就可以很好地安排资源分配，效率更高，但以前版本的操作系统就无法在新虚拟化CPU上运行了。顺便说一句，不仅仅虚拟化，CPU在设计的时候，也可能有电源管理功能，当出现长时间闲置的电路，就可以暂时关闭（或降低）这部分电路的供电系统，降低执行频率等等，这是比指令更底层的技术实现，不用CPU指令干预（当然可以通过设定一定参数干预）。缺点呢？就是当CPU真的需要这部分电路，需要有一个电路启动过程，可能额外消耗几个，甚至几十个时钟周期。无论如何，这些指令级的繁忙程度判断是不准确的，虽然CPU可以根据最近执行的调用中，多少是用户调用，多少是系统调用，多少中断等等数据进行判断，总不如操作系统直截了当告诉Hypervisor。实际上，IBM的Power 5，6CPU也不全依靠操作系统，它是一个混合体，可以说80%依靠操作系统汇报，20%自己统计指令情况。这个百分比是我猜测的，到底算法如何，IBM这时候的嘴巴闭得很严，全无International Big Month的作风。
其次，有了当前物理CPU使用比例，就可以判断给某个分区分配物理CPU的数量，也就是PU的数值，它基于以下几个数据，同样，具体算法大嘴巴也没说全，半遮半掩，我只能在这胡说，您也就胡听好了。
Capped分区，最多分配分区profile设定的EC数量，不能多。但如果物理CPU使用比率低，则可以少分。
UnCapped分区，如果物理CPU使用比率高了，则可以多分PU时间片。多分多少呢？先把在同一个CPU共享池内的必保的都分配掉，假如剩下3.6个PU空闲，而有3个UnCapped分区争夺时间片，每个分区EC的cpu都是1，额外获得多少则要看Weight。
Weight 额外分配PU
分区1 128 3.6*128/(128+255+32)=1.11PU，实际最多可分配CPU 2.11，对应于211个10ms时间片
分区2 255 3.6*255/(128+255+32)=2.21PU，实际最多可分配CPU 3.21，对应于321个10ms时间片
分区3 32  3.6*32/(128+255+32)=0.28PU，实际最多可分配CPU 1.28，对应于128个10ms时间片

最后，10ms的时间片和PU到底是怎么分配的？真正用起来，也不可能用0.1个物理CPU啊？！其实很简单，所谓共享粒度为1/100物理CPU就是10ms的时间片。还是刚才提到的分区，1个物理CPU分为100个10ms的时间片段，那么在下一个1秒内，分区1将获得1+1.11=2.11PU；分区2获得2.21PU；分区3获得1.28PU。那么再进行10ms时间片细分，每个时间片下如果有非0数字，则说明在这个时间片时刻当时会分配物理CPU给此分区：
时间片时刻
1 2 3 4 5。。。10 11 12 13 14。。。 100
--------------------------------------------------------------------------------------------
分区1 2 2 2 2 2。。。2  2 2 2 2。。。 2 累计100个2=200
1 0 0 0 0。。。0  1 0 0 0。。。 1 累计11个1=11
--------------------------------------------------------------------------------------------
分区2 3 3 3 3 3。。。3  3 3 3 3。。。 3 累计100个3=300
0 1 1 0 0。。。0  0 1 1 0。。。 0 累计21个1=21
---------------------------------------------------------------------------------------------
分区3 1 1 1 1 1。。。1  1 1 1 1。。。 1 累计100个1
0 0 0 1 1。。。1  0 0 0 1。。。 0 累计28个1
---------------------------------------------------------------------------------------------
累计 6 6 6 6 6。。。6  6 6 6 6。。。 6 总计660个PU时间片
以上的时间片都是真正的物理CPU时间(PU)，具体分配的时候还有虚拟CPU，即Virtual Processor，在版本稍老一点的AIX（其实都是5.3或6.1，不过TL早一些而已），采用平均分布策略。也就是这些物理时间片会被Virtual Processor均分。还是刚才的分区，假设分区1有10个VP，分区2有5个VP，分区3有20个VP。在每个时间片时刻，操作系统和Power虚拟化Hypervisor会进行物理CPU时间片与虚拟CPU时间片之间的对应。我们单看一个分区，分区1：
时间片时刻1，分区1分得3个CPU时间片，但又10个VP，也就是有10个线程（其实是20个，由于lcpu的原因，为了简化起见，就当10个吧）被执行。但其中只有3个VP能对应到物理CPU，因此只有头3个VP上的线程能运行，别的VP上的线程停工待料。通常，一个线程不可能平平安安地执行完完整的10ms，中间总会有点“事情”发生（例如中断、内存换页等等），其优先级不够，要被踢出去，在进行踢线程这个当口，以前的情况是没有虚拟CPU一说，踢线程就是当前CPU踢的，踢完马上载入下一个线程进来。现在呢，有了虚拟CPU，就如同一个纺纱车间有10台机器，但只有一个人看管，一台机器的问题处理完，上下料这时候，这个人一转身，就到下一台机器前接线头去了。也就是说，虚拟CPU把要干的活都准备好了，转等物理CPU空闲，过来马上就干。由于时间粒度是0.01秒（10ms），为了保证不出现虚拟CPU太多，物理CPU时间片太少，虚拟CPU在长时间内都没有物理CPU时间片对应的问题，Hypervisor在设计的时候就做出了最多1:10的限制，也就是1个物理CPU（PU）最多可以虚拟10个虚拟CPU（VP），这样在0.1秒钟的时间里，即使线程非常繁忙，一个虚拟CPU至少能分到1个10ms时间片。反之，分给VP最多的物理时间片就是分满了，一个VP完完整整对应了一个PU。
了解了以上策略，又引出了一个新问题：在物理CPU一定的情况下，给一个分区分配更多的虚拟CPU好呢，还是更少为好？多少算合适？这个问题和你的体重一样不好回答。你是运动员的体质，每天高强度训练，不是为了比赛，只要身体好，多重都不算重；反之，如果你整日坐在计算机前敲程序，能少还是少一点的好。。。总结一下，如下几方面需要综合考虑（注意，只考虑了运行状态，没有考虑profile里面min，max的等问题）：
1. 分区最大希望能用到多少物理CPU？ VP的数量决定了上限，分配总有个限度。如果物理整机才有16个物理CPU，你分了20的VP干什么？
2. 分区最少会用到多少物理CPU？这一条不太重要，因为不用的PU别的分区会抢占，所以通常只是用来设定profile里面min PU的
3. 分区平均用到多少物理CPU？既然平均用这么多，那么设定EC为这个数值是比较合适的，也就是desire的PU
4. VP当然是大于EC的整数，而根据分区任务量特点，可以是1.5倍，2倍的PU，考虑到1的结果，设定一个相近的数值
5. 操作系统版本决定了VP选择的时候是往大了取，还是往小。如果是比较高的TL，例如5.3 TL07 （忘记了），可以取大点的数值，否则小一点比较好。
对于5的解释是这样的：由于VP和PU进行时间片对应的时候，即使IBM做好了POWER CPU，hypervisor，操作系统的综合考虑，这种时间片切换总是要消耗些CPU cycle的，如果采用平均分配时间片策略，显然不如集中分配时间片策略效率高，不过这就需要操作系统改变策略，将线程尽量排满一个VP再去填充下一个VP，而不是一视同仁，只要有VP就分配一个线程过去。这个策略需要操作系统schedo的新参数vpm_xvcpus（default是0，就是enable的）。如果希望填充更多的VP，则可更改此参数为一个特定值，当然是少于全部VP总数（其实是VP数×2-1，因为在实际应用中，此参数对应的是lcpu，并不是VP），大于VP总数也没用。另一个极端的设置是-1，所有VP大平均。由于系统缺省是尽量填充满VP再去填下一个，因此通过能识别单个CPU繁忙程度的软件，例如topas，将看到1个CPU很忙，别的CPU都闲（topas看到的是lcpu）。
现在你真正知道你有几个CPU了么？

版权归垃圾猪orain所有。

阅读(1035) | 评论(0) | 转发(0) |

上一篇：漫谈IBM pSeries的逻辑分区和动态逻辑分区（一）

下一篇：没有了

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6