cache 与内存-AndyYoung77-ChinaUnix博客

AndyYoung77的ChinaUnix博客

首页　| 　博文目录　| 　关于我

AndyYoung77

博客访问： 32123
博文数量： 15
博客积分： 0
博客等级：民兵
技术积分： 80
用户组：普通用户
注册时间： 2017-07-03 09:21

文章分类

全部博文（15）

uboot（2）
嵌入式相关（7）
linux驱动（1）
未分配的博文（5）

文章存档

2017年（15）

我的朋友

Register

寄存器是CPU的内部组成单元,是CPU运算时取指令和数据的地方，速度很快，寄存器可以用来暂存指令、数据和地址。在CPU中，通常有通用寄存器，如指令寄存器IR；特殊功能寄存器，如程序计数器PC、sp等。

Cache

缓存即就是用于暂时存放内存中的数据，若果寄存器要取内存中的一部分数据时，可直接从缓存中取到，这样可以调高速度。高速缓存是内存的部分拷贝。

CPU <---> 寄存器<---> 缓存<--->内存

寄存器的工作方式很简单，只有两步：（1）找到相关的位，（2）读取这些位。

内存的工作方式就要复杂得多：

（1）找到数据的指针。（指针可能存放在寄存器内，所以这一步就已经包括寄存器的全部工作了。）

（2）将指针送往（MMU），由MMU将虚拟的内存地址翻译成实际的物理地址。

（3）将物理地址送往内存控制器（），由内存控制器找出该地址在哪一根内存插槽（bank）上。

（4）确定数据在哪一个内存块（chunk）上，从该块读取数据。

（5）数据先送回内存控制器，再送回CPU，然后开始使用。

内存的工作流程比寄存器多出许多步。每一步都会产生延迟，累积起来就使得内存比寄存器慢得多。

为了缓解寄存器与内存之间的巨大速度差异，硬件设计师做出了许多努力，包括在CPU内部设置、优化CPU工作方式，尽量一次性从内存读取指令所要用到的全部数据等等。

著作权归作者所有，转载请联系作者获得授权。

一条汇编指令大概执行过程是（不是绝对的，不同平台有差异）：

取指（取指令）、译码（把指令转换成微指令）、取数（读内存里的操作数）、计算（各种计算的过程，ALU负责）、写回（将计算结果写回内存），有些平台里，前两步会合并成一步，某些指令也不会有取数或者回写的过程。

再提一下CPU主频的概念：首先，主频绝对不等于一秒钟可以执行的指令个数，每个指令的执行成本是不同的，比如x86平台里汇编指令INC就比ADD要快，具体每个指令的时钟周期可以参考intel的手册。

为什么要提主频？因为上面的执行过程中，每个操作都需要占用一个时钟周期，对于一个操作内存的加法，就需要5个时钟周期，换句话说，500Mhz主频的CPU，最多执行100MHz条指令。

仔细观察，上面的步骤里不包括寄存器操作，对于CPU来说读/写寄存器是不需要时间的，或者说如果只是操作寄存器（比如类似mov BX,AX之类的操作），那么一秒钟执行的指令个数理论上说就等于主频，因为寄存器是CPU的一部分。

然后寄存器往下就是各级的cache，有L1 cache，L2，甚至有L3的，以及TLB这些（TLB也可以认为是cache），之后就是内存，前面说寄存器快，现在说为什么这些慢：

对于各级的cache，访问速度是不同的，理论上说L1cache（一级缓存）有着跟CPU寄存器相同的速度，但L1cache有一个问题，当需要同步cache和内存之间的内容时，需要锁住cache的某一块（术语是cache line），然后再进行cache或者内存内容的更新，这段期间这个cache块是不能被访问的，所以L1cache的速度就没寄存器快，因为它会频繁的有一段时间不可用。

L1 cache下面是L2 cache，甚至L3 cache，这些都有跟L1 cache一样的问题，要加锁，同步，并且L2比L1慢，L3比L2慢，这样速度也就更低了。

最后说说内存，内存的主频现在主流是1333左右吧？或者1600，单位是MHz，这比CPU的速度要低的多，所以内存的速度起点就更低，然后内存跟CPU之间通信也不是想要什么就要什么的。

内存不仅仅要跟CPU通信，还要通过DMA控制器与其它硬件通信，CPU要发起一次内存请求，先要给一个信号说“我要访问数据了，你忙不忙？”如果此时内存忙，则通信需要等待，不忙的时候，通信才能正常。并且，这个请求信号的时间代价，就是够执行几个汇编指令了，所以，这是内存慢的一个原因。

另一个原因是：内存跟CPU之间通信的通道也是有限的，就是所谓的“总线带宽”，但，要记住这个带宽不仅仅是留给内存的，还包括显存之类的各种通信都要走这条路，并且由于路是共享的，所以任何请求发起之间都要先抢占，抢占带宽需要时间，带宽不够等待的话也需要时间。

以上两条加起来导致了CPU访问内存更慢，比cache还慢。

举个更容易懂的例子：

CPU要取寄存器AX的值，只需要一步：把AX给我拿来，AX就拿来了。
CPU要取L1 cache的某个值，需要1-3步（或者更多）：把某某cache行锁住，把某个数据拿来，解锁，如果没锁住就慢了。
CPU要取L2 cache的某个值，先要到L1 cache里取，L1说，我没有，在L2里，L2开始加锁，加锁以后，把L2里的数据复制到L1，再执行读L1的过程，上面的3步，再解锁。
CPU取L3 cache的也是一样，只不过先由L3复制到L2，从L2复制到L1，从L1到CPU。
CPU取内存则最复杂：通知内存控制器占用总线带宽，通知内存加锁，发起内存读请求，等待回应，回应数据保存到L3（如果没有就到L2），再从L3/2到L1，再从L1到CPU，之后解除总线锁定。

　（Cache）实际上是为了把由DRAM组成的大容量都看做是高速存储器而设置的小容量局部存储器，一般由高速SRAM构成。这种局部存储器是面向CPU的，引入它是为减小或消除CPU与内存之间的速度差异对系统性能带来的影响。Cache 通常保存着一份中部分内容的副本（拷贝），该内容副本是最近曾被CPU使用过的数据和程序代码。Cache的有效性是利用了程序对存储器的访问在时间上和空间上所具有的局部区域性，即对大多数程序来说，在某个时间片内会集中重复地访问某一个特定的区域。如PUSH/POP指令的操作都是在栈顶顺序执行，变量会重复使用，以及子程序会反复调用等，就是这种局部区域性的实际例证。因此，如果针对某个特定的时间片，用连接在局部总线上的Cache代替低速大容量的，作为CPU集中重复访问的区域，系统的性能就会明显提高。
　　系统开机或复位时，Cache 中无任何内容。当CPU送出一组地址去访问内存储器时，访问的存储器的内容才被同时“拷贝”到Cache中。此后，每当CPU访问存储器时，Cache 控制器要检查CPU送出的地址，判断CPU要访问的地址单元是否在Cache 中。若在，称为Cache 命中，CPU可用极快的速度对它进行读/写操作；若不在，则称为Cache未命中，这时就需要从内存中访问，并把与本次访问相邻近的存储区内容复制到Cache 中。未命中时对内存访问可能比访问无Cache 的内存要插入更多的等待周期，反而会降低系统的效率。而程序中的调用和跳转等指令，会造成非区域性操作，则会使命中率降低。因此，提高命中率是Cache 设计的主要目标。

阅读(1475) | 评论(0) | 转发(0) |

上一篇：spi接口介绍

下一篇：C语言中volatile关键字的作用

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6