CPU cache、指令重排问题的思考-shenyanxxxy-ChinaUnix博客

沈岩shenyan.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

shenyanxxxy

博客访问： 1933230
博文数量： 211
博客积分： 464
博客等级：下士
技术积分： 3794
用户组：普通用户
注册时间： 2011-01-24 18:25

个人简介

阿弥陀佛

文章分类

全部博文（211）

机器学习（2）
Go语言学习（1）
设计模式（3）
nginx源码阅读（3）
存储系统源码分析（2）
HTTP协议（3）
系统源码学习（6）
网页开发（1）
搜索引擎（2）
shell脚本（1）
算法（14）

堆排序（0）

堆排序（0）
内核（20）

虚拟化技术（6）
经验（47）

debug（1）

百度霸面（0）
程序设计（15）

UNIX编程（2）

面向对象Ｃ＋＋（1）
杂事（5）
感悟（46）

处理器体系结构（2）

设计（0）

面试（1）
存储技术（29）

Mysql（1）

ceph（2）

文件系统（9）

学习memcached（1）
未分配的博文（11）

文章存档

2020年（2）

2019年（3）

2018年（5）

2017年（6）

2016年（10）

2015年（9）

2014年（73）

2013年（90）

2012年（13）

我的朋友

相关博文

CPU cache、指令重排问题的思考

分类：架构设计与优化

2013-11-19 15:10:22

对于只是实现简单功能的c语言程序，不用考虑代码reorder问题。
现在才发现原来在编译程序的时候，通过gcc -O0来避免编译时，编译器将不会对指令重排。但是
这样仍然无法避免在运行的时候CPU对指令进行重排。所以使用内存屏障是非常重要的，也是无法避免的。
这里我有一个疑问，是否在java中也会遇到指令重排的问题呢？
上面是对指令重排问题的一点探讨，下面对CPU cache进行分析。
下面的这个链接里面讲述了如何用c语言观察CPU 的cache行为：对于**的阻拦，最好的方法就是通过在线代理服务器的方式访问入口

第一个程序

点击(此处)折叠或打开

int[] arr = new int[64 * 1024 * 1024];
// Loop 1
for (int i = 0; i < arr.Length; i++) arr[i] *= 3;
// Loop 2
for (int i = 0; i < arr.Length; i += 16) arr[i] *= 3;

Loop1与Loop2的执行时间是几乎相同的，CPU取内存中的数据都是以Cache Liine的方式取，大小为64Byte。由于顺序访问，访问到同一cache line的速度非常快，几乎可以忽略不计，所以上面的两个Loop的执行时间大体相同。

第二个程序

点击(此处)折叠或打开

for (int i = 0; i < arr.Length; i += K) arr[i] *= 3;

前面一段访问时间都是大体相同，因为都在一个cacheline里面，而后由于k的增大，循环次数明显变少，所以时间会越来越小。

程序三

点击(此处)折叠或打开

int steps = 64 * 1024 * 1024; // Arbitrary number of steps
int lengthMod = arr.Length - 1;
for (int i = 0; i < steps; i++)
{
arr[(i * 16) & lengthMod]++; // (x & lengthMod) is equal to (x % arr.Length) }

这里面，L1 cache的大小为32KB，L2的大小为4M，所以可以看到当数组的大小逐渐增加时，每个元素的平均访问时间会越来越大，因为L1Cache不住就会访问L2Cache，以此类推。

程序四：

private static int[] s_counter = new int[1024]; private void UpdateCounter(int position)
{ for (int j = 0; j < 100000000; j++)
    {
        s_counter[position] = s_counter[position] + 3;
    }
}

程序四是为测试Cache的一致性而设计的，当CacheLine里面的某一个元素被修改了，那么对应内存地址的整行cache-line就会失效。
对于多核而言，其他的core里面的数据也会失效。这样会降低cache的失效率。作者测试参数为0，1,2,3为参数的时候，运行四个不同的线程进行测试，发现花费了4.3s。如果参数为16,32,48，测试的结果为0.28s。
因为后面的测试，这些数据都不是在同一个cache line里面的，所以不会造成cache miss而导致的多个核心之间会相互影响。

阅读(6559) | 评论(3) | 转发(2) |

上一篇：memcached的通信机制

下一篇：HAProxy 研究笔记 -- 按位或和逻辑或性能比较

给主人留下些什么吧！~~

shenyanxxxy2013-11-22 10:34:36

不过话说程序确实不是我自己写的，而是参考文中的一个链接。

回复 | 举报

shenyanxxxy2013-11-21 11:31:10

myseabiscuit：这不是原创吧，博主改改吧
原文地址：http://coolshell.cn/articles/10249.html

文中已给链接。

回复 | 举报

myseabiscuit2013-11-21 08:12:17

这不是原创吧，博主改改吧
原文地址：http://coolshell.cn/articles/10249.html

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6