Java 理解CPU缓存(CPU Cache)

从Java视角理解系统结构连载, 关注我的微博(链接)了解最新动态 

众所周知, CPU是计算机的大脑, 它负责执行程序的指令; 内存负责存数据, 包括程序自身数据. 同样大家都知道, 内存比CPU慢很多. 其实在30年前, CPU的频率和内存总线的频率在同一个级别, 访问内存只比访问CPU寄存器慢一点儿. 由于内存的发展都到技术及成本的限制, 现在获取内存中的一条数据大概需要200多个CPU周期(CPU cycles), 而CPU寄存器一般情况下1个CPU周期就够了. 

CPU缓存 
网页浏览器为了加快速度,会在本机存缓存以前浏览过的数据; 传统数据库或NoSQL数据库为了加速查询, 常在内存设置一个缓存, 减少对磁盘(慢)的IO. 同样内存与CPU的速度相差太远, 于是CPU设计者们就给CPU加上了缓存(CPU Cache). 如果你需要对同一批数据操作很多次, 那么把数据放至离CPU更近的缓存, 会给程序带来很大的速度提升. 例如, 做一个循环计数, 把计数变量放到缓存里,就不用每次循环都往内存存取数据了. 下面是CPU Cache的简单示意图.  
 
随着多核的发展, CPU Cache分成了三个级别: L1, L2, L3. 级别越小越接近CPU, 所以速度也更快, 同时也代表着容量越小. L1是最接近CPU的, 它容量最小, 例如32K, 速度最快,每个核上都有一个L1 Cache(准确地说每个核上有两个L1 Cache, 一个存数据 L1d Cache, 一个存指令 L1i Cache). L2 Cache 更大一些,例如256K, 速度要慢一些, 一般情况下每个核上都有一个独立的L2 Cache; L3 Cache是三级缓存中最大的一级,例如12MB,同时也是最慢的一级, 在同一个CPU插槽之间的核共享一个L3 Cache. 

从CPU到大约需要的CPU周期大约需要的时间(单位ns)
寄存器1 cycle 
L1 Cache~3-4 cycles~0.5-1 ns
L2 Cache~10-20 cycles~3-7 ns
L3 Cache~40-45 cycles~15 ns
跨槽传输 ~20 ns
内存~120-240 cycles~60-120ns

感兴趣的同学可以在Linux下面用cat /proc/cpuinfo, 或Ubuntu下lscpu看看自己机器的缓存情况, 更细的可以通过以下命令看看: 
Shell代码  收藏代码
  1. $ cat /sys/devices/system/cpu/cpu0/cache/index0/size  
  2. 32K  
  3. $ cat /sys/devices/system/cpu/cpu0/cache/index0/type  
  4. Data  
  5. $ cat /sys/devices/system/cpu/cpu0/cache/index0/level   
  6. 1  
  7. $ cat /sys/devices/system/cpu/cpu3/cache/index3/level     
  8. 3  

就像数据库cache一样, 获取数据时首先会在最快的cache中找数据, 如果没有命中(Cache miss) 则往下一级找, 直到三层Cache都找不到,那只要向内存要数据了. 一次次地未命中,代表取数据消耗的时间越长. 

缓存行(Cache line) 
为了高效地存取缓存, 不是简单随意地将单条数据写入缓存的.  缓存是由缓存行组成的, 典型的一行是64字节. 读者可以通过下面的shell命令,查看cherency_line_size就知道知道机器的缓存行是多大. 
Shell代码  收藏代码
  1. $ cat /sys/devices/system/cpu/cpu0/cache/index0/coherency_line_size   
  2. 64  

CPU存取缓存都是按行为最小单位操作的. 在这儿我将不提及缓存的associativity问题, 将问题简化一些. 一个Java long型占8字节, 所以从一条缓存行上你可以获取到8个long型变量. 所以如果你访问一个long型数组, 当有一个long被加载到cache中, 你将无消耗地加载了另外7个. 所以你可以非常快地遍历数组. 

实验及分析 
我们在Java编程时, 如果不注意CPU Cache, 那么将导致程序效率低下. 例如以下程序, 有一个二维long型数组, 在我的32位笔记本上运行时的内存分布如图: 
 
32位机器中的java的数组对象头共占16字节(详情见 链接), 加上62个long型一行long数据一共占512字节. 所以这个二维数据是顺序排列的. 
Java代码  收藏代码
  1. public class L1CacheMiss {  
  2.     private static final int RUNS = 10;  
  3.     private static final int DIMENSION_1 = 1024 * 1024;  
  4.     private static final int DIMENSION_2 = 62;  
  5.   
  6.     private static long[][] longs;  
  7.   
  8.     public static void main(String[] args) throws Exception {  
  9.         Thread.sleep(10000);  
  10.         longs = new long[DIMENSION_1][];  
  11.         for (int i = 0; i < DIMENSION_1; i++) {  
  12.             longs[i] = new long[DIMENSION_2];  
  13.             for (int j = 0; j < DIMENSION_2; j++) {  
  14.                 longs[i][j] = 0L;  
  15.             }  
  16.         }  
  17.         System.out.println("starting....");  
  18.   
  19.         final long start = System.nanoTime();  
  20.         long sum = 0L;  
  21.         for (int r = 0; r < RUNS; r++) {  
  22. //          for (int j = 0; j < DIMENSION_2; j++) {  
  23. //              for (int i = 0; i < DIMENSION_1; i++) {  
  24. //                  sum += longs[i][j];  
  25. //              }  
  26. //          }  
  27.   
  28.             for (int i = 0; i < DIMENSION_1; i++) {  
  29.                 for (int j = 0; j < DIMENSION_2; j++) {  
  30.                     sum += longs[i][j];  
  31.                 }  
  32.             }  
  33.         }  
  34.         System.out.println("duration = " + (System.nanoTime() - start));  
  35.     }  
  36. }  

编译后运行,结果如下 
Shell代码  收藏代码
  1. $ java L1CacheMiss   
  2. starting....  
  3. duration = 1460583903  

然后我们将22-26行的注释取消, 将28-32行注释, 编译后再次运行,结果是不是比我们预想得还糟? 
Shell代码  收藏代码
  1. $ java L1CacheMiss   
  2. starting....  
  3. duration = 22332686898  

前面只花了1.4秒的程序, 只做一行的对调要运行22秒. 从上节我们可以知道在加载longs[i][j]时, longs[i][j+1]很可能也会被加载至cache中, 所以立即访问longs[i][j+1]将会命中L1 Cache, 而如果你访问longs[i+1][j]情况就不一样了, 这时候很可能会产生 cache miss导致效率低下. 
下面我们用perf来验证一下,先将快的程序跑一下. 
Shell代码  收藏代码
  1. $ perf stat -e L1-dcache-load-misses java L1CacheMiss   
  2. starting....  
  3. duration = 1463011588  
  4.   
  5.  Performance counter stats for 'java L1CacheMiss':  
  6.   
  7.        164,625,965 L1-dcache-load-misses                                         
  8.   
  9.       13.273572184 seconds time elapsed  

一共164,625,965次L1 cache miss, 再看看慢的程序 
Shell代码  收藏代码
  1. $ perf stat -e L1-dcache-load-misses java L1CacheMiss   
  2. starting....  
  3. duration = 21095062165  
  4.   
  5.  Performance counter stats for 'java L1CacheMiss':  
  6.   
  7.      1,421,402,322 L1-dcache-load-misses                                         
  8.   
  9.       32.894789436 seconds time elapsed  

这回产生了1,421,402,322次 L1-dcache-load-misses, 所以慢多了. 

以上我只是示例了在L1 Cache满了之后才会发生的cache miss. 其实cache miss的原因有下面三种: 
1. 第一次访问数据, 在cache中根本不存在这条数据, 所以cache miss, 可以通过prefetch解决. 
2. cache冲突, 需要通过补齐来解决. 
3. 就是我示例的这种, cache满, 一般情况下我们需要减少操作的数据大小, 尽量按数据的物理顺序访问数据. 
具体的信息可以参考这篇论文. 

转载于:https://www.cnblogs.com/kool/p/6695727.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/375173.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

测试指令TEST

测试指令TESTTEST OPRD1,OPRD2 ;按位与操作,但不保存结果,仅影响标志寄存器,根据影响的标志位得到结果 该指令通常用于检测某些位是否为1,但不改变原操作值.根据ZF得知判断结果 mov al,01100011B;检测位6是否为1,如果为1那么ZF0,如果为0那么ZF1 TEST AL,01000000B ;AL010000…

Homebrew OS X 不可或缺的套件管理器

Homebrew OS X 不可或缺的套件管理器,可以说Homebrew就是mac下的apt-get、yum. 1.安装homebrew brew的安装很简单&#xff0c;使用一条ruby命令即可&#xff0c;Mac系统上已经默认安装了ruby。 ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install…

【BZOJ】【1003】【ZJOI2006】物流运输trans

最短路/DP 这题数据规模并不大&#xff01;&#xff01;这是重点……… 所以直接暴力DP就好了&#xff1a;f[i]表示前 i 天的最小花费&#xff0c;则有$f[i]min\{f[j]cost[j1][i]k\} (0\leq j \leq i-1)$其中cost数组表示第L天到第R天只用一种运输方案连续运$R-L1$天的最小代价…

与操作指令AND

逻辑”与”操作指令AND(逻辑乘法) 0*000*101*001*11 只当参与运算的逻辑变量都同时取值为1时&#xff0c;其逻辑乘积才等于1。 MOV AL,01100011BAND AL,11111110B ;按位根据乘法表计算;结果AL01100010B另一种说法是用”0”来把相应位设置成0MOV AL,01100011B ;把AL的高4位设置成…

SVN-钩子

先说说钩子是干什么的吧&#xff0c;&#xff0c;简单的说&#xff0c;svn钩子就是在提交svn时前后所要触发的事件&#xff0c;于是我们可以用钩子做一些提交时的限制&#xff0c;及提交后的操作。最常用的一般有两个&#xff0c;pre-commit,post-commit。下面分别简单说下概念…

数据库---T-SQL语句(一)

一、T-SQL语句 1.创建表:create table Name(Code varchar(50),) 主键&#xff1a;primary key 自增长&#xff1a;auto_increment 外键关系&#xff1a;references 非空&#xff1a;not null 2.删除表&#xff1a;drop table family 3.创建数据库&#xff1a;creat database…

或操作指令OR

逻辑”或”操作指令OR(逻辑加法) 000011101111 在给定的逻辑变量中&#xff0c;A或B只要有一个为1&#xff0c;其逻辑加的结果为1&#xff1b;两者都为1则逻辑加为1。 MOV AL,01100011BOR AL,10000000B ;按位根据加法表进行运算;结果AL 11100011B另一种说法是用1将相应位设为1M…

Java学习笔记---继承和super的用法

自从换了个视频教学,感觉比原来那个好多了,就是学校网速太渣,好多视频看一会卡半天,只能先看看已经下载的了. 不过也好,虽然不能从开始开始重新开,但是已经看过一次,在看一次也是好的,就当巩固学习了. 继承的关键字:extends 格式如下: class 子类名 extends父类名{ ... } 例如 …

html适配Anroid手机

本文全然是翻译与总结谷歌官方的教程&#xff0c;已确保文档的正确性。 免得大家被五花八门的其它的资料弄混了&#xff0c;也没有系统行的学习。 一、设置窗体尺寸和适配屏幕分辨率 谷歌官方文档提到两个大的方面。 1.Viewport视图窗体 这个是html中设置的。主要是设置高度和宽…

算术运算与逻辑运算

逻辑运算又称布尔运算,取值只有两个真或假,二进制数1和0在逻辑上可以代表真与假,是与否 算术运算...小学就开始学的了 两者的区别在与逻辑运算是按位进行的,位与位之间没有进位或借位.逻辑加法(OR)OR OPRD1,OPRD2 ;OPRD1<--OPRD1 OPRD2 算术加法(ADD)ADD OPRD1,OPRD2 ;O…

Webpack 入门指迷--转载(题叶)

最近看到这个东西&#xff0c;一头雾水。看了一些资料了解了Webpack概念&#xff0c;大体是webpack 是一个模块绑定器&#xff0c;主要目的是在浏览器上绑定 JavaScript 文件。 看到题叶写的一篇介绍&#xff0c;写的很好&#xff0c;转载连接http://segmentfault.com/a/119000…

非操作指令NOT

否操作指令NOT(又称逻辑非运算)01 ;非0等于110 ;非1等于0NOT OPRD ;该指令把操作数OPRD取反然后送回OPRDmov ah,11111111B ;FFHnot ah ;执行后AH0Hmov ah,11110000B ;F0Hnot ah ;执行后AH00001111B 0FH

jquery的动画学习--jquery权威指南

前面的fadeIn和fadeOut还有fadeTo以及sildeToggle还有sildeUp\sildeDown还有toggle还有show、hide等都经常用&#xff0c;就不再手写了&#xff0c;需要注意的是fadeTo的合理应用&#xff0c;可以规定opactiy的具体数值&#xff0c;另外各个效果的回调函数可以多用用。$("…

防止Button按钮重复点击

背景&#xff1a;在测试中&#xff0c;测试MM总喜欢连续重复点击Button&#xff0c;如果click事件的处理业务&#xff0c;稍微有些耗时&#xff0c;或者设备反应比较慢时&#xff0c;就会响应2遍处理&#xff0c;导致错误的现象出现。 前提&#xff1a;click事件的处理业务&…

8086交换指令XCHG

XCHG OPRD1,OPRD2;实现OPRD1与OPRD2之间数据交换;OPRD1,OPRD2同时是字节或字操作数, MOV AX,1 MOV BX,2 XCHG AX,BX ;执行后AX2,BX1

[傅里叶变换及其应用学习笔记] 二十四. 级联,脉冲响应

我们上节课学习了 在离散有限维空间中&#xff0c;任何线性系统都是通过矩阵间的相乘得到的在连续无限维空间中&#xff0c;任何线性系统都是通过对核函数的积分得到的脉冲响应&#xff08;impulse response&#xff09; 级联线性系统&#xff08;Cascading linear system&…

WPF如何实现TreeView节点重命名

我们经常看到一些软件比如酷狗音乐&#xff0c;在对列表右键进行重命名的时候&#xff0c;当前列表会泛白并且进入可编辑状态&#xff0c;当我们更改完成后就会并进入非编辑状态&#xff0c;这些具体是怎么实现的呢&#xff1f;下面的方法也许会提供一些思路&#xff0c;下面的…

8086地址传送指令LEA

LEA REG,OPRD ;操作数OPRD必须是一个存储器操作数 LEA AX,IDATA ;把IDATA的偏移地址传送到AX寄存器中DATA SEGMENTIDATA DW 1,2,3,4 DATA ENDS CODE SEGEMNT BEG:MOV AX,OFFSET IDATA ;AXIDATA的偏移地址LEA AX,IDATA ;AXIDATA的偏移地址LEA AX,DS:[IDATA] ;把ds:[IDA…

Shell --- 批量修改文件后缀脚本

for f in *.$1; dofilenamebasename $fmv $f "${filename%.*}".$2; done; Usage:&#xff1a; rename suffix rename_suffix eg: rename dat txt > ls > a.dat > rename dat txt > ls > a.txt 转载于:https://www.cnblogs.com/RookieCoder/p/5140265.…

8086标志操作指令

标号传送指令LAHF 把FLAG低八位送入AH。不影响FLAG的任何位LAHF ;把CF,PF,AF,ZF,SF送入AH的相应位即0,2,4,6,7位SAHF 把AH送入FLAG低八位。根据AH中的内容FLAG的低八位受到影响,高位不受影响MOV AH,11111111B SAHF ;(执行后CF,PF,AF,ZF,SF等于1)PUSHF 把FLAG压入栈中。不影…