vc++64位系统下long的长度为4个字节_Java与系统硬件的亲密接触「伪共享」

作者:码洞来源:https://zhuanlan.zhihu.com/p/32764602
3df1f6022427caa5689bc2b7f3c8b3db.png

在解释【伪共享】这个概念之前,我们先来运行一段代码,小编的电脑上有4个core。

604f997cb4443f23159bcbc07820695c.png

这个程序的逻辑是4个线程共享同一个数组读写不同下标的变量。每个线程循环1亿次读写,也就是+1操作。然后统计4个线程同时跑完总共花的时间。

af61ee941bd6ede6d2ae26d2390f864b.png

下面我们来看看在小编的电脑上运行的结果:

378b1b76dc539bd45917bced43958a17.png

然后我把SharingLong里面的注释代码去掉,再跑了一下:

ba37e285fc8cfe0eefe2f180a79a5766.png

在性能上注释前后差别高达5比1,为什么会在性能上会产生如此大的差别呢?

这就是本篇要讲的主题【伪共享】,英文名叫False Sharing。而SharingLong里面的注释行一般称之为【缓存行填充】,英文名叫Cache Line Padding。

首先我们来计算一下SharingLong对象占用的内存空间,我们不考虑64位的情景,Java的对象都有一个2个word的头部,第一个word存储对象的hashcode和一些特殊的位标志,如GC的分代年龄、偏向锁标记等,第二个word存储对象的指针地址,一个word就是32位。然后加上v和6个p变量,总共就是8个long的长度,也就是64字节。

接下来我们要引入CPU缓存的概念。

74abff1f3d8a78f85abd13fc68e322a0.png

现代的处理器一般都有3级缓存结构,L1、L2和L3,CPU直接访问主存是一个相对比较慢的操作,所以通过3级缓存来提升访存性能。我们将3个缓存当成一个整体来看待,它就是CPU缓存。缓存的制造成本非常昂贵,它一般要比主存空间小的多。

CPU在读主存的时候,会先将主存的一块数据加载到缓存上,然后在缓存上读取。当CPU写主存的时候,它会首先写缓存,在未来的某个时间点再一次性将缓存的数据全部刷回主存,这样就可以提高写操作的性能。因为计算机程序数据操作的局部性,CPU连续的指令倾向于访问相邻地址空间的数据,所以后续的读写操作有很大的概率可以直接在缓存上拿到数据。如果缓存上不存在,那就再去主存上加载进来。

缓存虽然小,但是也不是太小,CPU在加载主存数据时,如果一次性将整个Cache填满,但是接下来的指令访问的数据又不在缓存上,就会导致读浪费。另外如果只修改了其中几个字节的数据,但是得回写整个Cache到内存,这又会导致写浪费。

所以现代的CPU缓存一般是分行存储的,最小处理单位是一个行,这个行的长度一般来说就是上文提到的64字节,我们称之为【缓存行】。

4f224d4a82e5c972f26c49394a1161f7.png

SharingLong对象中v的值是volatile类型的,意味着CPU要保证v变量在不同线程之间的读写可见行。当CPU对v变量进行修改的时候会将数据立即回写至主存并将相应的缓存行置为失效。这样后续对v变量进行的读写操作都需要重新从内存中加载缓存行,这样就保证了其它线程读到的数据是最新的。

这点跟我们平常在Java基础教科书里提到的有点不一样。教科书里面为了便于新手理解,不会提及缓存,一般只会说volatile变量直接读写内存。

如果内存里有两个volatile变量在相邻的地址,两个cpu分别对v1和v2进行读和写操作,会发生什么情况呢?首先我们分解执行动作。图中的h表示对象头。

fd022511d4cfdfd80f58ff5b355ba726.png

1、CPU1对v1进行读操作,将内存里的v1加载到缓存行里。

2、CPU2对v2进行读操作,将内存里的v2加载到缓存行里。

3、CPU1对v1进行写操作,将缓存里的v1修改,然后回写到主存再将缓存行置为失效。

4、CPU2对v2进行写操作,将缓存里的v2修改,然后回写到主存再将缓存行置为失效。

步骤1肯定先于步骤3,步骤2肯定先于步骤4。它们发生的顺序可能是 1->2->3->4 ,相当于两个CPU交叠运行,步骤1加载缓存行,步骤2发现数据就在缓存行里还是最新的,就省去了加载缓存行操作了,这时读操作做到了【共享】。紧接着步骤3正常进行写操作,然后步骤4来了,CPU2发现缓存行失效了,所以还得重新加载缓存行,然后再回写到主存再将缓存行置为失效。这里就发生了重复加载缓存行的现象,也即【写竞争】。如果不是volatile变量,步骤3的写操作是不会立即回写内存的,缓存行也就不会立即置为失效,这个时候步骤4来了CPU可以直接对缓存进行写操作,而不会出现浪费现象。我们称这种现象为【伪共享】,就是说这两个变量虽然共享同一个缓存行,但是它们之间会发生写竞争。

如果顺序是1->3->2->4,步骤1和步骤3的读操作这时就没能实现共享,还是会有浪费。

当系统的线程数越多时,写竞争越激烈,这种浪费就越多。

现在我们能明白为什么去掉注释后,程序会变慢,因为存在写竞争现象,数组中相邻的SharingLong.v共享了同一个缓存行。

那加上p1~p6这6个变量的意义是什么呢?我们看图。

20cbe7258235e7229e77d6625a38feee.png

我们发现加上6个long变量后,v1和v2将分别占用自己的缓存行,互不干扰,所以写竞争也就不存在了,效率自然就提升了。

不过缺点也是有的,就是缓存的利用率降低了,一个缓存行的空间才使用了1/4。这就是典型的空间换时间的场景。

例子中我们使用了volatile变量,那如果改成普通变量呢?我们运行一下,结果如下。

9c70c10eeff1c7c71ad53e78fb33527e.png

相当惊人,耗时上居然少了3个量级,这就是volatile在性能上的代价。普通变量不需要保证线程之间的读写的可见性,CPU对缓存修改后不需要立即回写内存,不存在写操作缓存穿透现象。而读操作也不需要总是重新从内存加载,那这个效率几乎完全就是缓存访问的效率,而对volatile变量的读写操作则接近内存访问的效率,差距自然如此明显。

你也许会问,知道这些有什么蛋用!

确是没什么蛋用,因为在现实世界,大部分操作都涉及到IO操作。根据水桶效应,其它环节优化到了极致,也无法提升整体的质量。

但是也不完全所有的应用都是IO操作型的,有一些场景下那是纯粹的内存操作。那么对于纯内存操作来说,理解【伪共享】知识可以帮你从性能上提升几倍甚至是几个数量级。

著名的disruptor框架正是使用了缓存行填充技术,才使得它的环形数组队列能如此高效。看wiki上的性能报告,disruptor的RingBuffer相比Java内置的ArrayBlockingQueue在OPS上高出近一个数量级,在队列延迟上则低了接近3个数量级。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/571844.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

快捷登录PHP,phpcms 微信快捷登陆

上一篇文章,给大家分享了关于微信授权登陆功能,今天给大家分享一个微信快捷登陆的实际用例。phpcms接入微信快捷登陆第一步,在login方法中,判定是否使用微信浏览器访问,如果是,发起授权申请if ( strpos($_S…

linux 端口号查看

linux 端口号查看netstat -anp |grep 端口号最后一列是端口号转载于:https://www.cnblogs.com/ditmark/p/7669804.html

pwm波如何控制电机代码_PWM波控制720电机

详细方案四:pwm与720电机控制电机硬件分析什么是电机?电机(俗称"马达")是指依据电磁感应定律实现电能转换或传递的一种电磁装置。它的主要作用是产生驱动转矩,作为用电器或各种机械的动力源。其中本四轴采用的电机是直流电机。直流…

php里的stdclass,PHP中的stdClass是什么?

stdClass是另一个很好的PHP特性。您可以创建一个匿名PHP类。让我们检查一个例子。$pagenew stdClass();$page->nameHome;$page->status1;现在&#xff0c;假设您有另一个类&#xff0c;它将使用页面对象初始化并在其基础上执行。<?phpclass PageShow {public $curre…

arduino使用oled代码_【惊不?】Arduino改造古董卡西欧计算器为作弊神器

一台朴实无华的计算器&#xff0c;卡西欧牌。看起来和千万学子们所使用的计算器一样&#xff0c;没什么特别的&#xff0c;还带着一些陈旧的使用痕迹。但如果你用磁铁碰一下&#xff1a;咦&#xff0c;简直像打开了探险电影里的神秘机关&#xff0c;右上角的太阳能电池板部分居…

什么都没学到,记录一个鼠标监听事件吧

textField.addMouseListener(new MouseAdapter() { //鼠标在textField中时&#xff0c;改变btnNewButton的文本内容 貌似我的概念是混乱的&#xff0c;用控件乱用哈&#xff0c;哈哈 public void mousePressed(MouseEvent e) { btnNewButton.setText("按下鼠标&qu…

matlab实现id3,MATLAB简单实现ID3

再看《MATLAB数据分析与挖掘实战》&#xff0c;简单总结下今天看到的经典的决策树算法——ID3.ID3&#xff1a;在决策树的各级节点上&#xff0c;使用信息增益的方法作为属性的选择标准&#xff0c;来帮助确定生成每个节点时所应采取的合适属性。关于信息增益&#xff0c;知乎上…

python字符串数组_python将字符串转换成数组的方法

Python这篇文章主要介绍了Python __setattr__、 __getattr__、 __delattr__、__call__用法示例,本文分别对这几个魔法方法做了讲解,需要的朋友可以参考下 ... junjie4882019-11-22 Python这篇文章主要介绍了Python实现list反转的方法,实例总结了关于list的各种较为常见的操作技…

团队项目介绍

身为该团队的项目负责人&#xff0c;简单介绍下我们团队的项目以及分工。 我们团队共有10个人&#xff0c;团队名称&#xff1a;Eastwood。 团队项目&#xff1a;开发一个网页&#xff0c;里面包含几个小游戏&#xff0c;通过玩的游戏判断人的性格。 团队项目开始日期&#xff…

python fillna,Pandas之Fillna填充缺失数据的方法

约定&#xff1a;import pandas as pdimport numpy as npfrom numpy import nan as NaN填充缺失数据fillna()是最主要的处理方式了。df1pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]])df1代码结果&#xff1a;01201.02.03.01NaNNaN2.02NaNNaNNaN38.08.0NaN用常数…

vsc写vue生成基本代码快捷键_基于vue2.X的webpack基本配置,教你手动撸一个webpack4的配置...

webpack说复杂也不复杂。不复杂&#xff0c;核心概念不外乎是entry, output, loader, plugins。webpack4还新增了optimization选项&#xff0c;用于代码分割和打包优化。现在webpack官网文档已经写的挺棒了。而当你真正开始手写一个webpack.config.js的时候&#xff0c;你就会发…

几款效率神器助你走上人生巅峰

一、背景 在我的工作和生活中&#xff0c;我一直都很注重效率工具的使用&#xff0c;这么些年下来也积累好几款很不错&#xff0c;但是又不为大多数人所熟知的软件工具&#xff0c;我用起来得心应手&#xff0c;很不错。那我就像在此给大家做个分享&#xff0c;希望你们都能多多…

自动部署 php,Jenkins实现PHP的自动部署

用HTML5 CANVAS做自定义路径的动态效果图片&#xff01;最近对HTML5开始感兴趣了,实现的效果如下图,大家可以从代码里换掉图片 我用的是canvas里面的2d绘图,其中上图的路径是网上在线绘制的,我太懒了,哈哈 下面是网址: http://www.vic ...开源的EtherCAT Master简介EtherCAT的主…

macos下载的安装包在哪里_macbook任意降级,为您带来mac os完美降级教程

最近有许多用户反映升级了最新的系统出现了各种奇葩问题&#xff0c;更关键的是&#xff0c;很多常用&#xff08;专业&#xff09;软件不能使用了。因此有许多用户想要降级&#xff0c;现在macdown小编为您带来mac os完美降级教程&#xff0c;有需要的赶紧收藏啦&#xff01;第…

Java Lambda表达

Java 8 lambda表达式示例 我个人对Java 8发布非常激动&#xff0c;尤其是lambda表达式和流API。越来越多的了解它们&#xff0c;我能写出更干净的代码。虽然一开始并不是这样。第一次看到用lambda表达式写出来的Java代码时&#xff0c;我对这种神秘的语法感到非常失望&#xff…

freebsd查询php5的版本,FreeBSD下查看各软件版本命令

查看FreeBSD版本&#xff1a; uname -aroot# uname -aFreeBSD power 8.1-RELEASE FreeBSD 8.1-RELEASE #0: Mon Jul 19 02:36:49 UTC 2010 rootmason.cse.buffalo.edu:/usr/obj/usr/src/sys/GENERIC amd64查看apache版本&#xff1a; apachectl -vroot#apachectl -vServ…

日期 日历 时区 地区 格式化 API 案例 MD

Markdown版本笔记我的GitHub首页我的博客我的微信我的邮箱MyAndroidBlogsbaiqiantaobaiqiantaobqt20094baiqiantaosina.com目录 目录常用案例判断是今天还是明天计算两个日期间相差几天增加或减少一定的时间判断缓存是否过期获取一个时间&#xff0c;要求当月有31天SimpleDateF…

kodi刮削器 中文_教你PLEX插件播放4K不能使用KODI解码导致卡顿的解决办法

文章作者Hao4K用户nothero自从买了这个索尼9500g&#xff0c;三天两头的出问题&#xff0c;而且还经常重启&#xff0c;经常卡顿。大法的画质确实不错&#xff0c;但是这系统稳定性实在是不敢恭维...最近装了一个KODI-PLEX插件&#xff0c;安利安利{:4_96:}&#xff0c;画面实在…

php js分页插件怎么引用,js分页展示控件,传入简单参数就能使用的分页效果控件...

kkpager v1.3js分页展示控件&#xff0c;传入简单参数就能使用的分页效果控件准备工作,引入js、cssHTML DOM容器调用方法1、使用link模式getLink 参数需要按需要重写。2、使用click模式(自定义跳转函数)click 参数需要按需要重写,而getHref一般需要配置。必选参数pno 当前页码t…

python下载文件保存_从URL下载文件并将其保存在Python文件夹中

尝试使用stream选项&#xff1a;import os import requests def download(url: str, dest_folder: str): if not os.path.exists(dest_folder): os.makedirs(dest_folder) # create folder if it does not exist filename url.split(/)[-1].replace(" ", "_&qu…