并行编程——内存模型之顺序一致性

1  定义

Sequential consistency , 简称 SC,定义如下

… the result of any execution is the same as if the operations of all the processors were executed in some sequential order, and the operations of each individual processor appear in this sequence in the order specified by its program [lamport]

下面用一个小例子说明这个定义的意思:

假设我们有两个线程(线程1和线程2)分别运行在两个CPU上,有两个初始值为0的全局共享变量x和y,两个线程分别执行下面两条指令:

初始条件: x = y = 0;

表 1.1  CC 示意图

线程 1

线程 2

x = 1;

y=1;

r1 = y;

r2 = x;

 因为多线程程序是交错执行的,所以程序可能有如下几种执行顺序:

 表 1.2  CC示意图2

Execution 1

Execution 2

Execution 3

x = 1;

r1 = y;

y = 1;

r2 = x;

结果:r1==0 and r2 == 1

y = 1;

r2 = x;

x = 1;

r1 = y;

结果: r1 == 1 and r2 == 0

x = 1;

y = 1;

r1 = y;

r2 = x;

结果: r1 == 1 and r2 == 1

Execution 1

Execution 2

Execution 3

当然上面三种情况并没包括所有可能的执行顺序,但是它们已经包括所有可能出现的结果了,所以我们只举上面三个例子。我们注意到这个程序只可能出现上面三种结果,但是不可能出现r1==0 and r2==0的情况。

SC其实就是规定了两件事情:
1)每个线程内部的指令都是按照程序规定的顺序(program order)执行的(单个线程的视角)
2)线程执行的交错顺序可以是任意的,但是所有线程所看见的整个程序的总体执行顺序都是一样的(整个程序的视角)

第一点很容易理解,就是说线程1里面的两条语句一定在该线程中一定是x=1先执行,r1=y后执行。第二点就是说线程1和线程2所看见的整个程序的执行顺序都是一样的,举例子就是假设线程1看见整个程序的执行顺序是我们上面例子中的Execution 1,那么线程2看见的整个程序的执行顺序也是Execution 1,不能是Execution 2或者Execution 3。

有一个更形象点的例子。伸出你的双手,掌心面向你,两个手分别代表两个线程,从食指到小拇指的四根手指头分别代表每个线程要依次执行的四条指令。SC的意思就是说:
(1)对每个手来说,它的四条指令的执行顺序必须是从食指执行到小拇指
(2)你两个手的八条指令(八根手指头)可以在满足(1)的条件下任意交错执行(例如可以是左1,左2,右1,右2,右3,左3,左4,右4,也可以是左1,左2,左3,左4,右1,右2,右3,右4,也可以是右1,右2,右3,左1,左2,右4,左3,左4)

其实说简单点,SC就是我们最容易理解的那个多线程程序执行顺序的模型。CC 保证的是对一个地址访问的一致性,SC保证的是对一系列地址访问的一致性。

2  几种顺序约束

顺序的内存一致性模型为我们提供了一种简单的并且直观的程序模型。但是,这种模型实际上阻止了硬件或者编译器对程序代码进行的大部分优化操作。为此,人们提出了很多松弛的(relaxed)内存顺序模型,给予处理器权利对内存的操作进行适当的调整。例如Alpha处理器,PowerPC处理器以及我们现在使用的x86, x64系列的处理器等等。下面是一些内存顺序模型

2.1  TSO (整体存储定序)

  • 数据载入间的执行顺序不可改变。
  • 数据存储间的顺序不可改变。
  • 数据存储同相关的它之前的数据载入间的顺序不可改变。
  • 数据载入同其相关的它之前的数据存储的顺序可以改变。
  • 向同一个地址存储数据具有全局性的执行顺序。
  • 原子操作按顺序执行。
  • 这方面的例子包括x86 TSO26和SPARC TSO.

2.2  PSO (部分存储定序)

  • 数据载入间的执行顺序不可改变。
  • 数据存储间的执行顺序可以改变。
  • 数据载入同数据存储间相对顺序可以改变。
  • 向同一个地址存储数据具有全局性的执行顺序。
  • 原子操作同数据存储间的顺序可以改变。
  • 这方面的例子包括SPARC PSO.

2.3  RMO (宽松内存定序)

  • 数据载入间的顺序可以改变。
  • 数据载入同数据存储间的顺序可以改变。
  • 数据存储间的顺序可以改变。
  • 向同一个地址存储数据具有全局性的执行顺序。
  • 原子操作同数据存储和数据载入间的顺序可以改变。
  • 这方面的例子包括Power27和ARM.7

图 1  一些体系架构的内存顺序标准

 

图 2  强内存顺序模型和弱内存顺序模型一些例子,

最左边的内存顺序一致性约束越弱,右边的约束是在左边的基础上加上更多的约束,X86/64 算是比较强的约束。

 

3  乱序执行和内存屏障

任何非严格满足SC规定的内存顺序模型都产生所谓乱序执行问题,从编程人员的代码,到编译器,到CPU运行,中间可能至少需要对代码次序做三次调整,每一次调整都是为了最终执行的性能更高。如下图

图 3  编译乱序和运行乱序

串行时代,编译器和CPU对代码所进行的乱序执行的优化对程序员都是封装好了的,无痛的,所以程序员不需要关心这些代码在执行时被乱序成什么样子。在单核多线程时代,mutex , semaphore 等机制在实现的时候考虑了编译和执行的乱序问题,可以保证关键代码区不会被乱序执行。在多核多线程时代,大部分情况下跟单核多线程是类似的,通过锁调用可以保证共享区执行的顺序性。但某种情况下,比如自己编写无锁程序,则会被暴露到这个问题面前。

 下面通过一个例子解释乱序执行和内存屏障这两个概念。

[来源:http://preshing.com/20120625/memory-ordering-at-compile-time]

示例代码:

int A, B;

void foo()

{

    A = B + 1;

    B = 0;

}

普通编译选项:

$ gcc -S -masm=intel foo.c

$ cat foo.s

        ...

        mov     eax, DWORD PTR _B  (redo this at home...)

        add     eax, 1

        mov     DWORD PTR _A, eax

        mov     DWORD PTR _B, 0

加上 -o2 优化编译选项,可以看到,B的赋值操作顺序变了

$ gcc -O2 -S -masm=intel foo.c

$ cat foo.s

        ...

        mov     eax, DWORD PTR B

        mov     DWORD PTR B, 0

        add     eax, 1

        mov     DWORD PTR A, eax

        ...

上述情况在某些场景下导致的后果是不可接受的,比如下面这段伪代码中,生产者线程执行于一个专门的处理器之上,它先生成一条消息,然后通过更新ready的值,向执行在另外一个处理器之上的消费者线程发送信号,由于乱序执行,这段代码在目前大部分平台上执行是有问题的:

处理器有可能会在将数据存储到message->value的动作执行完成之前和/或其它处理器能够看到message->value的值之前,执行consume函数对消息进行接收或者执行将数据保存到ready的动作。

图 4  乱序执行

回到之前的例子,加上一句内存屏障命令

int A, B;

 

void foo()

{

    A = B + 1;

    asm volatile("" ::: "memory");

    B = 0;

}

依然采用 o2 优化编译选项,发现这次B的赋值操作顺序没有变化

$ gcc -O2 -S -masm=intel foo.c

$ cat foo.s

        ...

        mov     eax, DWORD PTR _B

        add     eax, 1

        mov     DWORD PTR _A, eax

        mov     DWORD PTR _B, 0

        ...

在内存顺序一致性模型不够强的多核平台上,例子2的正确实现应该是下面这种,需要加上两个内存屏障语句。

图5  内存屏障

X86 的内存屏障 #define barrier() __asm__ __volatile__("": : :"memory")

更多X86内存屏障请参考 : http://blog.csdn.net/cnctloveyu/article/details/5486339

 

转载于:https://www.cnblogs.com/jiayy/p/3246157.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/376490.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Daily Scrum 11.18

今日完成任务: 1.在提问问题的时候为问题创建索引 2.解决了修改个人资料后刷新没有更新的问题 3.初步加入了采纳功能(没完善UI设计) 遇到困难:创建索引之后,跳转到主页,需要重新登录,找了半天不…

hyper-v 用户无法再 创建外部配置存储 0x80070005

windows server 2008R2 刚安装的hyper-v 重启过。 修改配置文件到d:\Hyper-V目录下, hyper-V 创建 服务器遇到错误 操作失败 创建外部配置存储:一般性拒绝访问错误 虚拟机ID 0x80070005 d:\hyper-V 安全权限为 everyone 所有,users 所有,admi…

C++ 虚函数表解析

C 虚函数表解析 陈皓 http://blog.csdn.net/haoel 前言 C中的虚函数的作用主要是实现了多态的机制。关于多态,简而言之就是用父类型别的指针指向其子类的实例,然后通过父类的指针调用实际子类的成员函数。这种技术可以让父类的指针有“多种形态”&#x…

HTTP协议 (四) 缓存

HTTP协议 (四) 缓存 阅读目录 缓存的概念缓存的好处Fiddler可以方便地查看缓存的header如何判断缓存新鲜度通过最后修改时间,判断缓存新鲜度与缓存相关的headerETag浏览器不使用缓存直接使用缓存,不去服务器端验证如何设置IE不使用缓存公有缓存和私有缓存…

ZooKeeper启动过程2:FastLeaderElection

前一篇文章中说到,启动ZooKeeper集群时,需要分别启动集群中的各个节点,各节点以QuorumPeer的形式启动,最后到达startLeaderElection和lookForLeader。 先说startLeaderElection 首先,初始化节点自身的currentVote【当前…

遮罩效果 css3

CSS3提供了遮罩效果,这是以前CSS2中比较难实现的一个新特性,配合SVG或者canvas同样也可以实现遮罩效果,他的效果就如下图所示: 简单的说就是在一个层上面加一个过滤层,过滤层透明度越低,底层就显示的越多,反…

配置SQLServer,允许远程连接

需要别人远程你的数据库,首先需要的是在一个局域网内,或者连接的是同一个路由器,接下来就是具体步骤: (一)首先是要检查SQLServer数据库服务器中是否允许远程链接。其具体操作为: (1…

聚类算法初探(八)数据尺度化问题

文中尺度化的一些具体公式可参见 http://blog.csdn.net/itplus/article/details/10088101 其他相关链接 引言 预备知识 直接聚类法 K-means DBSCAN OPTICS 聚类分析的效果评测 作者: peghoty 出处: http://blog.csdn.net/itplus/article/details/10484553 欢迎转载/分享, 但请…

【待完善】make: command not found,以及libtool.m4 and ltmain.sh have a version mismatch问题的解决方案...

之前为了使用一个库,都是去下载源码,然后根据开发者提供的README手动用GCC编译,一直不能使用Makefile感觉很蛋痛,比如最近使用的ZThread 还是怪自己以前过于依赖IDE 最近发现用Cygwin就可以使用诸如./configure, make这样的命令&a…

菜鸟nginx源码剖析

菜鸟nginx源码剖析 配置与部署篇(一) 手把手配置nginx “I love you” TCMalloc 对MYSQL 性能 优化的分析 菜鸟nginx源码剖析系列文章解读 Author:Echo Chen(陈斌) Email:chenb19870707gmail.com Blog&…

微信公众平台开发(59)相册

微信公众平台开发 微信公众平台开发模式 企业微信公众平台 万能相册 3G相册作者:方倍工作室 地址:http://www.cnblogs.com/txw1958/p/weixin-59-albums.html 相册(Photo album)又称影集或照片集,是用来装放相片的物品。相册主要用来收藏和保…

hadoop学习笔记:zookeeper学习(上)

在前面的文章里我多次提到zookeeper对于分布式系统开发的重要性,因此对zookeeper的学习是非常必要的。本篇博文主要是讲解zookeeper的安装和zookeeper的一些基本的应用,同时我还会教大家如何安装伪分布式,伪分布式不能在windows下实现&#x…

160 - 21 Cabeca

环境: Windows xp sp3 工具: exeinfope ollydbg 查壳: 拿到程序后查壳,发现程序无壳,为Delphi写的。 程序长成这个样 输入: Name:GNUBD Serial:1234567 Serial:76543…

160 - 22 CarLitoZ.1

环境 Windows xp sp3 工具 exeinfope Ollydbg 查壳 无壳的VB程序 测试 输入“1234567” 显示这个: 直接OD载入字符串搜索。 00402D20 > \55 push ebp 00402D21 . 8BEC mov ebp,esp 00402D23 . 83EC 0C sub e…

实战MEF(4):搜索范围

在前面的文章中,几乎每个示例我们都会接触到扩展类的搜索位置,我们也不妨想一下,既然是自动扩展,它肯定会有一个或者多人可供查找的位置,不然MEF框架怎么知道哪里有扩展组件呢? 就像我们用导航系统去查找某…

Android应用程序请求SurfaceFlinger服务创建Surface的过程分析

文章转载至CSDN社区罗升阳的安卓之旅,原文地址:http://blog.csdn.net/luoshengyang/article/details/7884628 前面我们已经学习过Android应用程序与SurfaceFlinger服务的连接过程了。连接上SurfaceFlinger服务之后,Android应用程序就可以请求…

160 - 23 Chafe.1

环境 Windows xp sp3 工具 exeinfope ollydbg 查壳 用exeinfoe查壳 测试 可以从左下角状态栏看出serial是无效的 直接OD载入字符串搜索 00401274 |. /75 17 jnz XChafe_1.0040128D 00401276 |. |6A 00 push 0x0 ; /Ti…

160 - 24 Chafe.2

环境: Windows xp sp3 工具 exeinfope OllyDBG 查壳 用exeinfope查壳,发现是没有壳的。 测试 可以看出是从红色框框里面的内容判断serial是否有效 OD载入,字符串搜索可以得到: 004011EC . 55 pus…

十个利用矩阵乘法解决的经典题目

转载自 Matrix67: The Aha Moments 好像目前还没有这方面题目的总结。这几天连续看到四个问这类题目的人,今天在这里简单写一下。这里我们不介绍其它有关矩阵的知识,只介绍矩阵乘法和相关性质。 不要以为数学中的矩阵也是黑色屏幕上不断变化的绿色…

160 - 25 CodeZero.1

环境 Windows xp sp3 工具 exeinfope OllyDBG 查壳 无壳的VB程序 测试 运行程序后出现Nag窗口,所以这次的目标是除Nag窗口和找到serial 程序运行后弹出Nag窗口,并且等待5秒后按钮的标题改成“Continue..”,点击后才会弹出输入seria…