gem5学习(19):gem5内存系统——The gem5 Memory System

目录

一、Model Hierarchy

二、CPU

三、Data Cache Object

四、Tags & Data Block

五、MSHR and Write Buffer Queues

六、Memory Access Ordering

七、Coherent Bus Object

八、Simple Memory Object

九、Message Flow

1、Memory Access Ordering(read access)

2、Memory Access Ordering(write access)


官网教程:gem5: gem5_memory_system

这个教程描述了gem5中的内存子系统,重点关注CPU在进行简单内存事务(读取或写入)期间的程序流程。

一、Model Hierarchy

该教程中使用的模型包括两个乱序(O3)ARM v7 CPU,带有相应的L1数据缓存和简单内存。通过以下参数在gem5中运行来创建该模型:

configs/example/fs.py –-caches –-cpu-type=arm_detailed –-num-cpus=2

针对gem5的示例配置文件configs/example/fs.py的命令行参数。命令行指定了以下参数:

  • --caches:启用缓存子系统,包括L1指令缓存和L1数据缓存。
  • --cpu-type=arm_detailed:使用ARM详细模型的CPU类型,这是一种准确模拟ARM处理器行为的CPU模型。
  • --num-cpus=2:指定使用两个CPU进行模拟。

(总之,这行命令就是通过使用这些参数,运行模拟器,并使用示例配置文件fs.py来模拟具有缓存子系统的两个ARM处理器的行为。)

Gem5使用派生对象的模拟对象作为构建内存系统的基本块。它们通过端口连接,并建立了主/从层次结构。数据流从主端口发起,而响应消息和嗅探查询则出现在从端口上。(这个在前面的教程已经介绍过了,master port和slave port分别为主端口和从端口)

二、CPU

数据缓存对象(Data Cache object)实现了标准的缓存结构。

【其中比较陌生的MSHR,是指“Miss Status Holding Register”(缺失状态保存寄存器)。MSHR用于在缓存发生缺失(miss)时跟踪和处理缺失的数据。它类似于一个缓存的“等待区域”,用于存储等待从主存加载的数据块。当发生缺失时,MSHR负责发起内存请求,并在数据返回后将其传递给等待的CPU或缓存行。】

教程中并没有详细介绍有关O3 CPU的具体细节,大概讲了一些和模型相关的注意点:

1、读取访问(Read access)是通过将消息发送到指向DCache对象的端口来启动的。如果DCache拒绝该消息(因为被阻塞或忙碌),CPU将清空流水线,并在稍后重新尝试访问。接收到来自DCache的回复消息(ReadRep)后,访问完成。

2、写入访问(Write access)是通过将请求存储到存储缓冲区中,其上下文在每个时钟周期被清空并发送到DCache。DCache也可能拒绝该请求。当接收到DCache的写入回复(WriteRep)消息时,写入访问完成。

3、读取和写入访问的加载和存储缓冲区(Load & store buffers (for read and write access))不对活动内存访问的数量施加任何限制。因此,CPU模拟对象对CPU的内存访问请求的最大数量没有限制,而是受底层内存系统模型的限制。

4、分割内存访问(Split memory access)是在gem5中已经实现的。这意味着当一个内存访问请求涉及到多个连续的内存地址时,gem5可以将其分割为多个较小的子请求进行处理。通过分割内存访问,gem5可以更好地处理大型、连续的内存访问请求。这样可以提高内存系统的效率,并允许其他的处理任务在大型内存操作进行时继续进行,从而提高整体的系统性能。分割内存访问的实现确保了内存操作的正确性和一致性。

CPU发送的消息包含访问区域的内存类型(Normal、Device、Strongly Ordered和可缓存性)。然而,其余模型对内存类型采用了更简化的方法,因此并未使用这些信息。

三、Data Cache Object

数据缓存对象实现了标准的缓存结构:

Cached memory reads:匹配特定缓存标签(具有有效和读取标志)的缓存内存读取将在可配置的时间后完成(通过向CPU发送ReadResp)。否则,请求将转发到缺失状态和处理寄存器(MSHR)块。

Cached memory writes:匹配特定缓存标签(具有有效、读取和写入标志)的缓存内存写入将在相同可配置的时间后完成(通过向CPU发送WriteResp)。否则,请求将转发到缺失状态和处理寄存器(MSHR)块。

Uncached memory reads:未缓存的内存读取将转发到缺失状态和处理寄存器(MSHR)块。这表示需要从主存中读取数据,而不是从数据缓存中获取。MSHR是用于跟踪缺失状态的寄存器,它类似于一个缓冲区,用于存储等待从主存加载的数据块。当发生未缓存的内存读取时,该读取请求将被添加到MSHR中,gem5会向主存发送请求以获取所需的数据。一旦数据返回,gem5将通过向CPU发送ReadResp来完成未缓存的内存读取操作。

Uncached memory writes:未缓存的内存写入将转发到写入缓冲区(WriteBuffer)块。这意味着需要将数据写入主存,而不是仅在数据缓存中进行修改。写入缓冲区是一个专门用于暂存待写入主存的数据的缓冲区。当发生未缓存的内存写入时,该写入请求将被添加到写入缓冲区中。然后,gem5会周期性地将写入缓冲区中的数据上载到主存中,以确保数据的持久化。

Evicted (& dirty) cache lines:被替换(且脏)的缓存行将转发到写入缓冲区(WriteBuffer)块。gem5会将被替换的脏缓存行转发到写入缓冲区(WriteBuffer)块进行处理。当缓存行被替换并且被标记为脏时,gem5会将该脏缓存行数据添加到写入缓冲区中。然后,写入缓冲区的数据将周期性地写入主存,以确保脏数据的持久化。通过使用写入缓冲区,gem5可以将脏缓存行的写入操作与后续的主存写入操作解耦。

如果满足以下任何条件,则阻塞CPU对数据缓存的访问:

  • MSHR块已满(MSHR缓冲区的大小可配置)。
  • 写回块已满(块缓冲区的大小可配置)。
  • 针对同一内存缓存行的未完成内存访问数量达到可配置的阈值。

数据缓存处于阻塞状态时,无论是缓存命中还是缓存未命中,都会拒绝来自从端口(CPU)的请求。请注意,主端口上的传入消息(响应消息和嗅探请求)永远不会被拒绝。

对不可缓存内存区域的缓存命中(根据ARM ARM的不可预测行为)将使缓存行失效并从内存中获取数据。

四、Tags & Data Block

缓存行(在源代码中称为块)按照可配置的关联度和大小组织成集合。它们具有以下状态标志:

  • Valid(有效):表示缓存行中存储的数据是有效的,地址标签也是有效的。
  • Read(读取):在设置了该标志之前,不会接受读取请求。例如,当缓存行等待写入标志完成写入访问时,它是有效的但不可读取。
  • Write(写入):可以接受写入操作。带有写入标志的缓存行表示唯一状态 - 没有其他缓存存储器持有该副本。
  • Dirty(脏):当被替换时,需要执行写回(Writeback)操作。

如果地址标签匹配,并且设置了Valid和Read标志,读取访问将命中缓存行。如果地址标签匹配,并且设置了Valid、Read和Write标志,写入访问将命中缓存行。

五、MSHR and Write Buffer Queues

缺失状态和处理寄存器(MSHR)队列保存了CPU的未完成内存请求的列表,这些请求需要对较低内存级别进行读取访问。它们包括:

  • 缓存读取未命中(Cached Read misses)。
  • 缓存写入未命中(Cached Write misses)。
  • 未缓存的读取(Uncached reads)。

写入缓冲区队列保存了以下内存请求:

  • 未缓存的写入(Uncached writes)。
  • 来自被替换(且脏)的缓存行的写回(Writeback)【Writeback from evicted (& dirty) cache lines】。

每个内存请求都分配给相应的MSHR对象(上图中的读或写),该对象表示必须读取或写入的特定内存块(缓存行),以完成相应的命令。如上图所示,针对同一缓存行的缓存读取/写入具有共同的MSHR对象,并将通过单个内存访问完成。

块的大小(因此也是对较低内存的读写访问的大小)如下:

  • 对于缓存访问和写回,使用缓存行的大小;
  • 对于未缓存访问,根据CPU指令指定的大小。

一般来说,数据缓存模型区分了两种内存类型:

  • 普通缓存内存:始终被视为写回、读取和写入分配。
  • 普通未缓存、设备和强序类型被等同对待(视为未缓存内存)。

六、Memory Access Ordering

对于每个CPU读/写请求(按照它们在从属端口上出现的顺序),都会分配一个唯一的顺序号。MSHR对象的顺序号是从第一个分配的读/写请求中复制而来的。

这两个队列中的内存读取/写入将按照分配的顺序号依次执行。当这两个队列都不为空时,模型将从MSHR块执行内存读取,除非写入缓冲区已满。然而,它总是保持相同(或重叠)内存缓存行(块)上读取/写入的顺序。

总结一下:

  • 对于缓存内存的访问顺序不会被保留,除非它们针对同一缓存行。例如,访问#1、#5和#10将在同一个时钟周期内同时完成(仍然按顺序)。访问#5将在访问#3之前完成。
  • 所有未缓存内存写入的顺序都会被保留。Write#6始终在Write#13之前完成。
  • 所有未缓存内存读取的顺序都会被保留。Read#2始终在Read#8之前完成。
  • 未缓存访问的读取和写入的顺序不一定被保留,除非它们的访问区域重叠。因此,Write#6始终在Read#8之前完成(它们针对同一内存块)。然而,Write#13可能在Read#8之前完成。

七、Coherent Bus Object

一致性总线对象提供基本的Snoop协议支持:

所有从属端口上的请求都会转发到相应的主控端口。对于缓存内存区域的请求,也会转发到其他从属端口(作为Snoop请求)。

主控端口的回复会转发到相应的从属端口。

主控端口的Snoop请求会转发到所有从属端口。

从属端口的Snoop回复会转发到发出请求的端口。(请注意,Snoop请求的来源可以是从属端口或主控端口。)

在以下事件之后,总线会自行阻塞一段可配置的时间:

  • 将数据包发送(或发送失败)到从属端口。
  • 向主控端口发送回复消息。
  • 将一个从属端口的Snoop响应发送到另一个从属端口。

总线处于阻塞状态时,会拒绝以下传入消息:

  • 从属端口的请求。
  • 主控端口的回复。
  • 主控端口的Snoop请求。

八、Simple Memory Object

它永远不会阻塞从属端口上的访问。

内存读取/写入会立即生效。(读取或写入在收到请求时执行)。

回复消息会在可配置的一段时间后发送。

九、Message Flow

1、Memory Access Ordering(read access)

下图显示了命中具有有效和读取标志的数据缓存行的读取访问:

缓存未命中的读取访问将生成以下消息序列:

注意,总线对象从DCache2和Memory对象永远不会收到响应。它将完全相同的ReadReq数据包(消息)对象发送到内存和数据缓存。当数据缓存想要对Snoop请求进行回复时,它会使用MEM_INHIBIT标志标记该消息,告诉内存对象不要处理该消息。

2、Memory Access Ordering(write access)

下图显示了命中具有有效和写入标志的DCache1缓存行的写入访问:

接下来的图显示了命中具有有效但没有写入标志的DCache1缓存行的写入访问,这被视为写入未命中。DCache1发出UpgradeReq以获取写入权限。DCache2::snoopTiming将使命中的缓存行失效。请注意,UpgradeResp消息不携带数据。

下一个图显示了DCache中的写入未命中。ReadExReq使DCache2中的缓存行失效。ReadExResp携带内存缓存行的内容。

最后,还是有很多一知半解的零碎知识,先学完后再继续补充吧~

大年初一,祝大家新年快乐,龙年大吉!多发论文,篇篇顶刊顶会!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/678202.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++ shell - 在线 C++ 编译器

C shell - 在线 C 编译器 1. C shell2. Example program3. Options4. ExecutionReferences 1. C shell C Shell v2 https://cpp.sh/ https://cpp.sh/about.html C Shell v2, free online compiler, proudly uses emscripten to compile your code. emscripten is a clang-ba…

【计算机网络】Web HTTP

Web和HTTP HTTP 超文本传输协议 HyperText Transfer Protocol HTTP使用TCP作为支撑传输协议 由一个客户程序和一个服务器程序实现一些常见名词。。。无状态协议 stateless protocol 不保存关于客户的任何信息非持续/持续链接 non-persistent con…

深入浅出:MongoDB聚合管道的技术详解

随着数据量的不断增加,对于数据的有效查询和分析变得愈发重要。MongoDB作为一款高性能的NoSQL数据库,提供了强大的聚合管道(Aggregation Pipeline)功能,帮助开发者轻松地实现复杂的数据分析任务。本文将深入剖析聚合管…

Nginx 禁用静态文件缓存

在 Nginx 中完全禁用缓存静态文件,在 Nginx 的配置文件中,找到处理静态文件的 /location 配置块,如下: location / { root /path/to/static/files; ... } 在该配置块中,可以添加以下指令来禁用缓存&#xff1…

【数据结构】双向链表(链表实现+测试+原码)

前言 在双向链表之前,如果需要查看单链表来复习一下,链接在这里: http://t.csdnimg.cn/Ib5qS 1.双向链表 1.1 链表的分类 实际中链表的结构非常多样,以下情况组合起来就有8种链表结构: 1.1.1 单向或者双向 1.1.2 …

技术精英求职必备:Android开发工程师简历制作全指南

简历编写核心原则 撰写针对安卓开发工程师职位的简历时,关键在于准确展示您在使用Android SDK进行应用开发、界面设计和性能优化方面的专业技能、项目经验和技术成就。简历应突出您的Android编程能力、对Kotlin和Java的熟练运用,以及在移动应用开发领域…

【开源】JAVA+Vue.js实现车险自助理赔系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 角色管理模块2.3 车辆档案模块2.4 车辆理赔模块2.5 理赔照片模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 角色表3.2.2 车辆表3.2.3 理赔表3.2.4 理赔照片表 四、系统展示五、核心代码5.1 查询车…

《Django+React前后端分离项目开发实战:爱计划》 01 项目整体概述

01 Introduction 《Django+React前后端分离项目开发实战:爱计划》 01 项目整体概述 Welcome to Beginning Django API wih React! This book focuses on they key tasks and concepts to get you started to learn and build a RESTFul web API with Django REST Framework,…

ubuntu22.04@laptop OpenCV Get Started: 006_annotating_images

ubuntu22.04laptop OpenCV Get Started: 006_annotating_images 1. 源由2. line/circle/rectangle/ellipse/text 应用Demo3 image_annotation3.1 C应用Demo3.2 Python应用Demo3.3 重点过程分析3.3.1 划线3.3.2 画圆3.3.3 矩形3.3.4 椭圆3.3.5 文字 4. 总结5. 参考资料 1. 源由 …

mysql索引的概念以及数据结构

索引的概念: 目的和作用: MySQL索引是一种数据结构,用于加速数据库查询操作。它类似于书籍的目录,可以快速定位到所需的数据,而不必全表扫描。 工作原理: 当你在表上创建索引时,MySQL会在索引中…

MySQL篇----第二十篇

系列文章目录 文章目录 系列文章目录前言一、NULL 是什么意思二、主键、外键和索引的区别?三、你可以用什么来确保表格里的字段只接受特定范围里的值?四、说说对 SQL 语句优化有哪些方法?(选择几条)前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍…

Nginx实战:1-安装搭建

目录 前言 一、yum安装 二、编译安装 1.下载安装包 2.解压 3.生成makefile文件 4.编译 5.安装执行 6.执行命令软连接 7.Nginx命令 前言 nginx的安装有两种方式: 1、yum安装:安装快速,但是无法在安装的时候带上想要的第三方包 2、…

微软 CMU - Tag-LLM:将通用大语言模型改用于专业领域

文章目录 一、前言二、主要内容三、总结 🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 一、前言 论文地址:https://arxiv.org/abs/2402.05140 Github 地址:https://github.com/sjunhongshen/Tag-LLM 大语言模型&#xff08…

MYSQL分区NOW()不支持

传说同事写个复杂的SQL代码,跑一次需要7-10秒, 复杂如上,我也懒得去分析 IF IF IF是怎么回事了! 发现此表是分区表,后面要求加上了分区时间,以便利用到分区裁剪技术. 因为需求是查近10天来到期还款的人和金额.就是今天应该还款的人, 一般还款周期是7天. 给个10天的范围挺可以的…

从零开始学howtoheap:fastbins的double-free攻击实操1

how2heap是由shellphish团队制作的堆利用教程,介绍了多种堆利用技术,后续系列实验我们就通过这个教程来学习。环境可参见从零开始配置pwn环境:优化pwn虚拟机配置支持libc等指令-CSDN博客 1.fastbins的double-free攻击 下面的程序展示了fast…

计算机网络——07协议层次及服务模型

协议层次及服务模型 协议层次 网络是一个复杂的系统 网络功能复杂:数字信号的物理信号承载、点到点、路由、rdt、进程区分、应用等现实来看,网络的许多构成元素和设备: 主机路由器各种媒体的链路应用协议硬件,软件 问题是&am…

openJudge | 距离排序

总时间限制: 1000ms 内存限制: 65536kB 描述 给出三维空间中的n个点(不超过10个),求出n个点两两之间的距离,并按距离由大到小依次输出两个点的坐标及它们之间的距离。 输入 输入包括两行,第一行包含一个整数n表示点的个数,第二…

2024年华为OD机试真题-英文输入法-Java-OD统一考试(C卷)

题目描述: 主管期望你来实现英文输入法单词联想功能。需求如下: 依据用户输入的单词前缀,从已输入的英文语句中联想出用户想输入的单词,按字典序输出联想到的单词序列,如果联想不到,请输出用户输入的单词前缀。 注意: 1. 英文单词联想时,区分大小写 2. 缩略形式如”d…

springboot redis 实现消息队列

在Spring Boot中使用Redis作为消息队列&#xff0c;可以通过以下步骤实现&#xff1a; 1. 添加依赖 在pom.xml文件中添加Spring Boot Redis和Jedis的依赖&#xff1a; xml <dependencies> <!-- Spring Boot Redis --> <dependency> <g…

32MPU6050

MPU6050无SPI相关电路 硬件电路 ​编辑 MEMS说公司研发的微机电系统&#xff0c;可以用电子的方案进行姿态测量 芯片内部含有自由落体检测&#xff0c;运动检测和零运动检测 时钟源&#xff1a;内部晶振&#xff0c;陀螺仪晶振和外部时钟引脚的方波 运动检测有高通滤波器可…