目录
一、Model Hierarchy
二、CPU
三、Data Cache Object
四、Tags & Data Block
五、MSHR and Write Buffer Queues
六、Memory Access Ordering
七、Coherent Bus Object
八、Simple Memory Object
九、Message Flow
1、Memory Access Ordering(read access)
2、Memory Access Ordering(write access)
官网教程:gem5: gem5_memory_system
这个教程描述了gem5中的内存子系统,重点关注CPU在进行简单内存事务(读取或写入)期间的程序流程。
一、Model Hierarchy
该教程中使用的模型包括两个乱序(O3)ARM v7 CPU,带有相应的L1数据缓存和简单内存。通过以下参数在gem5中运行来创建该模型:
configs/example/fs.py –-caches –-cpu-type=arm_detailed –-num-cpus=2
针对gem5的示例配置文件configs/example/fs.py
的命令行参数。命令行指定了以下参数:
--caches
:启用缓存子系统,包括L1指令缓存和L1数据缓存。--cpu-type=arm_detailed
:使用ARM详细模型的CPU类型,这是一种准确模拟ARM处理器行为的CPU模型。--num-cpus=2
:指定使用两个CPU进行模拟。
(总之,这行命令就是通过使用这些参数,运行模拟器,并使用示例配置文件fs.py
来模拟具有缓存子系统的两个ARM处理器的行为。)
Gem5使用派生对象的模拟对象作为构建内存系统的基本块。它们通过端口连接,并建立了主/从层次结构。数据流从主端口发起,而响应消息和嗅探查询则出现在从端口上。(这个在前面的教程已经介绍过了,master port和slave port分别为主端口和从端口)
二、CPU
数据缓存对象(Data Cache object)实现了标准的缓存结构。
【其中比较陌生的MSHR,是指“Miss Status Holding Register”(缺失状态保存寄存器)。MSHR用于在缓存发生缺失(miss)时跟踪和处理缺失的数据。它类似于一个缓存的“等待区域”,用于存储等待从主存加载的数据块。当发生缺失时,MSHR负责发起内存请求,并在数据返回后将其传递给等待的CPU或缓存行。】
教程中并没有详细介绍有关O3 CPU的具体细节,大概讲了一些和模型相关的注意点:
1、读取访问(Read access)是通过将消息发送到指向DCache对象的端口来启动的。如果DCache拒绝该消息(因为被阻塞或忙碌),CPU将清空流水线,并在稍后重新尝试访问。接收到来自DCache的回复消息(ReadRep)后,访问完成。
2、写入访问(Write access)是通过将请求存储到存储缓冲区中,其上下文在每个时钟周期被清空并发送到DCache。DCache也可能拒绝该请求。当接收到DCache的写入回复(WriteRep)消息时,写入访问完成。
3、读取和写入访问的加载和存储缓冲区(Load & store buffers (for read and write access))不对活动内存访问的数量施加任何限制。因此,CPU模拟对象对CPU的内存访问请求的最大数量没有限制,而是受底层内存系统模型的限制。
4、分割内存访问(Split memory access)是在gem5中已经实现的。这意味着当一个内存访问请求涉及到多个连续的内存地址时,gem5可以将其分割为多个较小的子请求进行处理。通过分割内存访问,gem5可以更好地处理大型、连续的内存访问请求。这样可以提高内存系统的效率,并允许其他的处理任务在大型内存操作进行时继续进行,从而提高整体的系统性能。分割内存访问的实现确保了内存操作的正确性和一致性。
CPU发送的消息包含访问区域的内存类型(Normal、Device、Strongly Ordered和可缓存性)。然而,其余模型对内存类型采用了更简化的方法,因此并未使用这些信息。
三、Data Cache Object
数据缓存对象实现了标准的缓存结构:
Cached memory reads:匹配特定缓存标签(具有有效和读取标志)的缓存内存读取将在可配置的时间后完成(通过向CPU发送ReadResp)。否则,请求将转发到缺失状态和处理寄存器(MSHR)块。
Cached memory writes:匹配特定缓存标签(具有有效、读取和写入标志)的缓存内存写入将在相同可配置的时间后完成(通过向CPU发送WriteResp)。否则,请求将转发到缺失状态和处理寄存器(MSHR)块。
Uncached memory reads:未缓存的内存读取将转发到缺失状态和处理寄存器(MSHR)块。这表示需要从主存中读取数据,而不是从数据缓存中获取。MSHR是用于跟踪缺失状态的寄存器,它类似于一个缓冲区,用于存储等待从主存加载的数据块。当发生未缓存的内存读取时,该读取请求将被添加到MSHR中,gem5会向主存发送请求以获取所需的数据。一旦数据返回,gem5将通过向CPU发送ReadResp来完成未缓存的内存读取操作。
Uncached memory writes:未缓存的内存写入将转发到写入缓冲区(WriteBuffer)块。这意味着需要将数据写入主存,而不是仅在数据缓存中进行修改。写入缓冲区是一个专门用于暂存待写入主存的数据的缓冲区。当发生未缓存的内存写入时,该写入请求将被添加到写入缓冲区中。然后,gem5会周期性地将写入缓冲区中的数据上载到主存中,以确保数据的持久化。
Evicted (& dirty) cache lines:被替换(且脏)的缓存行将转发到写入缓冲区(WriteBuffer)块。gem5会将被替换的脏缓存行转发到写入缓冲区(WriteBuffer)块进行处理。当缓存行被替换并且被标记为脏时,gem5会将该脏缓存行数据添加到写入缓冲区中。然后,写入缓冲区的数据将周期性地写入主存,以确保脏数据的持久化。通过使用写入缓冲区,gem5可以将脏缓存行的写入操作与后续的主存写入操作解耦。
如果满足以下任何条件,则阻塞CPU对数据缓存的访问:
- MSHR块已满(MSHR缓冲区的大小可配置)。
- 写回块已满(块缓冲区的大小可配置)。
- 针对同一内存缓存行的未完成内存访问数量达到可配置的阈值。
数据缓存处于阻塞状态时,无论是缓存命中还是缓存未命中,都会拒绝来自从端口(CPU)的请求。请注意,主端口上的传入消息(响应消息和嗅探请求)永远不会被拒绝。
对不可缓存内存区域的缓存命中(根据ARM ARM的不可预测行为)将使缓存行失效并从内存中获取数据。
四、Tags & Data Block
缓存行(在源代码中称为块)按照可配置的关联度和大小组织成集合。它们具有以下状态标志:
- Valid(有效):表示缓存行中存储的数据是有效的,地址标签也是有效的。
- Read(读取):在设置了该标志之前,不会接受读取请求。例如,当缓存行等待写入标志完成写入访问时,它是有效的但不可读取。
- Write(写入):可以接受写入操作。带有写入标志的缓存行表示唯一状态 - 没有其他缓存存储器持有该副本。
- Dirty(脏):当被替换时,需要执行写回(Writeback)操作。
如果地址标签匹配,并且设置了Valid和Read标志,读取访问将命中缓存行。如果地址标签匹配,并且设置了Valid、Read和Write标志,写入访问将命中缓存行。
五、MSHR and Write Buffer Queues
缺失状态和处理寄存器(MSHR)队列保存了CPU的未完成内存请求的列表,这些请求需要对较低内存级别进行读取访问。它们包括:
- 缓存读取未命中(Cached Read misses)。
- 缓存写入未命中(Cached Write misses)。
- 未缓存的读取(Uncached reads)。
写入缓冲区队列保存了以下内存请求:
- 未缓存的写入(Uncached writes)。
- 来自被替换(且脏)的缓存行的写回(Writeback)【Writeback from evicted (& dirty) cache lines】。
每个内存请求都分配给相应的MSHR对象(上图中的读或写),该对象表示必须读取或写入的特定内存块(缓存行),以完成相应的命令。如上图所示,针对同一缓存行的缓存读取/写入具有共同的MSHR对象,并将通过单个内存访问完成。
块的大小(因此也是对较低内存的读写访问的大小)如下:
- 对于缓存访问和写回,使用缓存行的大小;
- 对于未缓存访问,根据CPU指令指定的大小。
一般来说,数据缓存模型区分了两种内存类型:
- 普通缓存内存:始终被视为写回、读取和写入分配。
- 普通未缓存、设备和强序类型被等同对待(视为未缓存内存)。
六、Memory Access Ordering
对于每个CPU读/写请求(按照它们在从属端口上出现的顺序),都会分配一个唯一的顺序号。MSHR对象的顺序号是从第一个分配的读/写请求中复制而来的。
这两个队列中的内存读取/写入将按照分配的顺序号依次执行。当这两个队列都不为空时,模型将从MSHR块执行内存读取,除非写入缓冲区已满。然而,它总是保持相同(或重叠)内存缓存行(块)上读取/写入的顺序。
总结一下:
- 对于缓存内存的访问顺序不会被保留,除非它们针对同一缓存行。例如,访问#1、#5和#10将在同一个时钟周期内同时完成(仍然按顺序)。访问#5将在访问#3之前完成。
- 所有未缓存内存写入的顺序都会被保留。Write#6始终在Write#13之前完成。
- 所有未缓存内存读取的顺序都会被保留。Read#2始终在Read#8之前完成。
- 未缓存访问的读取和写入的顺序不一定被保留,除非它们的访问区域重叠。因此,Write#6始终在Read#8之前完成(它们针对同一内存块)。然而,Write#13可能在Read#8之前完成。
七、Coherent Bus Object
一致性总线对象提供基本的Snoop协议支持:
所有从属端口上的请求都会转发到相应的主控端口。对于缓存内存区域的请求,也会转发到其他从属端口(作为Snoop请求)。
主控端口的回复会转发到相应的从属端口。
主控端口的Snoop请求会转发到所有从属端口。
从属端口的Snoop回复会转发到发出请求的端口。(请注意,Snoop请求的来源可以是从属端口或主控端口。)
在以下事件之后,总线会自行阻塞一段可配置的时间:
- 将数据包发送(或发送失败)到从属端口。
- 向主控端口发送回复消息。
- 将一个从属端口的Snoop响应发送到另一个从属端口。
总线处于阻塞状态时,会拒绝以下传入消息:
- 从属端口的请求。
- 主控端口的回复。
- 主控端口的Snoop请求。
八、Simple Memory Object
它永远不会阻塞从属端口上的访问。
内存读取/写入会立即生效。(读取或写入在收到请求时执行)。
回复消息会在可配置的一段时间后发送。
九、Message Flow
1、Memory Access Ordering(read access)
下图显示了命中具有有效和读取标志的数据缓存行的读取访问:
缓存未命中的读取访问将生成以下消息序列:
注意,总线对象从DCache2和Memory对象永远不会收到响应。它将完全相同的ReadReq数据包(消息)对象发送到内存和数据缓存。当数据缓存想要对Snoop请求进行回复时,它会使用MEM_INHIBIT标志标记该消息,告诉内存对象不要处理该消息。
2、Memory Access Ordering(write access)
下图显示了命中具有有效和写入标志的DCache1缓存行的写入访问:
接下来的图显示了命中具有有效但没有写入标志的DCache1缓存行的写入访问,这被视为写入未命中。DCache1发出UpgradeReq以获取写入权限。DCache2::snoopTiming将使命中的缓存行失效。请注意,UpgradeResp消息不携带数据。
下一个图显示了DCache中的写入未命中。ReadExReq使DCache2中的缓存行失效。ReadExResp携带内存缓存行的内容。
最后,还是有很多一知半解的零碎知识,先学完后再继续补充吧~
大年初一,祝大家新年快乐,龙年大吉!多发论文,篇篇顶刊顶会!