目录
1.结构冒险:
2.数据冒险:
3.控制冒险:
指令执行过程:
取指(IF):从指令存储器或 Cache 中取指令。
译码/读寄存器(ID):操作控制器对指令进行译码,同时从寄存器堆中取操作数。
执行/计算地址(EX):执行运算操作或计算地址。访存(MEM):对存储器进行读/写操作。
写回(WB):将指令执行结果写回寄存器堆。
1.结构冒险:
由不同指令在同一时刻争用同一功能部件而形成的冲突,也称资源冲突,即由硬件资源竞争造成的冲突。
解决方法:
(1)前一指令访存时,使后一条相关指令及其后续指令暂停一个时钟周期。
例题:
指令和数据通常都存放在同一存储器中,在第4个时钟周期,第 i 条LOAD指令进入 MEM 段时,第i+3条指令的 IF 段也要访存取指令,此时会发生访存冲突。所以,在前一条指令访存时,暂停(一个时钟周期)取后一条指令的操作。
注:如果第i条指令不是LOAD 指令,在 MEM 段不访存,也就不会发生访存冲突。
(2)设置多个独立的部件。例如,对于寄存器访问冲突,可将寄存器的读口和写口独立开来;对于访存冲突,单独设置数据存储器和指令存储器。在现代Cache机制中,L1级 Cache通常采用数据Cache和指令Cache 分离的方式,从而也就避免了资源冲突的发生。
2.数据冒险:
数据冒险也称数据相关。引起数据冒险的原因是,后面指令用到前面指令的结果时,前面指令的结果还没有产生。在以非乱序执行的流水线中,所有数据冒险都是由于前面指令写结果之前,后面指令就需要读取而造成的,这种数据冒险称写后读(Read After Write,RAW)冲突。
补充:与非乱序执行的流水线相对应的是超标量流水线,其指令可以不按顺序执行,即乱序执行,不熟悉的可以看看这篇:
指令流水线
例如:
解决方法:
(1)延迟执行相关指令。把遇到数据相关的指令及其后续指令都暂停一至几个时钟周期,直到数据相关问题消失后再继续执行,可分为软件插入空操作“nop”指令和硬件阻塞(stall)两种方法。
对于上面的"写后读"冲突,可以暂停sub指令3个时钟周期,直至前面 add 指令的结果生成。
当然也可以,取指操作先做:
对于I1和 I2的数据相关问题,还可以通过将寄存器的写口和读口分别控制在前、后半个时钟周期内操作,使前半周期写入R1的值在后半周期马上被读出,在一个周期内读/写寄在器不会生冲突,这样I1的 WB段和I2 的ID段就可重叠执行,从而只需延迟2个时钟周期。
(2)设置相关转发通路,不等前一条指令把计算结果写回寄存器,下一条指令也不再从寄存器读。而将数据通路中生成的中间数据直接转发到 ALU 的输入端,也就是直接从EX/MEM流水寄存器中取操作数到ALU输入端进行运算。所以下图所示,add的“EX”操作后,紧接为sub的"EX"操作。
但是load指令与其后的运算类指令存在数据相关问题,则无法通过转发技术来解决。
例如:
I2 load r2,12(r1) #M[ (r1)+I2]--->(r2)
I3 add r4 r3,r2 #(r3)+(r2)--->(r4)
load 指令只有在 MEM 段结束时才能得到主存中的结果,然后送 MEM/WB 流水段寄存器,在 WB 段的前半周期才能存入R2的新值,但随后的 add 指令在 EX 阶段就要取 R2 的值,因此,得到的是旧值。(这里假设用了转发技术)
对于 load-use 数据冒险,最简单的做法是由编译器在add指令之前插入一条 nop指令,这样在 add 指令的 EX 段就可以从 MEM/WB 流水段寄存器中取出 load 指令的最新结果,当然,最好的办法还是在程序编译时进行优化,通过调整指令顺序以避免出现load-use观象。
例题1:
下列指令序列中,指令 I1 和 I3、I2 和 I3 之间发生数据相关。假定采用“取指、译码、取数、执行、访存,写回”五段流水线方式,那么在采用转发技术时,需要在指令I3之前加入( )条空操作指令才能使这段程序不发生数据冒险。
I1: add r1,r0, 1 #(r1)<--- (r0)+ 1
I2: load r3,12(r2) #(r3)<--- M[(r2) + 12]
I3: add r5,r3,r1 # (r5)<--- (r3)+(r1)
A. 3 B.2 C.0 D.1
答案:D
不发生任何流水线阻塞的执行顺序如下:
由于采用了转发技术,所以I3只要在I1的"EX"后执行取数操作即可,因为转发技术就是直接从EX/MEM流水段寄存器取值。所以 I3 与 I1 之间解决了“数据冒险”。
load 指令只在MEM段结束时才能取到主存中的数据,然后送MEM/WB 流水段寄存器,在WB段的前半周期才能将新值写入r3,但随后的add指令在EX阶段就要取r3的值了,因此会发生数据冒险。
在add前插入一条空操作指令就行:
例题2:
在采用“取指、译码/取数、执行、访存、写回”5段流水线的处理器中,执行如下指令序列,其中 s0、s1、s2、s3 和t2表示寄存器编号。
I1:add s2,s1,s0 //R[s2]<---R[s1]+R[s0]
I2:load s3,0(t2) //R[s3]<---M[ R[t2]+0 ]
I3:add s2,s2,s3 //R[s2]<---R[s2]+R[s3]
I4:store s2,0(t2) //M[R[t2]+0]<---R[s2]
下列指令对中,不存在数据冒险的是()。
A.I1和I3 B.I2和I3 C.I2和I4 D.I3和I4
答案:C
注:这里没有用到转发技术
对于A,B:
I3 的add指令要取 I1 的s2和 I2 的s3,需要等到两者的WB(写回)都结束才可以取操作数(ID),所以会发生“写后读”冲突。
对于D:
I4的store指令要用到I3的结果s2,所以只有在 I3 的WB(写回)后,才可以取操作数。
3.控制冒险:
指令通常是顺序执行的,但当遇到改变指令执行顺序的情况,例如执行转移或返回指令、发生中断或异常时,会改变PC值,从而造成断流,也称控制冲突。
解决方法:
(1)对于由转移指令引起的冲突,可采用和解决数据冲突相同的软件插入“nop”指令和硬件阻塞(stall)的方法。通常把因流水线阻塞带来的延迟时钟周期数称为延迟损失时间片(C)。
I1 loop:add Rl,R1,1 #(R1)+1→R1
I2 bne Rl,R2,loop #if(R1)!=(R2) goto loop
假设R2存放常数N,R1的初值为1,bne 指令在 EX 段通过计算设置条件码,并在 MEM 段确定是否将PC 值更新为转移目的地址,因此仅当bne指令执行到第5个时钟结束时才能将转移目标地址送PC。为此,在数据通路检测到分支指令后,可以在分支指令后插入C(C=3)条nop指令。
(2)对转移指令进行分支预测,尽早生成转移目标地址。分支预测分为简单(静态)预测和动态预测。
① 静态预测假定分支总是不发生或者总是发生,每次预测结果是一样的。若静态预测的条件总是不满足,则按序继续执行分支指令的后续指令。
② 动态预测根据程序转移的历史情况,进行动态预测调整,根据局部性原理,其预测成功率通常比静态预测技术高。预测错误时,已被错误放入流水线执行的指令必须被舍弃。
例题:
在采用“取指、译码/取数、执行、访存、写回”5 段流水线的 RISC处理器中,执行如下指令序列(第一列为指令序号),其中s0、s1、s2、s3 和t2表示寄存器编号。
若采用转发(旁路)技术处理数据冒险,采用硬件阻塞方式处理控制冒险,则在指令I1~I4的执行过程中,发生流水线阻塞的指令有()
A. 仅I3 B.仅I2、I4 C仅I3、I4 D、仅I2、I3、I4
答案:C
① I2 和 I1 之间存在数据冒险,但是I1在EX段结束时就已生成R[s2]的新值,并存放在EX/MEM 流水段寄存器中,采用转发技术后,可直接从该寄存器中取出数据送到 ALU 的输入端,这样 I2 执行时 ALU用的是 R[s2] 的新值,解决了I2和 I1 之间的数据冒险。
② I3 和 I2 之间存在数据冒险,属于 load-use 数据冒险,用转发电路无法解决 I3 和 12 的数据相关问题,原因在于 load指令 是从内存中取数,只有在 Mem 段结束时才能从主存中得到R[s3]的新值,但3的 EX 段就要用到R[s3],因此无法用转发技术解决。I3 仍需阻塞一个时钟周期,等到12的 Mem 段结束后,从I2的 Mem/WB流水段寄存器中取到 R[s3]的新值。
③ I4和I3之间存在控制冒险,beq 指令在 Ex段设置条件码,在Mem 段控制是否将转移地址送到PC,这之后才能开始根据PC内容取指令,因此I4需要进行硬件阻塞。
总结:
1.结构冒险:
load指令MEM段的访存与后面指令的IF取指(取指访存)冲突,后面指令暂停一个时钟周期。
2.数据冒险:
① 后面指令需等前面指令写回才能进行译码(ID)
② 如果用了转发技术,则可以从EX/MEM流水段寄存器取值到ALU输入端,从而解决数据冒险
③ 对于load-use数据冒险,需要等待前一条指令的"MEM"结束后,后面指令的“EX”才能到MEM/WB流水段寄存器取值。
3.控制冒险:
取指操作中,转移指令的下一条指令,需要在转移指令的"MEM"之后,才能进行取指(IF)操作。因为只有在MEM段才能确定,是将转移目标地址(满足转移条件)送入PC,根据PC内容取指令。还是取"PC+1"的指令(不满足转移条件)。