1
P108
有一条动态多功能流水线由5段组成(如图3.35所示),加法用1、3、4、5段,乘法用1、2、5段,第2段的时间为2△t,其余各段的时间均为△t,而且流水线的输出可以直接返回输入端或暂存于相应的流水寄存器中。若在该流水线上计算 ∑ i 4 ( A i × B i ) \sum_i^4(A_i×B_i) ∑i4(Ai×Bi),试计算其吞吐率、加速比和效率。
解:首先以表格形式给出时空图
计算过程为先计算所有乘法,再计算 A 1 × B 1 + A 2 × B 2 A_1\times B_1 + A_2\times B_2 A1×B1+A2×B2,再计算 A 3 × B 3 + A 4 × B 4 A_3 \times B_3 + A_4 \times B_4 A3×B3+A4×B4,最后相加
时钟周期 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
段1 | × \times × | × \times × | × \times × | × \times × | + + + | + + + | + + + | |||||||||||
段2 | × \times × | × \times × | × \times × | × \times × | × \times × | × \times × | × \times × | × \times × | ||||||||||
段3 | + + + | + + + | + + + | |||||||||||||||
段4 | + + + | + + + | + + + | |||||||||||||||
段5 | × \times × | × \times × | × \times × | × \times × | + + + | + + + | + + + |
总共18个 Δ t \Delta t Δt,输出了7个结果,故吞吐率为 7 18 = 0.389 \frac{7}{18} = 0.389 187=0.389
不用流水线,需要 4 × ( 1 + 2 + 1 ) + 3 × ( 1 + 1 + 1 + 1 ) = 28 Δ t 4 \times(1+2+1) + 3 \times(1 + 1 + 1 + 1) = 28 \Delta t 4×(1+2+1)+3×(1+1+1+1)=28Δt,故加速比为 28 18 = 1.56 \frac{28}{18} = 1.56 1828=1.56
效率为加速比/流水线段数 = 0.312
2
有一个 5 段流水线,各段执行时间均为 Δ t \Delta t Δt,其预约表如下:
(1)画出流水线任务调度的状态转移图。
(2)分别求出允许不等时间间隔调度和等时间间隔调度的两种最优调度策略,计算这两种调度策略的流水线最大吞吐率。
(3)若连续输入10个任务,分别求采用这两种调度策略的流水线的实际吞吐率和加速比?
解:
(1) 禁止表 F = { 6 , 3 , 1 , 3 , 1 } = { 1 , 3 , 6 } F = \{6, 3, 1, 3, 1\} = \{1, 3, 6\} F={6,3,1,3,1}={1,3,6}
所以冲突向量为 C = 100101 C = 100101 C=100101
状态转移图如下:
(2)
- 等时间间隔:只有 (5),故吞吐率为 1 5 = 0.2 \frac{1}{5} = 0.2 51=0.2
- 不等时间间隔:有 (2, 5), (2, 2, 5), (4, 5),所以最优调度为 (2, 2, 5),平均延迟为 3,吞吐率为 1 3 = 0.33 \frac{1}{3} = 0.33 31=0.33
(3)
- 等时间间隔:10个任务,需要 1 + 45 + 6 = 52 个 Δ t \Delta t Δt,吞吐率为 10 52 = 0.192 \frac{10}{52} = 0.192 5210=0.192, 加速比为 70 52 = 1.346 \frac{70}{52} = 1.346 5270=1.346
- 不等时间间隔:10个任务,需要 1 + 27 + 6 = 34 个 Δ t \Delta t Δt,吞吐率为 10 34 = 0.294 \frac{10}{34} = 0.294 3410=0.294, 加速比为 70 34 = 2.059 \frac{70}{34} = 2.059 3470=2.059
3
在 MIPS 流水线上运行以下代码序列
LOOP: LW R1,0(R2)DADDIU R1,R1,#1SW R1,0(R2)DADDIU R2,R2,#4DSUB R4,R3,R2BNEZ R4,LOOP
其中,R3的初值是R2+396。假设:在整个代码序列的执行过程中,所有的存储器访问都是命中的,并且在一个时钟周期中对同一个寄存器的写操作和读操作可以通过分别把它们安排在前半个时钟周期和后半个时钟周期来实现。请问:
(1) 在没有任何其他定向(或旁路)硬件的支持下,请画出该指令序列执行的流水线时空图。假设采用排空流水线的策略处理分支指令,且所有的存储器访问都命中Cache,那么执行上述循环需要多少个时钟周期?
(2) 假设该流水线有正常的定向路径,请画出该指令序列执行的流水线时空图。假设采用预测分支失败的策略处理分支指令,且所有的存储器访问都命中Cache,那么执行上述循环需要多少个时钟周期?
(3) 假设该流水线有正常的定向路径和一个单周期延迟分支,请对该循环中的指令进行调度,你可以重新组织指令的顺序,也可以修改指令的操作数,但是注意不能增加指令的 条数。请画出该指令序列执行的流水线时空图,并计算执行上述循环所需要的时钟周期数。
解:
(1)
这里我们采用最简单的流水线,如下图所示:
时钟周期 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
LW | IF | ID | EX | M | WB | |||||||||||||||||
DADDIU | IF | S | S | ID | EX | M | WB | |||||||||||||||
SW | IF | S | S | ID | EX | M | WB | |||||||||||||||
DADDIU | IF | ID | EX | M | WB | |||||||||||||||||
DSUB | IF | S | S | ID | EX | M | WB | |||||||||||||||
BNEZ | IF | S | S | ID | EX | M | WB | |||||||||||||||
LW | IF | S | S | IF | ID | EX | M | WB |
396/4 = 99
(注意在PC寄存器还需要一个clock,故在MEM段才能写入)
总共需要 (17*98) + 18 = 1684 个时钟周期
(2)
采用定向路径,那么得分情况讨论
- 若是ALU指令,那么在MEM段就能重定向到EX段
- 若是LW指令,那么强制令在WB段才能重定向到EX段
预测失败即为每次都预测错误。
这里假设分支指令在M段解决(如上图):
时钟周期 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
LW | IF | ID | EX | M | WB | |||||||||||
DADDIU | IF | ID | S | EX | M | WB | ||||||||||
SW | IF | S | ID | EX | M | WB | ||||||||||
DADDIU | IF | ID | EX | M | WB | |||||||||||
DSUB | IF | ID | EX | M | WB | |||||||||||
BNEZ | IF | ID | EX | M | WB | |||||||||||
LW | miss | miss | miss | IF | ID | EX | M | WB |
总共需要 (10*98) + 11 = 991 个时钟周期
(3)
调整为
LOOP: LW R1,0(R2)DADDIU R2,R2,#4DADDIU R1,R1,#1// change the orderDSUB R4,R3,R2BNEZ R4,LOOPSW R1,-4(R2)// remember to change the offset
时钟周期 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
LW | IF | ID | EX | M | WB | ||||||||||
DADDIU | IF | ID | EX | M | WB | ||||||||||
DADDIU | IF | ID | EX | M | WB | ||||||||||
DSUB | IF | ID | EX | M | WB | ||||||||||
BNEZ | IF | ID | EX | M | WB | ||||||||||
SW | IF | ID | EX | M | WB | ||||||||||
LW | miss | miss | miss | IF | ID | EX | M | WB |
总共需要 (8*98) + 10 = 803 个时钟周期