论文解析——Transformer 模型压缩算法研究及硬件加速器实现

作者及发刊详情

邓晗珂，华南理工大学

量化过程：

获取训练后的得到的浮点 Transformer 模型，通过百分比校准获取各线性层权重数据的初始量化系数，而后通过均方误差校准获取各线性层的权重数据的量化系数。
选取训练集中一部分在上述训练后模型基础上多次前向推理，获取该浮点模型中各层矩阵运算输入数据的分布情况，从而根据百分比校准核均方误差校准获取各层矩阵运算的输入数据的量化系数，利用这些系数计算每层矩阵运算输入数据的量化系数
将第1点和第2点得到的系数相乘得到各层偏置数据的量化系数

偏移对角矩阵结构化规则稀疏剪枝的训练策略：

包括片内全局缓存（包括输入缓存、权重缓存和中间结果/输出缓存）、运算单元阵列、softmax 计算单元、层归一化计算单元（Layer norm）和控制模块。
在这里插入图片描述

多个计算单元（Processing Element, PE）和加法单元组成，每个PE对输入和权重块进行计算

在这里插入图片描述

每个 PE 中包括 16个乘法器和 1 个数据分配器，可以完成向量乘矩阵操作，输出结果送入加法单元进行加法操作。

在这里插入图片描述

数据分配器的作用是根据偏移量对输入数据进行重新排列，从而完成索引匹配，保证分配后的输入数据和所对应的非零值权重数据相乘，同时也统一了密集矩阵运算和稀疏矩阵运算在 PE 内的数据流
这样无需在 PE 外对剪枝后的权重数据进行稀疏解码复原，同时不用对部分和输出或计算结果进行地址索引，乘法器的部分和输出排列顺序与最终输出数据的排列顺序一致

加法单元负责将所在列的 4 个 PE 产生的部分和结果或者偏置数据进行加法运算,每个加法器单元内部配备用于缓存部分和结果的 FIFO，与加法单元内部的累加器进行数据交互产生最终计算结果，这样可以缩短部分和的数据移动距离。

在这里插入图片描述

包括：数据预处理模块、指数计算模块、累加模块和对数计算模块等模块

softmax的计算：
对于一个K维向量 $x=[x_1,x_2,...,x_K]$ ，则softmax的输出向量s为：
$s_j=\frac{e^{x_j}}{\sum_{k=1}^{K} e^{x_k}}$

softmax的计算存在除法运算和指数计算的数据溢出两个问题
除法溢出问题：通过计算域变换，即将除法运算转换为减法和对数运算
指数计算溢出问题：将指数函数的输入进行等比例缩小，即将所有输入数据减去数据中的最大值 $x_m$ ，将指数函数的输入范围限定为 $(-\infty,0]，从而避免了数据溢出$

在这里插入图片描述

数据预处理模块除了要减去最大值 $x_m$ ，还需要对数据进行去量化操作
softmax 计算单元的输入数据的格式为 INT8，而且 Transformer 中的 softmax 的输入值需要根据 $KaTeX parse error: Expected '}', got 'EOF' at end of input: \sqrt{d_{k}$ 进行缩小，对应图中的右移 3bit
对数计算模块外的其他计算单元的计算并行度为 16