交叉注意力公式:
注意力的输入:
(1)K=V:图像的全局特征
(2)Q:告诉attention需要关注哪些重要特征
公式计算过程理解:
(1):Q和K相乘,对应Query和Key进行点积运算,得到的是Query和Key之间的相似性;
(2):再用Key向量的维度进行scaling,即将计算得到的相似度矩阵维度,缩放到与K=V相同尺度;
(3):对相似度权重矩阵进行归一化,即Q中任一元素与K的每个元素相似度权重之和都为1;
可以得到一个权重系数矩阵,这个系数矩阵代表在图像特征上重要特征的强弱程度(重要特征是Q所提供的);
(4):将重要特征的强弱程度权重系数矩阵施加到图像特征V上,得到最终的带有注意力权重分布的图像特征,在特征图V上属于Q的特征会被加强,不属于Q的特征会被减弱。