简单记录/推荐两篇博客,后续细化写一下:
图像中的各类 attention
https://blog.csdn.net/weixin_44505185/article/details/127013204
Cross-attention的直观理解
首先理解,cross-attention 是两个不同向量间的相关计算,一般Q叫做查询向量,K=V,V是被查询向量;
简单来讲,对图像而言,cross-attention可以看做:
将重要特征的强弱程度权重系数矩阵施加到图像特征V上,得到最终的带有注意力权重分布的图像特征,在特征图V上属于Q的特征会被加强,不属于Q的特征会被减弱。
https://blog.csdn.net/kdongyi/article/details/137084791