1. EMA介绍
1.1 摘要:在各种计算机视觉任务中说明了通道或空间注意机制在产生更可辨别的特征表示方面的显着有效性。 然而,通过通道降维来建模跨通道关系可能会给提取深度视觉表示带来副作用。 本文提出了一种新型高效的多尺度注意力(EMA)模块。 着眼于保留每个通道的信息并减少计算开销,我们将部分通道重塑为批量维度,并将通道维度分组为多个子特征,使空间语义特征在每个特征组内均匀分布。 具体来说,除了对全局信息进行编码以重新校准每个并行分支中的通道权重之外,还通过跨维度交互来进一步聚合两个并行分支的输出特征,以捕获像素级的成对关系。 我们使用流行的基准(例如 CIFAR-100、ImageNet-1k、MS COCO 和 VisDrone2019)对图像分类和目标检测任务进行了广泛的消融研究和实验,以评估其性能。
官方论文地址:https://arxiv.org/vc/arxiv/papers/2305/2305.13563v1.pdf
官方代码地址:https://