本文使用HCANet网络中的多尺度前馈网络来提高Backbone的表征能力和检测精度。即插即用,方便大家移植自己的模型中。
论文指导
原论文中的表述
B. 多尺度前馈网络
在 V i T \mathrm{ViT} ViT 中的原始 FFN 是由两个线性层所构成,这样的设计仅用于单尺度特征聚合。但是,FFN 的这种单尺度特征聚合所包含的信息是受限的。为了改善非线性特征变换,我们推出了一种名为多尺度前馈网络 (MSFN) 的结构。在每个 CAMixing 模块之后,CAFM 的输出都会被送到 MSFN 中,这样可以聚合多尺度的特征并强化非线性的信息转换。过去的研究已经显示了在图像去噪任务中,整合多尺度信息的有效性。
MSFN 的详细信息如图所示。我们采用两个 1