文章目录 摘要1、简介2、相关工作3、方法论3.1、初步3.2、Block设计3.3、宏观设计3.4、微观设计3.5、网络架构4、实验4.1、图像分类4.2、目标检测与实例分割4.3、语义分割 5、结论A. RepViTs架构一些名词的理解mobile-friendlinessEarly Convolutions 摘要 https://arxiv.org/pdf/2307.09283.pdf 近年来,与轻量级卷积神经网络(CNN)相比,轻量级视觉Transformers(ViTs)在资源受限的移动设备上表现出了更高的性