【小样本学习+目标检测】致力于通过有限的标注样本实现高效的目标检测,以应对数据匮乏的挑战。这一领域的研究对于缩小人工智能与人类学习系统之间的差异、增强模型对新类别的适应能力、推动智能识别系统在实际场景中的应用具有重要意义。
为了帮助研究人员深入理解【小样本学习+目标检测】领域的最新进展并探索创新途径,本文汇总了过去两年内该领域的20篇顶级会议和期刊论文的研究成果。这些论文及其来源、相关代码均已整理完毕,希望能为各位的学术探索提供新的视角和启发。
三篇论文详解
1、AsyFOD: An Asymmetric Adaptation Paradigm for Few-Shot Domain Adaptive Object Detection
方法
-
问题定义:在目标域中有少量标记图像可用于训练,同时有大量源域标记图像,研究少量目标域自适应对象检测(FSDAOD)。
-
目标分布估计:使用目标分布估计来识别与目标实例相似的源实例,以扩充有限的目标实例。
-
异步特征对齐:在目标不相似的源实例和扩充的目标实例之间进行异步对齐,以减轻过适应问题。
-
任务导向的监督训练:分别对分类和定位任务进行监督训练,以解决数据不平衡问题。
-
模型训练:通过结合异步分布对齐和任务导向的监督训练来优化检测器参数。
创新点
-
不对称适应范式:提出了一种新的不对称适应范式,通过从不同角度利用源和目标实例来解决数据不平衡问题。
-
目标相似源实例的识别:通过目标分布估计函数,将源实例集划分为目标相似和目标不相似的实例集,以扩充目标实例。
-
异步特征对齐:提出了一种异步特征对齐方法,该方法在优化检测器时对目标实例特征应用了停止梯度操作,以更好地对齐未观察到的目标样本。
-
任务导向的监督训练:针对分类和定位任务分别进行监督训练,以解决目标域中数据稀缺的问题。
2、Breaking Immutable: Information-Coupled Prototype Elaboration for Few-Shot Object Detection
方法
本文提出了一种名为Information-Coupled Prototype Elaboration (ICPE) 的方法,用于解决少样本目标检测(Few-Shot Object Detection, FSOD)问题。FSOD 旨在使检测器能够仅使用少量样本检测新类别的对象。ICPE 方法的核心是生成针对每个查询图像的特定且具有代表性的原型(prototypes)。具体方法包括:
-
条件信息耦合模块:该模块将查询分支中的信息与支持分支中的信息耦合起来,以增强支持特征中的查询感知信息。
-
原型动态聚合模块:该模块动态调整图像内和图像间的聚合权重,以突出对检测查询图像有用的显著信息。
-
查询分支与支持分支共享的公共骨干网络:用于提取查询图像和支持图像的特征。
-
原型生成:通过条件信息耦合模块和原型动态聚合模块,生成每个查询图像的特定原型。
-
目标检测:使用生成的原型作为查询分支中感兴趣区域(Region of Interest, RoI)特征的通道注意力(channel-wise attention),以提高检测头对查询图像中对象的检测精度。
创新点
-
条件信息耦合:提出了一种新的条件信息耦合模块,该模块能够将查询图像的信息整合到支持图像中,生成包含查询感知信息的耦合特征,从而为每个查询图像定制原型。
-
原型动态聚合:设计了一种原型动态聚合模块,通过动态调整聚合权重来强调原型中的显著信息,包括:
-
图像内动态聚合机制(Intra-DAM):通过构建局部到全局的依赖关系,突出每个支持图像内的重要局部信息。
-
图像间动态聚合机制(Inter-DAM):基于支持图像与查询图像之间的相似性,强调关键支持图像,生成类别特定的原型。
-
显著性能提升:在Pascal VOC和MS COCO数据集上的实验结果表明,ICPE方法在几乎所有设置中都达到了最先进的性能。
3、DiGeo: Discriminative Geometry-Aware Learning for Generalized Few-Shot Object Detection
方法
本文提出了一种名为DiGeo(Discriminative Geometry-aware)的新训练框架,旨在改善少样本目标检测(Few-Shot Object Detection, FSOD)任务中的泛化能力。DiGeo通过学习具有类别间分离(interclass separation)和类内紧凑性(intra-class compactness)的几何感知特征来提高模型性能。具体方法如下:
-
类别间分离:通过最大化类别中心之间的成对距离来实现类别间分离,使用离线的简单多面体等角紧框架(Simplex Equiangular Tight Frame, ETF)分类器作为目标,其权重作为类别中心,并保持最大且相等的分离。
-
类内紧凑性:通过自适应的类特定边界来收紧每个类的聚类,并将实例特征推向类别中心,以便形成清晰的决策边界。此外,考虑基础类别集和新颖类别集之间的巨大不平衡,提出上采样新颖类别集来促进特征提取。
-
自适应边界:基于实例分布先验计算类特定边界,并在训练期间通过自蒸馏过程自适应调整。
-
重复因子采样(Repeated Factor Sampling, RFS):通过对新颖类别的图像进行上采样,来处理类别不平衡问题。
创新点
-
离线ETF分类器:提出了一种新的离线ETF分类器,其权重作为固定中心,可以在训练期间最大化且相等地分离类别中心,有助于特征空间中不同类别的清晰区分。
-
自适应边界调整:通过将类特定边界纳入分类损失,提出了一种新的方法来收紧每个类的聚类,并通过自蒸馏技术自适应地调整边界,以改善从有限注释中学习的能力。
-
单一模型下的双重改进:与现有方法不同,DiGeo能够在不损害基础类别检测精度的情况下,同时提高对新颖类别的泛化能力。
-
长尾目标检测的扩展性:DiGeo不仅可以应用于FSOD,还可以扩展到长尾目标检测(Long-Tail Object Detection, LTD)任务,证明了其方法的通用性和有效性。
-
有效的重新采样策略:提出了一种有效的重复因子采样策略,与DiGeo方法紧密结合,可以进一步改善模型对新颖类别的检测精度。