RT-DETR
摘要
- DETR取得显著性能,但高成本计算使其无法发挥无NMS的优势,无法实际应用。
- 本文分析了NMS对准确性和速度的负面影响,并建立端到端的速度基准。
- 第一个实时端到端检测器,高效处理多尺度特征,并提出IoU-aware query selection,向解码器提供了更高质量的初始object queries
- 可以灵活调整解码器层数来调整推理速度,不需要重新训练。
- 速度和精度都优于相同规模最先进的YOLO检测器。
介绍
- 尽管多尺度特征的引入有利于加速训练收敛和提高性能[49],但它也会导致编码器中序列长度的显著增加。
- 设计了高效的混合编码器来取代原来的transformer编码器。解耦了多尺度特征的尺度内交互和尺度间融合。
- 解码器的object queries初始化方案对检测性能至关重要,提出了IoU-aware query selection,通过在训练期间提供IOU约束来向解码器提供高质量的初始object queries
- 可以灵活调整解码器层数来调整推理速度,不需要重新训练。
- 文章贡献:1.第一个实时端到端对象检测器,速度精度达到SOTA。2.分析了NMS的影响。3.通过调整解码器层数,灵活调整推理速度不需要重新训练。
相关工作
- 实时对象检测:YOLO系列为标杆,锚框不再制约YOLO速度,而是NMS。
- 端到端目标检测:DETR,(收敛慢,查询难优化);deformableDETR,通过提高注意力机制的效率,加速了多尺度特征的训练收敛;Conditional DETR、Anchor DETR 降低了查询的优化难度;DAB-DETR引入4D参考点,并逐层优化预测框;DN-DETR通过引入查询去噪来加速训练收敛。Group-DETR通过引入分组一对多任务来加速训练。DINO建立在以前的工作基础上,取得了最先进的成果。
- 目标检测的多尺度特征:多尺度特征可以提高性能,尤其对于小物体,FPN在对象检测中广泛使用,引入DETR后提高了性能,但计算成本显著增加;Efficient DETR通过使用密集先验初始化对象查询来减少编码器和解码器层的数量。Sparse DETR选择性地更新期望由解码器引用的编码器令牌,从而减少计算开销。Lite DETR通过以交错方式降低低级别特征的更新频率来提高编码器的效率。这些工作减少了计算成本,但并没有使DETR成为实时检测器
检测器的端到端速度
- NMS的分析:NMS的执行时间取决于预测框的数量和两个超参数(得分阈值,IOU阈值);文章实验了有锚和无锚,的不同得分阈值下的锚框数量,不同得分阈值和IOU阈值下的AP和NMS耗时。证明了NMS对超参数的敏感性
- 建立了统一的推理速度基准后,测试了不同检测器的推理速度,结论为无锚在同等精度上优于基于锚的(会产生更多的预测框),后处理时间名明显减少。
RT-DETR模型
-
模型概述:由主干、混合编码器和带辅助预测头的变换解码器组成。
-
利用骨干{S3,S4,S5}的最后三个阶段的输出特征作为编码器的输入。混合编码器通过尺度内交互(AIFI)和跨尺度融合(CCFM)将多尺度特征转换为一系列图像特征。随后,采用IoU感知查询选择从编码器输出序列中选择固定数量的图像特征,作为解码器的初始对象查询。最后,具有辅助预测头的解码器迭代地优化对象查询以生成框和置信度得分。
-
高效混合编码器:优化了Deformable-DETR中多尺度transformer编码器中的计算冗余,连接的多尺度之间进行特征交互是多余的,并设计了ABCDE一系列的编码器变体进行实验验证;证明多尺度特征交互解耦为尺度内交互和跨尺度融合后提高了模型准确性并显著降低了计算成本
-
混合编码器结构: 基于注意力的AIFI和基于CNN的CCFM;AIFI仅在S5上执行尺度交互;CCFM在融合路径中插入了几个由卷积层组成的融合块,融合块将相邻特征合并为一个新特征;
-
RepBlock是什么?
-
IoU-aware Query Selection:DETR中的object queries ,难以解释和优化;后续工作对其初始化进行改进,增加了内容查询和位置查询。查询选择方案:利用分类得分从编码器中选择前K个特征来初始化object queries,但由于分类分数和位置置信度分布不一致,导致了高分类分数和低IOU分数的框;本文提出的IoU-aware Query Selection,在训练过程中约束模型为具有高IOU分数的特征产生高分类分数,为具有低IOU得分的特征产生低分类分数。因此选出的前K个预测框具有高分类得分和高IOU得分。将IOU分数引入分类分支的目标函数中
-
有效性分析:通过可视化普通选择(红)和IoU-aware Query Selection(蓝),可以发现蓝的更多且质量更好(靠右上)
实验
- 在COCO上进行实验,对比YOLO,SOTA和其他端到端检测器,都有显著提升
- 混合编码器的消融实验,见ABCDE的对照表,证明了尺度内特征交互,跨尺度特征融合,解耦两者和只对最高S5进行编码的正确性。
- IoU-aware Query Selection的消融实验:根据分类得分选择前K个编码器特征作为内容查询,并将这些所选特征对应的边界框用作初始位置查询,结果证明可以显著提升高分类和IOU分数的比例
- 解码器消融实验:实验了不同层数的RT-DETR的每个解码层的准确率和速度,精度的提升率逐层减少而时间消耗每层不变。