DETR: End-to-End Object Detection with Transformers论文学习

论文地址：https://arxiv.org/pdf/2005.12872
代码地址：https://github.com/facebookresearch/detr
相关学习视频：https://space.bilibili.com/94779326/lists?sid=1531941

标题前言：

DETR 是 Facebook 团队于 2020 年提出的基于 Transformer 的端到端目标检测，是Transformer在目标检测的开山之作 – DEtection TRansformer。
相比于传统的RCNN、Fast-RCNN、Faster-RCNN、YOLO系列，DETR有以下几个优点:

无需NMS后处理2
无需设定anchor
高效并行预测。

整个由网络实现端到端的目标检测实现，大大简化了目标检测的 pipeline。DETR在COCO 数据集上效果与 Faster RCNN 相当，在大目标上效果比 FasterRCNN 好，且可以很容易地将 DETR迁移到其他任务例如全景分割。

1. 基本结构

DETR的总体框架如图，分为三个部分，分别是：

提取图像的特征的backbone
使用了transformer的编码器解码器
prediction heads：FFN，前馈神经网络给出最后的类别和Box信息的预测

在这里插入图片描述
首先使用传统的卷积神经网络（CNN）主干网络来学习输入图像的二维表示。随后将特征信息加上位置编码送入encoder，这里的encoder进行特征序列构造。在decoder中会首先初始化100个向量（object queries)，这些向量通不断学习encoder构造的特征序列，再经过prediction heads将解码器的每个输出嵌入传递给一个共享前馈网络（FFN），该网络会预测检测结果（类别和边界框）或者 “无目标” 类别。

2. 基础的backbone

CNN：图像经过 CNN 学习后，得到（2048,H/32,W/32）的输出，然后和 position encoding 相加，输入 transformer-encoder

3. Encoder和Decoder

不同于原始的 transformer ，DETR 在以下方面对其进行修改
1）positional embeding： DETR 的只作用于 encoder 的 Q 和 encoder-decoder K，原始 transformer 作用于所有的 Q、K、V
2）object queries：DETR 的 object queries 一次性全部输入 decoder，而原始 transformer 是通过 shifted right 一个一个地移动
在这里插入图片描述
借用一张知乎对比图：

Object queries 是 N 个 learnable embedding，训练刚开始时可以随机初始化，比如 transformer-encoder 输出是 (B, N’, C)，则 Object queries 生成后得到大小为 (B, N, C)数，相当于用 Object queries 去查询 transformer-encoder 输出的目标类别和 box，N 一般取 100
训练时随机初始化 Object queries，训练过程中学习这个 embedding，训练完成后，embedding 确定下来，后续推理直接使用

4. FNN

prediction heads是DETR的分类器与回归器，其实就是对decoder提取出来的100个目标进行FFN操作，FFN采用全连接，经过FFN分别得到种类和边界框参数，将100个预测结构object predictions和真实框ground truth box之间通过匈牙利算法进行二分匹配，一个真实框只匹配一个预测结果，其它的预测结果作为背景进行拟合。最后通过反向传播来优化模型参数。