AdaTAD（CVPR 2024）视频动作检测方法详解

前言

论文：End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames
代码：AdaTAD

从论文标题可以看出，AdaTAD 可以在 1B 参数且输入视频在 1000 帧的情况下实现端到端的训练，核心创新点是引入 Temporal-Informative Adapter (TIA) 模块来减少训练内存提高性能。
本文先根据代码说明模型训练全过程，再根据论文部分内容说明训练策略和改进思路。

Backbone

在这里插入图片描述
本文调试的模型使用 VideoMAE-S 作为 Backbone，此处简单介绍一下 MAE 的思想。CV 领域通常用分来任务来获取预训练模型，如图像分类、动作分类。MAE 是借鉴 NLP 完形填空的方式来训练预训练模型，遮住句子中的单词预测单词 $\to$ 遮住图像中的像素预测像素 $\to$ 遮住视频序列帧中的每张图像的像素预测像素。本质上都是对原始输入抽特征。

Conv3d 上方参数分别代表在时间维度 size=2, stride=2, padding=0，空间维度 size=16, stride=16, padding=0。
位置编码 Pos 按原版 Transformer 的方式用三角函数生成，词向量的数量为 $(224/16=14)^2\times8$ ，为了适应不同的分辨率会对原始 Pos 做插值调整，具体过程为 [1,1568,384] $\to$ [8,14,14,384] $\to$ [8,384,14,14] $\to$ 线性插值 [8,384,10,10] $\to$ [8,100,384] $\to$ [1,800,384]。
在训练时会冻结除了 Adapter 和 DropPath 以外的部分，关于训练策略方面之后和论文一起说明。
预处理 Preprocess 将输入数据的 768 帧拆分成 48 段 16 帧的小切片，后处理 Postprocess 的具体过程为 [96,384,8,10,10] $\to$ 空间维度求均值 [96,384,8] $\to$ 维度变换 [(b,t1),c,t]->[b,c,(t1,t)]=[2,384,384] $\to$ 时间维度线性插值 [2,384,768]。
Attention 和 FFN 的具体细节如下，其中 attention 为 torch.nn.functional.scaled_dot_product_attention，激活函数为 torch.nn.GELU。
从上面 Transformer 的结构可以看出，注意力的计算局限于小切片的 16 帧，Adapter 模块就是对整个时间维度做一次特征融合，具体操作如下所示。第一个 Conv1d 上方参数 groups=96，具体请看此处。与论文中结构图对应，FC 替换为 Conv1d。从操作上看就是把 BatchSize 中的时间部分提取出来，把空间部分合并进去，然后对整体的时间维度做一维卷积。

在这里插入图片描述

projection

在这里插入图片描述

CLR 代表 Conv1d + LayerNorm + ReLU，具体过程为 x = ReLU(LN(conv(x) * mask)) * mask，其中 Mask 形状为 [2,768] 代表原始帧是否为 padding 所得，在后续的操作中会一直用到 Mask（Backbone 阶段没有用）。
输入按照上图的流程得到了第一个特征 Feature [2,512,768]，在这之后还有 5 个结构相同的 block，每个 block 会对时间维度下采样 2 倍得到其余 5 份特征构成特征金字塔 [2,512,768/384/192/96/48/24]。
Attention 和 MLP 的具体细节如下，基本就是将原始 Transformer 结构中全连接层用卷积替代了。对于后 5 个下采样的 block，将 Attention 中 3,1,1,512 的卷积参数改为 3,2,1,512。

att = (q * self.scale) @ k.transpose(-2, -1)
att = att.masked_fill(torch.logical_not(kv_mask[:, None, None, :]), float("-inf"))
att = F.softmax(att, dim=-1)

Head

在这里插入图片描述

特征经过分类和回归分支，分别对应动作类别和动作时间段。这里每一层特征使用的 Head 权重是共享的。

Loss

分类损失使用 torch.nn.functional.binary_cross_entropy_with_logits，回归损失为 $1-\mathrm{DIoU}$ 。正样本选取的具体细节需要结合代码说明比较复杂，这里简单说一下整体思路。

输入数据与标签
数据最原始的标签是动作发生的起始时间和结束时间（单位：s），在 DataLoader 阶段对原始视频每 4 帧取 1 帧得到原始输入，视频的起点随机，不足的帧会做 padding 并对应生成 Mask，同时标签转化为对这个视频段的帧索引（转化过程按照原始视频帧索引操作，因此最终索引并非是整数）。总之，输入为 768 帧构成的视频段，标签为第几帧至第几帧为什么动作。
Anchor Free Points
AdaTAD 使用 Anchor Free 的方式做检测，对应图像目标检测特征图上空间分辨率的点作为一个 Anchor Point，动作检测用时序上点作为 Anchor Point。具体 Points 的构成如下，对应 6 层特征，每个 Point 有 4 个值，p[0] 代表的是时序点坐标，p[1] 和 p[2] 代表一个范围在后续正样本选取中说明，p[3] 代表时间维度的下采样倍率 stride。

在这里插入图片描述

正样本选取
- 条件1
  p[0] 是否在 box 全范围或是 box 中心范围的内部（取较小的范围），这个中心范围大小由 p[3] 生成。
- 条件2
  p[0] 距离 box 两端边界的较大值是否在 p[1] 和 p[2] 定义的范围内，可以看出和目标检测相对于，分辨率高的浅层特征用于检测小目标 / 短动作。
- 当一个 Anchor 可以和多个 box 匹配时，选择动作时间最短的。

论文

论文的一个核心研究点在于训练策略，表1 探索了输入形式和预训练模型的使用方式。Setting 中 Frozen 代表冻结 Backbone，End-to-End 代表开放 Backbone 做微调。输入形式中，Snippet 代表每个时间点是一个视频切片包含 16 帧，切片与切片之间可以有重叠区域。

在这里插入图片描述
本文调试的代码模型对应图2.c，使用了 parameter-efficient tuning (PEFT) 机制，在 Backbone 中插入 TIA 模块，只训练模块参数，但是梯度仍然需要通过整个 Backbone 来进行反向传播，因此提出了 d 方式，将 TIA 放置在 Backbone 外面，输出直接加到最后一层的输出中，梯度便不需要经过整个网络。