标题:TriDet:采用相对边界建模的时间动作检测
原文链接:TriDet: Temporal Action Detection With Relative Boundary Modeling (thecvf.com)https://openaccess.thecvf.com/content/CVPR2023/papers/Shi_TriDet_Temporal_Action_Detection_With_Relative_Boundary_Modeling_CVPR_2023_paper.pdf
源码链接:github.comhttps://github.com/dingfengshi/TriDet
发表:CVPR2023
目录
摘要
1.介绍
2.相关工作
3.方法
3.1. 方法概述
3.2. 特征金字塔与SGP层
3.3. 通过相对边界建模的Trident-head
动作边界的固有属性
Trident-head
与特征金字塔的结合
与具有显式边界建模的现有方法的比较
3.4. 训练与推理
4. 实验
4.1. 实现细节
4.2. 主要结果
4.3. 消融实验
5.结论
读后总结
摘要
这篇论文介绍了一个名为TriDet的单阶段框架,用于时间动作检测。现有方法通常由于视频中动作边界的模糊性而导致边界预测不精确。为了缓解这个问题,我们提出了一种新颖的Trident-head,通过估计边界周围的相对概率分布来建模动作边界。在TriDet的特征金字塔中,我们提出了一种高效的可扩展粒度感知(SGP)层,以减轻视频特征中自注意力引起的排名损失(rank loss)问题,并在不同时间粒度上聚合信息。受Trident-head和基于SGP的特征金字塔的影响,TriDet在三个具有挑战性的基准数据集THUMOS14、HACS和EPIC-KITCHEN 100上实现了最先进的性能,而计算成本较低,与先前的方法相比。例如,TriDet在THUMOS14上的平均mAP达到了69.3%,比先前最佳表现提高了2.5%,但计算延迟仅为其的74.6%。代码已发布到 https://github.com/dingfengshi/TriDet。
1.介绍
时间动作检测(TAD)旨在从未修剪的视频中检测所有动作的开始和结束时刻以及相应的动作类别,这引起了广泛关注。深度学习的帮助显著提高了TAD的性能。然而,由于一些未解决的问题,TAD仍然是一个非常具有挑战性的任务。
TAD中的一个关键问题是动作边界通常不明显。与物体检测中通常存在明确的物体与背景之间的边界不同,视频中的动作边界可能是模糊的。这一问题的具体表现是,在视频特征序列中,边界周围的时刻(即视频中的时间位置)通常具有相对较高的分类器预测响应值。
一些先前的工作尝试基于预测的时间段的全局特征来定位边界[21,22,29,46,51],这可能会忽略每个时刻的详细信息。另一种方法是直接基于单个时刻回归边界[32,47],可能还会使用其他一些特征[20,33,49],但这些方法不考虑边界周围相邻时刻之间的关系(例如,相对概率)。如何有效利用边界信息仍然是一个未解决的问题。
为了促进定位学习,我们假设视频中时间特征的相对响应强度可以减轻视频特征复杂性的影响并增加定位准确性。受此启发,我们提出了一种具有专门用于动作边界定位的新型检测头部Trident-head的单阶段动作检测器。具体来说,与直接基于中心点特征预测边界偏移不同,提出的Trident-head通过估计边界的相对概率分布来建模动作边界(见图1)。然后,根据相邻位置(即区间)的期望值计算边界偏移量。
图1。说明不同的边界建模。分段级:这些方法基于预测的时间段的全局特征来定位边界。即时级:它们直接基于单个瞬间回归边界,可能带有一些其他特征。我们的:动作边界是通过边界的估计相对概率分布来建模的。
除了Trident-head之外,在这项工作中,提出的动作检测器由主干网络和特征金字塔组成。近期的TAD方法[9, 40, 47]采用了基于Transformer的特征金字塔,并展示了令人期待的性能。然而,视频主干网络的视频特征往往在片段之间表现出很高的相似性,这种相似性被SA进一步恶化,导致了排名损失问题(见图2)。此外,SA还带来了显著的计算开销。
图2. 在HACS数据集和SlowFast主干网络中,我们分别统计了自注意力(SA)和SGP在每个时刻的特征与视频级别平均特征之间的平均余弦相似度。我们观察到SA表现出很高的相似性,表明其辨识能力较差(即排名损失问题)。相比之下,SGP解决了这个问题,并表现出更强的辨识能力。
幸运的是,我们发现先前基于Transformer的层(在TAD中)的成功主要取决于它们的宏观架构,即归一化层和前馈网络(FFN)如何连接,而不是自注意力机制。因此,我们提出了一种高效的基于卷积的层,称为可扩展粒度感知(SGP)层,来缓解自注意力的两个上述问题。SGP包括两个主要分支,其作用是增加每个时刻特征的区分度,并捕获具有不同尺度感受野的时间信息。
最终的动作检测器被称为TriDet。大量实验证明,TriDet超越了所有先前的检测器,并在三个具有挑战性的基准测试(THUMOS14、HACS和EPIC-KITCHEN 100)上实现了最先进的性能。
2.相关工作
时间动作检测。时间动作检测(TAD)涉及从未修剪的视频中定位和分类所有动作。现有方法大致可分为两类,即两阶段方法和一阶段方法。两阶段方法[33, 36, 43, 46, 53]将检测过程分为两个阶段:候选框(proposal)生成和候选框分类。大多数先前的工作[8, 13, 19, 21, 22, 26]都着重于候选框生成阶段。具体而言,一些工作[8,21,22]预测动作边界的概率,并根据预测分数密集地匹配起始和结束时刻。基于锚点的方法[13,19]从特定的锚窗口中对动作进行分类。然而,两阶段方法存在高复杂度的问题,并且无法以端到端的方式进行训练。一阶段方法使用单个网络进行定位和分类。一些先前的工作[20, 44, 45]使用卷积网络(CNN)构建了这种分层结构。然而,CNN-based 方法与最新的TAD方法之间仍然存在性能差距。
目标检测。目标检测是时间动作检测(TAD)的姊妹任务。通过Focal Loss [18] 将边界框回归从学习Dirac delta(狄拉克δ)分布转换为一个通用的分布函数。一些方法 [10, 15, 28] 使用深度卷积来建模网络结构,而一些分支设计 [16, 37] 展示了高度的泛化能力。它们对TAD的架构设计具有启发作用。
基于Transformer的方法。受到Transformer在机器翻译和目标检测领域取得的巨大成功的启发,一些最近的工作 [9, 25, 27, 35, 38, 47] 在时间动作检测任务中采用了注意力机制,这有助于提高检测性能。例如,一些工作 [27, 35, 38] 使用类似DETR的基于Transformer的解码器来检测动作,它将动作实例建模为一组可学习的内容。其他工作 [9, 47] 利用基于Transformer的编码器提取视频表示。然而,大多数这些方法都基于局部行为。也就是说,它们只在局部窗口内进行注意力操作,这引入了类似于CNN的归纳偏差,但带来了更大的计算复杂性和额外的限制(例如,序列的长度需要预先填充为窗口大小的整数倍)。
3.方法
问题定义。首先,我们给出时间动作检测(TAD)任务的形式化定义。具体来说,给定一组未修剪的视频,我们从每个视频Vi中提取出一组RGB(和光流)的时间视觉特征,其中T对应于时刻数。每个视频Vi都有Ki个段标签,其中包括动作段的起始时刻、结束时刻以及对应的动作类别。时间动作检测的目标是基于输入特征Xi检测出所有分段Yi。
3.1. 方法概述
我们的目标是构建一个简单高效的单阶段时间动作检测器。如图3所示,TriDet的整体架构包括三个主要部分:视频特征主干网络、SGP特征金字塔和面向边界的Trident-head。首先,使用预训练的动作分类网络(例如I3D [7]或SlowFast [14])提取视频特征。随后,构建一个SGP特征金字塔,以应对具有不同时间长度的动作,类似于一些最近的TAD工作 [9, 20, 47]。换句话说,时间特征被迭代地下采样,并且每个尺度级别都经过一个提出的可扩展粒度感知(SGP)层(第3.2节)处理,以增强不同时间范围内特征之间的交互作用。最后,通过设计的面向边界的Trident-head(第3.3节)检测动作实例。我们将在接下来详细介绍所提出的模块。
图3. TriDet的示意图。我们使用可扩展粒度感知(SGP)层构建金字塔特征。每个级别中的相应特征被馈送到一个共享权重的检测头部,以获取检测结果,其中包括分类头部和Trident-head。Trident-head基于三个分支预测的相对分布来估计边界偏移量:起始边界、结束边界和中心偏移。
3.2. 特征金字塔与SGP层
特征金字塔是通过首先通过最大池化(步幅为2)多次对视频主干网络的输出特征进行下采样而获得的。然后,对每个金字塔级别的特征使用类似Transformer的层进行处理(例如,ActionFormer [47])。
当前基于Transformer的TAD任务方法主要依赖于Transformer的宏观架构(详见补充材料),而不是自注意力机制。具体而言,自注意力(SA)主要遇到两个问题:在时间维度上的排名损失问题和高计算开销。
限制1:排名损失问题。排名损失问题是由于自注意力中的概率矩阵(即softmax(QKT))是非负的,并且每行的和为1,这表明SA的输出是值特征V的凸组合。考虑到纯粹的层归一化 [2] 将特征投影到高维空间中的单位超球面上,我们通过研究即时特征内的特征之间的最大角度来分析它们的可区分性程度。我们证明了在凸组合之后,特征之间的最大角度小于或等于输入特征的最大角度(凸组合之后的特征之间的相似性增加了),导致特征之间的相似性增加(如补充材料中所述),这可能对TAD造成不利影响。
凸组合是指将一组元素线性组合成一个新的元素,并且每个原始元素的系数是非负的,这些系数之和为1。
限制2:高计算复杂性。此外,自注意力机制中的密集的成对计算(即即时特征之间的计算)带来了高计算开销,从而降低了推理速度。
SGP层。基于上述发现,我们提出了一种可扩展粒度感知(SGP)层,以有效地捕获动作信息并抑制排名损失。Transformer层和SGP层之间的主要区别在于用完全卷积模块SGP(Scalable-Granularity Perception)替换了自注意力模块。连续的层归一化 [2](LN)被改为群归一化 [41](GN)。
如图4所示,SGP包含两个主要分支:即时级别分支和窗口级别分支。在即时级别分支中,我们旨在通过扩大特征距离来增加动作和非动作瞬时时刻之间的特征可区分性,其中特征距离是指它们与视频级平均特征之间的距离。窗口级别分支旨在通过一个分支ψ引入更广泛的感受野的语义内容,以帮助动态聚焦于哪些尺度的特征。数学上,SGP可以写成:
其中FC和分别表示全连接层和沿时间维度的1-D深度卷积层[10],其窗口大小为w。
:卷积核每次处理一个时序数据(或称为时间步),每个时序数据包含w个特征,帮助模型捕获时间序列数据中的局部特征;
:卷积核每次处理k个连续的时序数据,每个时序数据包含w个特征,模型可以更好地捕获时间序列数据中的长距离特征。
图4. SGP层结构示意图。我们用SGP替换了自注意力和第二个层归一化(LN),用组归一化(GN)替换了第二个层归一化。
作为SGP的一个标志性设计,k是一个可扩展因子(由自己设定,在4.3消融实验部分表6下有提及),旨在捕获更大粒度的时间信息。视频级平均特征ϕ(x)和分支ψ(x)定义如下:
其中AvgPool(x)是沿时间维度的所有特征的平均池化(平均特征)。在这里,ϕ(x)和ψ(x)都与主要特征进行逐元素乘法。
由此产生的基于SGP的特征金字塔可以在比Transformer-based特征金字塔更高效的情况下实现更好的性能。
3.3. 通过相对边界建模的Trident-head
动作边界的固有属性
关于检测头,一些现有方法直接回归特征的每个时刻的动作的时间长度[47],并与边界特征[20, 33]或[21, 22, 46]进行细化,或者简单地预测动作性评分(表示可能是动作的概率)。这些简单的策略在实践中存在问题:由于视频中动作的固有属性,边界预测不准确。换句话说,与目标检测中的边界不同,动作的边界通常不明显。直观地说,一种更统计的边界定位方法可以减少不确定性并促进更精确的边界。
Trident-head
在这项工作中,我们提出了一个面向边界的Trident-head,基于相对边界建模来精确定位动作边界,即考虑在一定时间段内特征之间的关系,并获得该时间段内每个时刻作为边界的相对概率。Trident-head包括三个组成部分:起始头部、结束头部和中心偏移头部,分别用于定位动作的起始边界、结束边界和时间中心。Trident-head可以与检测器一起进行端到端的训练。
图5. Trident-head的边界定位机制。我们对每个时刻预测边界响应和中心偏移。在时刻t,相邻区间中的预测边界响应与时刻t对应的中心偏移进行逐元素求和,这进一步被估计为相对边界分布。最后,偏移是基于区间的期望值计算的。
具体地,如图5所示,给定来自特征金字塔的特征序列,我们首先从三个分支中获得三个特征序列(即,),其中B是边界预测的区间个数,Fs和Fe分别描述每个时刻作为动作起始点或结束点的响应值。此外,中心偏移头旨在估计两个条件分布。它们表示当瞬间t是一个动作的中点时,每个瞬间(在它的一组箱子中)作为边界的概率。然后,结合边界头和中心偏移头的输出对边界距离进行建模::
其中,分别是时刻t左侧相邻B个区间的特征和仅由时刻t预测的相较于真正中间位置的中心偏移,是相对概率,表示每个时刻在区间内作为动作开始的概率。然后,时刻t与动作实例起始时刻之间的距离由相邻B个区间的期望给出。类似地,终点边界的偏移距离可由:
所有头部都简单地由三层卷积网络进行建模,并在所有特征金字塔级别共享参数,以减少参数数量。
与特征金字塔的结合
我们将Trident-head应用于预定义的本地区间集合中,通过与特征金字塔的结合可以进一步改进。在这种设置中,特征金字塔的每个级别都使用相同数量的小区间B(例如,16个区间),然后每个级别l的相应预测可以按进行缩放,这可以显著帮助稳定训练过程(这种缩放可以帮助稳定训练过程,因为它使得不同级别之间的预测结果具有一致的尺度)。
正式地说,对于第l个特征级别中的一个时刻,TriDet使用上面描述的Trident-head来估计边界距离和,然后通过以下方式解码片段:
与具有显式边界建模的现有方法的比较
许多先前的方法改进了边界预测。我们将它们分为两个广泛的类别:基于对段中时刻进行采样的预测和基于单个时刻的预测。第一类根据预测实例段的全局特征来预测边界,它们只考虑全局信息,而不考虑每个时刻的详细信息。第二类直接基于时刻级特征预测时刻与其相应边界之间的距离,其中一些使用边界特征来优化段,然而,它们没有考虑相邻时刻的关系(即作为边界的相对概率)。所提出的Trident-head与这两类方法有所不同,并且在精确的边界定位方面表现出更好的性能。
3.4. 训练与推理
特征金字塔的每一层l都输出一个时序特征,然后将其输入到分类头和Trident-head中进行动作实例检测。特征金字塔层l中每个时刻t的输出被表示为。其中表示动作类别,分别表示起始边界和终点边界的偏移距离。
总损失函数定义如下:
其中是预测片段边界与实际真实行为时刻之间的时间IoU, 和分别是focal loss和IoU损失。 和分别表示正样本和负样本的数量。术语用于重新加权每个时刻的分类损失,使得具有更好回归结果(即质量更高)的时刻对训练贡献更大。遵循先前的方法,采用中心抽样来确定正样本。换句话说,围绕动作实例的中心的时刻被标记为正样本,而其他所有时刻被视为负样本。
推断时。保留分类分数高于阈值λ的时刻及其对应的实例。最后,使用Soft-NMS [4] 对预测的实例进行去重。
4. 实验
我们在四个具有挑战性的数据集上进行了实验:THUMOS14 [17]、ActivityNet-1.3 [5]、HACS-Segment [50] 和 EPIC-KITCHEN 100 [11]。THUMOS14 包含 20 个运动动作类别,训练集和测试集分别包含 200 和 213 个未剪辑视频,以及 3,007 和 3,358 个动作实例。ActivityNet 和 HACS 是两个大规模数据集,共有 200 个动作类别。它们分别有 10,024 和 37,613 个视频用于训练,以及 4,926 和 5,981 个视频用于测试。EPIC-KITCHEN 100 是一个大规模的第一人称视角数据集,它包含两个子任务:名词定位(例如门)和动词定位(例如打开门)。它包含 495 和 138 个视频,分别用于训练和测试,其中动作实例分别为 67,217 和 9,668 个。名词和动词的动作类别分别为 300和97.
对于所有这些数据集,我们只能访问训练和验证集的注释。按照以往的做法 [9, 21, 46, 47],我们在验证集上进行评估。我们报告不同交并比(IoU)阈值下的平均精度(mAP)。对于THUMOS14和EPIC-KITCHEN,我们报告的IoU阈值范围为 [0.3:0.7:0.1] 和 [0.1:0.5:0.1]。对于ActivityNet和HACS,我们报告的结果在IoU阈值 [0.5, 0.75, 0.95] 处,并且平均mAP是在 [0.5:0.95:0.05] 处计算的。
IoU阈值范围为 [0.3:0.7:0.1] 意味着在评估时,会使用从0.3到0.7的IoU阈值范围,并且以0.1的间隔逐步增加。换句话说,会在0.3、0.4、0.5、0.6和0.7这几个特定的IoU阈值处计算精度。
4.1. 实现细节
TriDet采用AdamW [31]优化器进行端到端的训练。初始学习率设置为10^(-4)用于THUMOS14和EPIC-KITCHEN,而对于ActivityNet和HACS则设置为10^(-3)。在开始边界头部和结束边界头部之前,我们会分离梯度,并且使用高斯分布N(0, 0.1)初始化这两个头部的CNN权重,以稳定训练过程。学习率使用余弦退火调度进行更新。我们对于THUMOS14、EPIC-KITCHEN(动词部分)、EPIC-KITCHEN(名词部分)、ActivityNet和HACS进行了分别为40、23、19、15和13个epochs的训练(包括预热阶段分别为20、5、5、10和10个epochs)。
对于ActivityNet和HACS,Trident-head的区间数B设置为12和14,卷积窗口w设置为15和11,缩放因子k分别设置为1.3和1.0。对于THUMOS14和EPIC-KITCHEN,Trident-head的区间数B设置为16,卷积窗口w设置为1,缩放因子k设置为1.5。我们将缩放后的窗口大小四舍五入至最近的奇数以便计算。我们在一台NVIDIA A100 GPU上进行实验。
在这里,"缩放因子"指的是用于调整特征图尺寸的比例因子。在TriDet中,不同级别的特征金字塔可能具有不同的空间分辨率。通过调整缩放因子,可以控制每个级别的特征图与原始输入图像之间的空间尺寸比例。这有助于适应不同尺寸和持续时间的动作,并确保在各个尺度上都能有效地检测到动作实例。
4.2. 主要结果
THUMOS14。我们采用了广泛使用的I3D [7]作为我们的骨干特征,表1呈现了结果。我们的方法实现了平均mAP为69.3%,优于所有先前的方法,包括一阶段和两阶段方法。值得注意的是,我们的方法还比最近的基于Transformer的方法[9, 27, 33, 35, 47]取得了更好的性能,这表明简单的设计也可以取得令人印象深刻的结果。
HACS。对于HACS-segment数据集,我们基于两种常用的特征进行实验:官方的I3D [7]特征和SlowFast [14]特征。如表2所示,我们的方法使用官方特征实现了36.8%的平均mAP。它是最先进的,并且在平均mAP上比之前最佳模型TadTR提高了约4.7%。我们还表明将骨干网络更换为SlowFast可以进一步提升性能,平均mAP增加了1.8%,这表明我们的方法可以从更先进的骨干网络中获益。
EPIC-KITCHEN。在这个数据集上,遵循所有以前的方法,我们采用SlowFast作为骨干特征。我们的主要比较方法是ActionFormer [47],它在EPICKITCHEN 100数据集中表现出了很好的性能。我们在表3中呈现结果。我们的方法在动词和名词两个子任务中都取得了显著的改进,分别实现了25.4%和23.8%的平均mAP。值得注意的是,我们的方法在相同特征下大幅优于ActionFormer(分别在动词和名词上的平均mAP提高了1.9%)。此外,我们的方法在这个具有挑战性的数据集上实现了最先进的性能。‘
ActivityNet。对于ActivityNet v1.3数据集,我们采用了TSP R(2+1)D作为我们的骨干特征。按照以前的方法,我们采用UntrimmedNet预测的视频分类得分与最终的检测得分相乘。表4显示了结果。我们的方法仍然表现出了很有希望的结果:TriDet优于具有相同特征的第二好模型[47],仅略逊于TCANet [33],后者是一种两阶段方法,使用的是SlowFast作为骨干特征,但目前无法获取。
4.3. 消融实验
在本节中,我们主要在THUMOS14数据集上进行消融研究。
主要组件分析。我们展示了TriDet中提出的组件的有效性:SGP层和Trident-head。为了验证我们的SGP层的有效性,我们使用[20,47]中使用的基线特征金字塔来替换我们的SGP层。基线由两个1D卷积层和直连组成。卷积层的窗口大小设置为3,中间特征的通道数设置为与我们SGP层中的FFN中间维度相同的维度。所有其他超参数(例如金字塔层数等)都设置为与我们的框架相同。
如表5所示,与我们实现的基线模型(第1行)相比,SGP层在平均mAP上带来了6.2%的绝对改善。其次,我们将SGP与先前的最先进方法ActionFormer进行比较,ActionFormer采用滑动窗口行为[3]中的自注意机制,窗口大小为7(第2行)。我们可以看到我们的SGP层在平均mAP上仍然提高了1.5%,表明卷积网络在TAD任务中也可以表现出优秀的性能。此外,我们将我们的Trident-head与普通的即时级别回归头进行比较,后者为每个时刻回归边界距离,我们可以看到Trident-head将平均mAP提高了1.0%,在高IoU阈值的情况下(例如,在IoU 0.7时平均mAP提高了1.6%)改进更为明显。
对于计算复杂性和延迟的比较,我们可以分析TriDet与最近的ActionFormer [47]之间的差异。ActionFormer通过引入基于Transformer的特征金字塔,为TAD带来了显著的改进。
如表6所示,我们将检测器分为两个部分:主体架构和检测头(例如,分类头和回归头)。我们报告了每个部分的GMACs,并在THUMOS14数据集上使用形状为2304×2048的输入进行推断时的推断延迟(平均五次),遵循[47]的方法。我们还分别报告了使用Trident-head 和普通回归头时的结果。首先,从第一行可以看出,我们的主体架构与SGP层的GMACs仅为ActionFormer的47.1%(14.5与30.8),总体延迟仅为ActionFormer的65.2%(146毫秒与224毫秒),但TriDet的平均mAP仍然比Actionformer高出1.5%,这表明我们的主体架构比局部基于Transformer的方法要好得多。此外,我们进一步评估了我们的方法与Trident-head。实验结果表明,我们的框架可以通过Trident-head得到改进,进而带来1.0%的平均mAP改进,而GMACs仍然比ActionFormer小1.6G,延迟仍然只有其74.6%,证明了我们方法的高效性。
GMACs是"Giga Multiply-Accumulates"的缩写,表示每秒十亿次的乘累加操作数量。在机器学习中,GMACs通常用来衡量神经网络的计算复杂度,是评估模型计算性能和效率的重要指标之一。
这段话描述了在SGP层中窗口大小的剖析。首先,固定k=1,改变w的值。其次,固定w=1,改变k的值。最后,将结果呈现在THUMOS14数据集的图表中。研究发现,在两个数据集上,不同的w和k的选择都产生了稳定的结果。对于THUMOS14数据集,最佳值为w=1,k=5。
特征金字塔级别的有效性。为了研究特征金字塔的有效性及其与Trident-head区间数量的关系,我们从具有16个区间和6个级别的特征金字塔开始进行消融实验。我们进行了两组实验:在特征金字塔中固定数量的区间或每个级别的区间数量按比例缩放。如表7所示,我们可以看到随着级别数量的增加,检测性能提高。较少的级别(即少于3个级别)中,更多的区间带来了更好的性能。这是因为级别数量较少时,需要更多的区间来预测具有长时间的动作(即在最高级别上具有更高分辨率,需要多个区间来划分复杂的特征)。我们在6个级别时获得了最佳结果。
对区间数量的消融分析。在这一部分中,我们在THUMOS14和HACS数据集上展示了关于区间数量选择的消融结果,如表8所示。我们观察到,在THUMOS14和HACS数据集上的最佳值分别为16和14。我们还发现,较小的区间值会导致HACS数据集的性能显著下降,但对于THUMOS14则没有这种情况。这是因为THUMOS14数据集旨在从长视频中检测大量动作片段,较小的区间值可以满足要求,但在HACS上,存在更多持续时间较长的动作,因此需要更多的区间。
5.结论
在本文中,我们旨在利用简单的一阶卷积模型TriDet和相对边界建模来改善时间动作检测任务。对THUMOS14、HACS、EPIC-KITCHEN和ActivityNet的实验表明,我们的方法具有很强的泛化能力,在前三个数据集上实现了最先进的性能,并在ActivityNet上取得了可比较的结果。进行了大量的消融研究,以验证每个提出的组件的有效性。
读后总结
出发点1:视频中动作边界模糊而导致边界预测不准确,进而影响动作识别的准确度。
创新点1:提出一种Trident Head,通过Trident Head中的起始头部、结束头部和中心偏移头部,分别用于定位动作的起始边界、结束边界和中心偏移,得到每个时刻作为起始、结束、中心的概率,从而判断出t时刻动作的边界位置和与该动作真实中间位置的中心偏移,结合中心偏移和边界位置从而更加精准的得到边界距离。
出发点2:Transformer中经过SA模块处理的片段,片段之间会表现出更高的相似性,从而降低每个片段之间的区分度。
创新点2:将特征金字塔和可扩展粒度感知SGP层结合,特征金字塔的每层特征都会通过SGP层处理,其中SGP层是通过改进Transformer层得到的,Transformer层和SGP层之间的主要区别在于用完全卷积模块SGP替换了自注意力模块,连续的层归一化(LN)被改为群归一化(GN);完全卷积模块SGP将即时水平支路和窗口水平支路结合(同时考虑局部特征和长距离特征)。可扩展粒度感知SGP中“可扩展粒度”是指引入了一个可扩展因子k,通过改变k的大小,可以决定出1D卷积核每次处理k个连续的时序数据。