2024-ESWA-Diffusion-based normality pre-training for weakly supervised video anomaly detection
- 基于扩散的弱监督视频异常检测常态预训练
- 摘要
- 1. 引言
- 2. 相关工作
- 3. 方法论
- 3.1. 使用扩散自动编码器进行常态学习
- 3.2. 全局-局部特征编码器
- 3.2.1 局部块
- 3.2.2 全局块
- 3.2.3 协同注意融合
- 3.3. 多序列异常分类器学习
- 3.3.1 多片段对比损失
- 3.3.2 对比三重损失
- 3.3.3. 总体损失
- 3.4. 集成网络
- 4. 实验
- 4.1. 数据集和评估指标
- 4.1.1 UCF-crime
- 4.1.2 ShanghaiTech
- 4.1.3 评估指标
- 4.2. 实施细节
- 4.3. 与 SOTA 方法的比较
- 4.3.1 UCF-crime 数据集
- 4.3.2 ShanghaiTech 数据集
- 4.4. 类别异常可辨别性
- 4.5. 定性分析
- 4.6. 消融研究
- 5. 结论
- 参考文献
基于扩散的弱监督视频异常检测常态预训练
论文地址
摘要
弱监督视频异常检测是在训练阶段检测视频中未提供帧级标签的异常帧的任务。以前的方法通常采用基于多实例学习(MIL)的排名损失来确保类间分离。然而,这些方法无法充分利用大量正常帧中的信息。此外,这些方法的性能受到基于 MIL 的分类器的错误初始预测的误导。考虑到这些缺点,我们提出了一种基于扩散的常态学习预训练步骤
,首先涉及仅使用正常视频训练全局局部特征编码器(GLFE)模型以了解正常帧的特征分布。使用多序列对比损失使用正常和异常视频进一步优化生成的预训练全局局部特征编码器。我们提出的 GLFE 模型使用 Transformer 块和双分支设置中的扩张卷积金字塔捕获长距离和短距离时间特征。该模型通过引入 Co-Attention 模块自适应地学习两个分支特征之间的关系,从而提供可学习的特征融合。此外,我们引入了三重对比损失,以更好地区分异常视频中的异常帧和正常帧。通过在两个公共基准数据集(UCF-Crime 和 ShanghaiTech)上进行大量实验,对所开发的方法进行了评估。获得的结果与现有的最先进的弱监督方法相当或更好。
关键词:异常检测,常态预训练,弱监督学习,视频理解,自主监控系统
1. 引言
视频异常检测(VAD)可以定义为自动识别视频中异常事件的任务。近年来,世界各地的监控摄像头数量迅速增加,导致生成了大量视频数据。然而,手动检测这些视频中的异常事件效率极低且耗时。因此,现有的监控基础设施无法充分发挥其潜力。因此,视频异常检测已成为一项具有高度实际重要性的任务。
VAD 通常被视为一类分类(OCC)任务 (Chang et al., 2022; Hao, Li, Wang, Wang, & Gao, 2022; Le & Kim, 2023; Li, Chang, & Liu, 2020),其中在训练期间仅使用正常帧。模型学习正常特征分布以生成更多正常帧。但是,当提供异常帧时,模型无法生成这些帧,从而导致重建损失很高。如果视频中的事件具有较高的重建误差,则将其归类为异常。其他无监督方法 (Zeng et al., 2021; Zhang, Gong, et al., 2022) 试图预测未来的帧。这些方法的问题在于模型缺乏有关异常事件的先验知识,导致误报率很高。此外,并非所有异常事件都具有公共重要性。最近的研究 (Feng, Hong, & Zheng, 2021; Sultani, Chen, & Shah, 2018; Tian et al., 2021) 发现,一定量的有关异常的先验信息会产生更合适的结果。
Sultani et al. (2018) 将 VAD 视为一个弱监督问题,其中仅提供视频级注释。弱监督视频异常检测(WS-VAD)的主要挑战是如何区分未修剪视频中的异常帧和正常帧。异常视频的大部分由正常帧组成,这可能会在训练期间压垮模型。大多数工作使用多示例学习(MIL)范式来解决这个问题 (Feng et al., 2021; Li, Liu, & Jiao, 2022; Sultani et al., 2018; Zhang, Huang, Liu & Xu, 2022)。Sultani et al. (2018) 将每个视频视为一个包,将其分成多个代表包实例的片段。异常视频形成正包,正常视频形成负包。方法中的 MIL 排名损失扩大了正包和负包中异常分数最高的实例之间的分离。此后,后来的几项工作提出了基于 MIL 的学习损失的改进 (Chen et al., 2023; Feng et al., 2021; Tian et al., 2021)。由于异常不仅限于一个视频片段,(Feng et al., 2021; Li et al., 2022; Tian et al., 2021) 在排名损失中考虑了多个视频片段。Tian et al. (2021) 决定使用特征量级作为决定性指标,而不是使用异常分数。
正如 Li et al. (2022) 指出的那样,现有文献使用基于 MIL 的排名损失的一个缺点是,异常分类网络在初始阶段可能会错误地将帧归类为异常。然而,由于缺乏真正的标签和多示例学习的固有性质,这种错误会随着训练的进行而加强。这导致检测性能不佳。我们假设,如果为模型提供一些数据的先验知识,则可以最大限度地减少初始错误结果的问题,从而提高检测性能。有用的先验信息可能是现有作品无法完全使用的正常视频中包含的大量正常特征。这是因为 Chen et al. (2023), Feng et al. (2021), Li et al. (2022), Sultani et al. (2018), Tian et al. (2021), Zhang, Huang, et al. (2022) 使用的基于 MIL 的排名损失仅考虑异常得分最高的片段进行错误计算。因此,尽管 MIL 有助于缓解正常帧和异常帧之间的不平衡,但大量正常帧的信息却丢失了。
为了向异常检测模型提供先验信息,我们提出了一个无监督的预训练步骤,以从数据集中的众多正常片段中学习。这个想法是将学习正常特征分布作为预训练步骤,以便当异常视频添加到训练过程中时,模型可以预先了解正常特征。使用这样的预训练步骤,我们还能够利用所有正常视频来提取有意义的信息,而不是仅依赖于异常得分最高的帧。为此,我们建议仅对正常视频使用 OCC 方法训练我们的模型。Liu, Liu, Zhao, Li, and Song (2022) 提出了一种相关方法,其中在正常帧上训练初始自动编码器以提取正常特征分布,然后使用 MIL 范式对其进行训练。然而,他们工作中使用的基于初始的自动编码器在从视频中提取高质量特征的能力方面受到限制,因此他们的工作异常帧检测性能受到影响。近年来,基于扩散的模型在生成任务中非常成功,其性能优于自动编码器。然而,这种扩散模型的主要任务是学习输入中添加的噪声,因此它们缺乏代表性学习的能力。为了在我们的环境中应用扩散模型,我们需要修改模型,以便可以为下游任务学习正常的特征表示。继 Preechakul, Chatthee, Wizadwongsa, and Suwajanakorn (2022) 之后,我们在工作中构建了一个扩散自动编码器,其中扩散过程使用编码器提取的特征作为条件。然后,该编码器充当异常分类器训练的主干,其中使用基于多实例的排名损失对正常和异常视频进行编码器训练。我们设计了一个全局-局部特征编码器(GLFE)模型作为编码器。引入了一个 Co-Attention 模块,通过自适应地学习两组特征之间的关系来融合全局和局部特征。与 Tian et al. (2021) 使用的简单的位置特征串联不同,这可能会导致不同尺度的特征不匹配,而 Co-Attention 模块可帮助模型从全局和局部特征中学习重要信息。
现有工作中发现的另一个问题是,MIL 排名损失无法在异常视频中对正常帧和异常帧进行足够的区分,而这在我们的环境中至关重要。这可以从图 7 中 Chen et al. (2023) 的结果中得到验证。为了实现这一点,我们建议引入三重对比损失,以进一步在异常视频中的两类帧之间建立适当的分离。三重对比损失的加入最小化了异常视频中的正常帧与正常视频之间的距离,并扩大了异常视频中的正常帧与异常视频中的正常帧之间的距离。此外,为了将异常检测纳入多个检测窗口,我们在推理时使用使用不同序列大小训练的所提出的模型的集合。我们的方法的总体框架总结在图 1 中。
我们工作的主要贡献可以概括为:
- 我们提出了一个一类正常特征学习预训练步骤。为此,我们设计了一个扩散自动编码器,其中编码器是多序列异常分类器训练的主干模型。据我们所知,这是第一项将基于扩散的常态学习作为弱监督视频异常检测的预训练步骤的工作。
- 设计了一个双分支全局局部特征编码器模型,并采用共同注意分支融合机制来捕捉局部和全局特征之间更好的相关性。
- 我们引入了三重对比损失,以进一步加强异常视频中正常片段和异常片段之间的分离。
本文的其余部分安排如下。我们在第 2 节中总结了相关文献。在第 3 节中,我们描述了我们提出的方法,介绍了常态预训练步骤、GLFE 模型和损失函数的细节。第 4 节提供了实验细节和结果分析。最后,我们在第 5 节中总结了本文。
2. 相关工作
无监督视频异常检测。无监督方法通常将 VAD 任务视为异常值检测问题。只有正常视频才可作为这些方法的训练集,从而使它们能够学习正常帧的特征分布。任何偏离此常态分布的内容都被归类为异常。传统方法使用手工制作的特征 (Medioni, Cohen, Brémond, Hongeng, & Nevatia, 2001; Schölkopf, Platt, Shawe-Taylor, Smola, & Williamson, 2001; Schölkopf, Williamson, Smola, Shawe-Taylor, & Platt, 1999)。随着基于深度学习的生成模型的出现,Chang et al. (2022), Chang, Tu, Xie, and Yuan (2020), Chen, Yue, Chang, Xu, and Jia (2021), Hao et al. (2022) 提出了几种基于重建的方法。这些方法利用生成模型的力量来学习,然后生成正常帧。由于模型未在异常帧上进行训练,因此它们无法生成这些异常帧,从而产生高重建误差,这有助于识别异常。其他方法,如 (Liu, Luo, Lian, & Gao, 2018),Zeng et al. (2021) 和 Yu, Lee, Yow, Jeon, and Pedrycz (2021) 利用未来帧预测来检测异常。这些方法利用预测的未来帧与基本事实之间的差异。其想法是异常帧无法预测,因此会与基本事实不同。最近,提出了记忆引导的常态学习方法 (Gong et al., 2019; Liu, Nie, Long, Zhang, & Li, 2021; Park, Noh, & Ham, 2020),改进了基于重建的方法。基于重建的方法的一个问题是,生成模型泛化能力非常好,甚至异常都可以重建。为了解决这个问题,Gong et al. (2019) 和 Park et al. (2020) 等人在生成模型中增加了一个记忆模块来记录正常模式。然后,编码器提取的深度特征充当查询以检索最近的记忆项。这样做会降低基于重建的方法的泛化能力。
弱监督视频异常检测。最近的研究 (Feng et al., 2021; Li et al., 2022; Sultani et al., 2018; Tian et al., 2021) 表明,在训练阶段引入带注释的异常视频可以提高无监督方法的性能。由于获取视频的逐帧标签成本过高,当前最先进的(SOTA)方法通常采用弱监督训练,其中只有视频标签可用,这比逐帧标签更便宜。这些工作通常采用基于多实例学习的方法来训练模型以提供每个片段的异常分数。
Sultani et al. (2018) 提出了一种弱监督视频异常检测方法。Sultani et al. (2018) 还为 WS-VAD 引入了一个大规模数据集,该数据集仅包含视频级注释。Feng et al. (2021) 提出了一种稀疏连续采样技术,其中将一系列 𝑇 连续片段作为子包,而不是从每个包中仅提取一个实例。该工作还提出了一种自训练方案来微调特征提取器。Tian et al. (2021) 在他们的工作中为 MIL 排名损失选择了前 k k k 个异常片段。损失不是增加异常分数,而是增加异常视频和正常视频中特征幅度最高的片段之间的可分离性。Zaheer, Mahmood, Astrid, and Lee (2020) 设计了一个正常化抑制模块,然后在排名损失中添加了聚类损失。Lv et al. (2021) 检查连续视频片段中的特征变化以定位异常。还介绍了 TAD 交通异常数据集。Ma and Zhang (2022) 提出了一种基于注意力的框架,该框架执行两个视频级任务来细化帧级异常分数。Zhong et al. (2019) 使用噪声标签将该问题作为二元分类任务处理,然后使用图卷积网络清除标签噪声。Chen et al. (2023) 提出了一种带有扫视和焦点网络的幅度对比损失。Yi, Fan, and Wu (2022) 建议使用批量特征标准化模块将研究方法从基于实例的相关性转变为基于批次的相关性。Gong et al. (2022) 提出了一种多尺度连续性模块,以使用在多个尺度上提取的实例的连续性来细化异常分数。Ullah, Ullah, Khan, and Baik (2023) 提出了一种多头序列注意机制,以从复杂视频数据集中提取更重要的时间信息。Park, Kim, Kim, Kim, and Sohn (2023) 建议使用 OCC 模型和 WS-VAD 模型的集成。Liu, Liu, et al. (2022) 除了基于多示例的学习之外,还尝试使用自动编码器从数据集中的各个正常帧中进行学习。最近,基于 Transformer 的方法 (Huang, Liu, et al., 2022; Li et al., 2022; Zhang, Huang, et al., 2022) 也被引入 WS-VAD。
现有方法的主要缺点是 MIL 排名损失考虑的帧数有限。因此,现有工作无法利用数据集中大量正常帧的完整信息。此外,MIL 排名损失在不同视频类别中将异常帧和正常帧分开,但无法在异常视频中将正常帧和异常帧充分分开。在这项工作中,我们通过引入常态预训练步骤和对比三元组损失来解决 MIL 排名损失的这些缺陷。
扩散模型。扩散模型是一种概率生成模型,它能够通过首先将输入转换为纯噪声,然后通过学习消除噪声来逆转该过程,从而生成多样化的数据样本。近年来,基于扩散的生成模型在图像到图像翻译 (Su, Song, Meng, & Ermon, 2023)、文本到图像生成 (Saharia et al., 2022) 等多项生成任务上取得了最先进的成果。Ho, Jain, and Abbeel (2020) 的突破性工作提出了去噪扩散概率模型(DDPM),并展示了扩散模型生成高质量图像的能力。后来的几项工作,如 Dhariwal and Nichol (2021), Rombach, Blattmann, Lorenz, Esser, and Ommer (2022), Song, Meng, and Ermon (2020) 都显示出了令人鼓舞的结果。尽管扩散模型在生成任务中取得了显著的成果,但它们不能作为其他任务的有用表示。Preechakul et al. (2022) 设计了扩散自动编码器来从图像中提取有意义的表示。
研究人员还将扩散模型应用于异常检测任务 (Wolleb, Bieder, Sandkühler, & Cattin, 2022; Yan, Zhang, Liu, Pang, & Wang, 2023)。Yan et al. (2023) 提出了一种 OCC 方法,该方法利用扩散模型的生成能力来生成更准确、无噪声的正常帧。Wolleb et al. (2022) 提出了一种基于扩散的弱监督医学异常检测方法。作者利用扩散模型将患者的病理图像转换为无病理图像,同时保留细节。然后将生成的不含病理的图像与病理图像进行比较,以找出两组图像之间的差异。这些不同的区域被归类为包含病理的异常区域。这两项工作都与我们提出的方法不同。这些工作使用扩散来生成样本,而我们利用扩散进行下游任务的表征学习。
其他相关工作。计算机视觉是人工智能(AI)的一个研究非常深入和深入的分支。计算机视觉研究集中于许多应用,例如恶劣天气条件下的物体检测 (Huang, Hoang, & Le, 2022; Liu, Ren, et al., 2022)、伪装物体检测 (He et al., 2023)、基于骨架的动作识别 (Wu, Zhang, & Zou, 2023)、动作分割 (Liu et al., 2023)、视频生成 (Luo et al., 2023) 等等。鉴于计算机视觉应用在现实生活中的重要性,研究也集中于可在云端或边缘部署的高效实时解决方案 (Gao et al., 2020; Nawaratne, Alahakoon, De Silva, & Yu, 2019)。计算机视觉还可应用于数字取证,用于检测伪造视频(Gowda & Pawar,2023;Lee, Na, & Byun, 2022)、生物识别(Grosz & Jain, 2023;Najafzadeh et al., 2023)和自动车牌识别(Gautam, Rana, Aggarwal, Bhosle, & Sharma, 2023;Pham, 2023)。
3. 方法论
我们提出的方法的目的是通过训练时可用的视频级注释来区分正常和异常片段。给定一组 ∣ V ∣ |\mathcal{V}| ∣V∣ 训练视频 V = { V i , y i } i = 1 ∣ V ∣ \mathcal{V}=\left\{V_i,\ y_i\right\}^{|\mathcal{V}|}_{i=1} V={Vi, yi}i=1∣V∣ 其中 i = 1 i=1 i=1,每个视频 V i = { v j } j = 1 T V_i=\left\{v_j\right\}^{T}_{j=1} Vi={vj}j=1T 由 T T T 个片段组成,并具有视频级标签 y i ∈ Y = { 0 , 1 } y_i\in Y=\left\{0,\ 1\right\} yi∈Y={0, 1},表示视频是否包含异常。根据之前的研究,我们使用预训练的特征提取器为 V \mathcal{V} V 中的每个视频提取维度 D D D 的片段特征 F = { f j } j = 1 T \mathcal{F}=\left\{f_j\right\}^{T}_{j=1} F={fj}j=1T。然后使用从正常视频中提取的片段特征 { f j } j = 1 T \left\{f_j\right\}^{T}_{j=1} {fj}j=1T 对我们的 GLFE 模型进行预训练,使用去噪扩散,如第 3.1 节所述。这里, n n n 表示来自正常视频的特征。一旦编码器模型学习了正常的特征分布,我们就会引入异常视频并使用多序列学习损失来训练分类器。我们的模型表示为 E = s ϕ ( f θ ( F ) ) \mathcal{E}=s_{\phi}\left(f_{\theta}\left(\mathcal{F}\right)\right) E=sϕ(fθ(F)),其中 f θ f_{\theta} fθ 表示 GLFE, s ϕ s_{\phi} sϕ 是片段分类器,其输出给出异常分数。我们将在本节的剩余部分详细介绍我们提出的方法的每个组成部分。
3.1. 使用扩散自动编码器进行常态学习
使用基于 MIL 的训练的弱监督异常检测仅考虑少数片段进行损失计算。因此,数据集中的大量正常信息会丢失。此外,在训练的初始阶段,该模型预测异常的能力较差,这可能会导致性能下降。为了缓解这些问题,我们提出将常态学习作为预训练步骤。按照单标签视频异常方法,我们仅使用正常视频来训练我们的 GLFE f θ f_{\theta} fθ 以学习常态数据分布。
为此,我们建议使用扩散自动编码器来学习常态分布(图 2)。受 Preechakul et al. (2022) 的启发,我们使用 GLFE 从输入中提取长期和短期时间信息,然后将其作为条件提供给去噪扩散概率模型(DDPM),该模型充当解码器以生成常态特征。我们的想法是,我们的 GLFE 模型将学习提取相关信息,这将有助于 DDPM 解码器生成常态特征。因此,经过几次迭代,GLFE 会学习常态特征分布。
根据 Ho et al. (2020) 的说法,前向扩散步骤包括向输入特征 { f j b } j = 1 T \left\{f_{j}^{b}\right\}^{T}_{j=1} {fjb}j=1T 迭代添加噪声。与 Ho et al. (2020) 一样,因此前向扩散过程可以表述为 q ( x t ∣ x 0 ) = N ( x t ; α ˉ t x 0 , ( 1 − α ˉ t ) I ) q\left (x_t|x_0\right)=\mathcal{N}\left(x_t;\ \sqrt{\bar{\alpha}_t}x_0,\ \left(1-\bar{\alpha}_t\right)\mathbf{I}\right) q(xt∣x0)=N(xt; αˉtx0, (1−αˉt)I),其中 α ˉ t x 0 \sqrt{\bar{\alpha}_t}x_0 αˉtx0 是均值为、方差为 ( 1 − α ˉ t ) I \left(1-\bar{\alpha}_t\right)\mathbf{I} (1−αˉt)I 的常态分布, x t x_t xt 是任意时间步长 t t t 的输出噪声特征。这里 α ˉ t \bar{\alpha}_t αˉt 定义为 α ˉ t = ∏ t s = 1 α s , α t = 1 − β t \bar{\alpha}_t={\textstyle \prod_{t}^{s=1}}\alpha_s,\ \alpha_t=1-\beta_t αˉt=∏ts=1αs, αt=1−βt,其中 β t \beta_t βt 是在时间步 t t t 添加的高斯噪声的方差。最终的噪声特征由 x τ x_\tau xτ 给出,其中 τ \tau τ 的值设置为一个大数,在本例中为 1000。
反向扩散过程包括一个神经网络学习去除前向扩散步骤中添加的噪声。除了噪声 x τ x_\tau xτ,神经网络还将来自 GLFE 的信息作为条件输入。从数学上讲,DDPM 模型 p ( x t − 1 ∣ x t , n f e a t ) p\left(x_{t−1}|x_t,\ n_{feat}\right) p(xt−1∣xt, nfeat) 以编码器 f θ ( x 0 ) f_\theta\left(x_0\right) fθ(x0)从正常视频特征 { f j n } j = 1 T \left\{f_{j}^{n}\right\}^{T}_{j=1} {fjn}j=1T 中提取的附加信息 n f e a t n_{feat} nfeat 为条件。条件 DDPM 的输入为 ( n f e a t , x τ ) \left(n_{feat},\ x_\tau\right) (nfeat, xτ),并生成输出常态特征向量。根据 Dhariwal and Nichol (2021) 的说法,DDPM 网络是 UNet 的修改版本。UNet 使用 Ho et al. (2020) 中所述的 L s i m p l e L_{simple} Lsimple 损失进行训练。
其中 ϵ t ∈ R 3 × h × w ∼ N ( 0 , I ) , x t = α ˉ t x 0 + 1 − α ˉ t ϵ t \epsilon_t\in \mathbb{R}^{3\times h\times w}\sim \mathcal{N}\left(\mathbf{0} ,\ \mathbf{I} \right),\ x_t=\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon_t ϵt∈R3×h×w∼N(0, I), xt=αˉtx0+1−αˉtϵt。
3.2. 全局-局部特征编码器
为了捕获全局时间信息以及多尺度局部时间信息,我们提出了一个全局-局部特征编码器。根据 Tian et al. (2021) 的研究,我们设计了两个独立的局部和全局分支。前者侧重于收集多尺度的局部时间依赖关系。后者侧重于对长距离时间依赖关系进行建模。这两个分支并行处理,并融合特征。
3.2.1 局部块
局部块由一个扩张卷积层金字塔组成,在时间域上应用了多个扩张因子。给定预先计算的特征 F = { f j } j = 1 T \mathcal{F} =\left \{f_j\right \}^{T}_{j=1} F={fj}j=1T,每个 f j f_j fj 都可以写成一个 D D D 维向量 [ f d ] d = 1 D \left [\mathbf{f}_d\right ]^{D}_{d=1} [fd]d=1D。对于每个 f d \mathbf{f}_d fd,滤波器大小为 K \mathcal{K} K 的扩张卷积运算,权重 W i , d ( l ) ∈ R K {\rm W}_{i,\ d}^{\left(l\right)}\in\mathbb{R}^\mathcal{K} Wi, d(l)∈RK 可以表示为
其中 i ∈ { 1 , . . . , D / 4 } , d ∈ { 1 , . . . , D } , l ∈ { D C 1 , D C 2 , D C 3 } i\in\left\{1,\ ...,\ D/4\right\},\ d\in\left\{1,\ ...,\ D\right\},\ l\in\left\{DC1,\ DC2,\ DC3\right\} i∈{1, ..., D/4}, d∈{1, ..., D}, l∈{DC1, DC2, DC3} 表示扩张因子为 1 , 2 , 4 {1,\ 2,\ 4} 1, 2, 4 的扩张卷积,第 l l l 个扩张卷积算子表示为 ∗ ( 𝑙 ) ∗^{\left(𝑙\right)} ∗(l)。每层的输出连接在一起并传递到 1 − D \rm 1-D 1−D 卷积层。局部块的输出表示为 F L \mathcal{F}_{\mathcal{L}} FL。
3.2.2 全局块
鉴于 Vision Transformer 在各种视觉任务中的出色表现,我们利用 Transformer 块来实现视频片段之间的全局依赖关系。然而,与 ViT 模型 (Dosovitskiy et al., 2020) 不同,我们只使用一个自注意力模块,而不是多头自注意力。此外,我们将这种自注意力应用于时间维度,以捕获时间视频片段之间的相关性。首先,预先计算的特征 F = { f j } j = 1 T \mathcal{F}=\left\{f_j\right\}^{T}_{j=1} F={fj}j=1T 被传递到线性投影层,该层将特征的维度从 F ∈ R T × D \mathcal{F}\in\mathbb{R}^{T\times D} F∈RT×D 嵌入到 F e ∈ R T × D / 2 \mathcal{F}^{e}\in\mathbb{R}^{T\times D/2} Fe∈RT×D/2。为了在视频片段之间注入相对位置信息,我们使用不同频率的正弦和余弦函数,类似于 Vaswani et al. (2017)。
其中 d e m b e d d_{embed} dembed 是线性嵌入的维度, j j j 是视频片段的时间位置, i ∈ [ 0 , . . . ( d e m b e d / 2 − 1 ) ] i\in\left[0,\ ...\ \left(d_{embed}/2−1\right)\right] i∈[0, ... (dembed/2−1)] 是通道维度索引。然后将其发送到自注意力模块,其中前三个线性层产生查询、键和值映射 F Q e , F Q e , F V e ∈ R T × D / 2 \mathcal{F}_Q^e,\ \mathcal{F}_Q^e,\ \mathcal{F}_V^e\in \mathbb{R}^{T\times D/2} FQe, FQe, FVe∈RT×D/2。注意力图 A ∈ R T × T \mathcal{A}\in\mathbb{R}^{T\times T} A∈RT×T 是通过 F Q e \mathcal{F}_Q^e FQe 和 F K e \mathcal{F}_K^e FKe 之间的缩放点积的 softmax 实现的。注意力图提供视频片段之间的成对相关性。自注意力模块的输出由 F s = A . F V e \mathcal{F}^s=\mathcal{A}.\mathcal{F}_V^e Fs=A.FVe 生成。在自注意力模块之后,使用嵌入特征 F e \mathcal{F}^e Fe 添加跳跃连接,然后是层归一化层。输出为 F l = N o r m L a y e r ( F e + F s ) \mathcal{F}^l={Norm}_{Layer}\left(\mathcal{F}^e+\mathcal{F}^s\right) Fl=NormLayer(Fe+Fs)。
除了自注意力模块之外,一个完全连接的前馈网络也被添加到全局块中。标准化的输出 F l \mathcal{F}^l Fl 通过前馈网络,该网络由两个完全连接的层组成,中间有 GELU 激活。
其中 W 1 , W 2 W_1,\ W_2 W1, W2 是两个线性层的权重, b 1 b_1 b1 和 b 2 b_2 b2 是各自的偏差。最后,添加跳跃连接,并执行层归一化。全局块的输出如下
局部块和全局块的特征通过共同注意块融合在一起,下面将详细介绍。
3.2.3 协同注意融合
我们的模型并行处理多个尺度的局部信息和全局表示。因此,两个不同视角的融合成为一项重要任务。为此,Tian et al. (2021) 简单地使用来自两个块的特征的位置级联的 1D 卷积融合了双重表示。但是,考虑到两种表示的不同尺度,使用预定义的固定融合(例如级联)可能会导致特征不匹配。继 Mao et al. (2021) 之后,我们引入了一种协同注意的尺度间融合方法,如图 3(b) 所示。该协同注意融合模块可帮助模型自适应地学习局部和全局特征之间的关系,从而实现多尺度特征的动态和可学习融合。
给定局部和全局块 F L \mathcal{F}_\mathcal{L} FL 和 F G \mathcal{F}_\mathcal{G} FG 的输出,首先使用单独的线性层生成两者的查询、键和值映射。 F L \mathcal{F}_\mathcal{L} FL 的映射为 Q L , K L , V L ∈ R T × D / 2 Q_L,\ K_L,\ V_L\in \mathbb{R}^{T\times D/2} QL, KL, VL∈RT×D/2, F G \mathcal{F}_\mathcal{G} FG 的映射为 Q G , K G , V G ∈ R T × D / 2 Q_G,\ K_G,\ V_G\in \mathbb{R}^{T\times D/2} QG, KG, VG∈RT×D/2。按照 Mao et al. (2021) 的方法,通过计算每对 F L \mathcal{F}_\mathcal{L} FL 和 F G \mathcal{F}_\mathcal{G} FG 之间的相关性来生成注意力图。注意力图如下所示
其中 d d d 等于 D 2 N h e a d \frac{\frac{D}{2}}{N_{head}} Nhead2D, N h e a d N_{head} Nhead 是注意力头的数量,我们将其设置为 1。注意力图 A L → G \mathcal{A}_{L\to G} AL→G 和 A G → L \mathcal{A}_{G\to L} AG→L 的大小均为 T × T T\times T T×T。 A G → L \mathcal{A}_{G\to L} AG→L 提供全局特征中不同标记与局部特征的相关性。类似地,可以使用 A L → G \mathcal{A}_{L\to G} AL→G 从全局特征中提取局部特征中的重要关系。因此,该模型可以从局部和全局特征中学习重要信息,而不是使用固定的融合方法。然后计算混合特征为
最后,混合特征被传递到两个独立的 1 − D \rm 1-D 1−D 卷积投影层,并将输出连接起来。然后,协同注意模块 F c o \mathcal{F}_{co} Fco 的输出由 1 − D \rm 1-D 1−D 卷积投影给出,这将特征的维度降低到输入维度 D / 2 D/2 D/2。
使用输入 F \mathcal{F} F 添加跳跃连接,最终给出全局-局部特征编码器 f θ f_\theta fθ 的输出:
Conv1D 用于将输入的维度更改为 F c o \mathcal{F}_{co} Fco 的维度。然后将输出 F o u t \mathcal{F}_{out} Fout 传递到层归一化层。剪辑分类器 s ϕ s_\phi sϕ 由完全连接层和 sigmoid 激活层组成。因此,异常分数 S \mathcal{S} S 由以下公式给出
其中 W 3 W_3 W3 和 b 3 b_3 b3 是线性层的权重和偏差。
3.3. 多序列异常分类器学习
对于学习目标,我们利用了四种损失:多序列对比损失、平滑损失、稀疏性损失和对比三重损失,进一步将异常片段与异常视频中的正常片段区分开来。(见图 4)。
3.3.1 多片段对比损失
由于视频的异常部分通常持续多个连续剪辑,因此我们选择多个剪辑片段。所选序列的长度由 K K K 给出。给定异常分数 S = { s i } i = 1 T \mathcal{S}=\left\{s_i\right\}_{i=1}^T S={si}i=1T,对于每个剪辑 i i i,我们形成一个 K K K 连续剪辑的窗口 W = { w k } k = 1 K \mathcal{W}=\left\{w_k\right\}_{k=1}^K W={wk}k=1K,其中 w k w_k wk 包含来自序列 [ s i − K / 2 , . . . s i , . . . s i + K / 2 ] \left[s_{i-K/2},\ ...\ s_i,\ ...\ s_{i+K/2}\right] [si−K/2, ... si, ... si+K/2] 的分数。计算所有 L L L 这样的 K K K 连续剪辑序列的平均异常分数。
通过 max 1 ≤ l ≤ K S l \max_{1\le l\le K}\mathcal{S}_l max1≤l≤KSl 选择具有最大平均异常分数的序列。按照 Chen et al. (2023) 的方法,我们使用对比损失通过适当的分布在正常和异常视频之间进行区分。我们的模型提取的特征由 X = f θ ( F ) {\rm X}=f_\theta\left(\mathcal{F}\right) X=fθ(F) 给出,其中 X \rm X X 的每一行 x t {\rm x}_t xt 都给出每个视频片段的特征。让我们将 max 1 ≤ l ≤ K S l \max_{1\le l\le K}\mathcal{S}_l max1≤l≤KSl 选择的视频片段的特征表示为 M l M_l Ml。按照 Chen et al. (2023) 中的公式,多序列对比损失定义为
其中 B \rm B B 是训练批次的大小, m m m 是边距。异常片段索引用 u , v u,\ v u, v 表示,正常片段索引用 p p p 和 q q q 表示。 M l , n M_{l,\ n} Ml, n 和 M l , a M_{l,\ a} Ml, a 分别是从正常和异常视频(用 n n n 和 a a a 表示)中选择的片段窗口的特征。特征距离由距离函数 D D D 给出。 c c c 是一个指示变量,其中 c = 1 c=1 c=1 表示一对片段 p , u p,\ u p, u 是从正常和异常视频中采样的。在这种情况下,该对特征之间的距离会增加损失。另一方面,当 c = 0 c=0 c=0 时,采样的片段对 u , v u,\ v u, v 或 p , q p,\ q p, q 均为异常或正常,导致损失减小特征距离。取成对欧几里得距离作为距离函数 D D D。
3.3.2 对比三重损失
使用多序列对比损失,模型可以区分正常视频中的正常帧和异常视频中的异常帧。但是,损失函数不会在异常视频中创建正常和异常片段之间的分离。这可能会妨碍异常视频中的检测性能,因为异常视频中的大多数片段都是正常的。
为此,我们提出了一种对比三元组损失,以进一步区分异常视频中的正常和异常片段。我们从正常和异常对中选择得分最低的窗口。我们将正常视频中得分最低的窗口 min 1 ≤ l ≤ L S l , n \min_{1\le l\le L}\mathcal{S}_{l,\ n} min1≤l≤LSl, n 设置为锚点。异常视频中得分最低的窗口和得分最高的窗口分别作为正样本和负样本,分别为 min 1 ≤ l ≤ L S l , a \min_{1\le l\le L}\mathcal{S}_{l,\ a} min1≤l≤LSl, a 和 max 1 ≤ l ≤ L S l , a \max_{1\le l\le L}\mathcal{S}_{l,\ a} max1≤l≤LSl, a。对比三元组损失公式如下
其中 γ \gamma γ 是边界, Q l , a , Q l , n Q_{l,\ a},\ Q_{l,\ n} Ql, a, Ql, n 分别是来自异常视频和正常视频的得分最低的序列的特征。 p p p 是来自正常视频的片段的索引, u v u\ v u v 是来自异常视频的片段的索引。 D D D 是特征之间的成对欧几里得距离。由于正常视频仅包含正常片段, Q l , n Q_{l,\ n} Ql, n 可用作正常特征的锚点。类似地,来自异常视频的得分最低的片段 Q l , a Q_{l,\ a} Ql, a 被认为是正常的,因此被用作锚点的正样本,而异常片段 M l , a M_{l,\ a} Ml, a 是负样本。公式化的三重态损失使 Q l , a , Q l , n Q_{l,\ a},\ Q_{l,\ n} Ql, a, Ql, n 特征更加接近,同时增加了 M l a M_{l\ a} Ml a 与正常片段之间的距离。这有助于更好地区分异常视频中的正常片段和异常片段。
3.3.3. 总体损失
与现有研究类似,我们使用二元交叉熵损失作为预测异常分数的分类损失。分类损失为
其中 y y y 表示视频级基本事实。根据 Sultani et al. (2018) 的研究,我们添加了时间平滑度损失 L t s = ∑ T t = 1 ( s ϕ ( f θ ( f t a ) ) − s ϕ ( f θ ( f t − 1 a ) ) ) 2 \mathcal{L}_{ts}={\textstyle \sum_{T}^{t=1}}\left(s_\phi\left(f_\theta\left(f_t^a\right)\right)-s_\phi\left(f_\theta\left (f_{t-1}^a\right)\right)\right)^2 Lts=∑Tt=1(sϕ(fθ(fta))−sϕ(fθ(ft−1a)))2 和稀疏性损失 L s p = ∑ T t = 1 s ϕ ( f θ ( f t a ) ) \mathcal{L}_{sp}={\textstyle \sum_{T}^{t=1}}s_\phi\left(f_\theta\left(f_t^a\right)\right) Lsp=∑Tt=1sϕ(fθ(fta)) 作为正则化。因此,总体损失可以写成
其中 α 1 , α 2 , α 3 , α 4 \alpha_1,\ \alpha_2,\ \alpha_3,\ \alpha_4 α1, α2, α3, α4 用作平衡损失项的权重。
3.4. 集成网络
多序列对比损失使用固定窗口大小。这将检测窗口限制为只有一个尺度。为了将异常检测纳入多个检测窗口,我们建议使用用不同窗口大小训练的多个模型的集成。具体来说,我们使用损失 L \mathcal{L} L 训练我们的模型,以获得不同的 K K K 值,其中 K ∈ [ K 1 , K 2 , K 3 ] K\in\left[K_1,\ K_2,\ K_3\right] K∈[K1, K2, K3]。将所得模型的异常分数的加权平均值作为集成的最终输出异常分数。因此,最终异常分数如下:
其中 β ∈ [ β 1 , β 2 , β 3 ] \beta\in\left[\beta_1,\ \beta_2,\ \beta_3\right] β∈[β1, β2, β3] 是权重, S K i \mathcal{S}_{K_i} SKi 是使用窗口大小 K K K 训练的模型的输出。
4. 实验
4.1. 数据集和评估指标
我们在两个公开的弱监督异常检测基准数据集 UCF-Crime (Sultani et al., 2018) 和 ShanghaiTech (Liu et al., 2018) 上对我们的模型进行了评估。
4.1.1 UCF-crime
该数据集包含来自室内和室外真实世界监控摄像头的 1900 个未修剪的视频,这是一个大规模异常检测数据集 (Sultani et al., 2018)。训练集中有 810 个异常视频和 800 个仅带有视频级注释的正常视频,涵盖 13 个不同的异常类别。测试集包含 290 个带有帧级注释的视频。
4.1.2 ShanghaiTech
这是一个中等规模的数据集 (Liu et al., 2018),包含 437 个视频,背景场景 13 种,包括 130 个异常视频和 307 个正常视频。原始数据集仅包含训练集中的正常视频。为了构建弱监督数据集,Zhong et al. (2019) 选择了异常测试视频的一个子集并将其重新组织到训练集中。
4.1.3 评估指标
与其他研究 (Feng et al., 2021; Sultani et al., 2018; Tian et al., 2021) 一样,我们使用帧级接收器操作特性(ROC)的曲线下面积(AUC@ROC)值来评估我们方法的性能。此外,我们利用精确召回曲线下面积(AUC@PR),因为 AUC@ROC 对类别不平衡不太敏感,可能会显示误导性结果。由于精确召回侧重于正样本,AUC@PR 为很少出现的正类提供了更合适的解决方案。鉴于测试数据集包含异常和正常视频,正常视频的优异结果掩盖了异常视频的不良异常定位性能。为了验证我们方法的实际定位性能,我们还使用了异常视频的 AUC@ROC 和 AUC@PR(分别称为 AUC@AnoROC 和 AUC@AnoPR)。对于所有指标,值越高意味着异常检测性能越好。
4.2. 实施细节
按照 Sultani et al. (2018) 的方法,我们将每个视频分成 32 个不重叠的片段,即 T = 32 T=32 T=32,其中每个片段包含 16 个视频帧。然后,我们从在 Kinetics-400 上预训练的 I3D (Carreira & Zisserman, 2017) 的 “mix_5c” 层中提取了 2048D 特征。我们设置边距 m = 200 m=200 m=200 和 γ = 50 \gamma=50 γ=50。我们设置 α 1 = 8 × 1 0 − 4 , α 2 = 8 × 1 0 − 3 α 3 = 0.001 , α 4 = 0.0001 \alpha_1=8\times 10^{−4},\ \alpha_2 =8\times 10^{−3}\ \alpha_3=0.001,\ \alpha_4=0.0001 α1=8×10−4, α2=8×10−3 α3=0.001, α4=0.0001。对于 UCF-Crime,集成权重值设置为 β 1 = 0.2 , β 2 = 0.5 , β 3 = 0.3 \beta_1=0.2,\ \beta_2=0.5,\ \beta_3=0.3 β1=0.2, β2=0.5, β3=0.3;对于 ShanghaiTech,集成权重值设置为 β 1 = 0.2 , β 2 = 0.3 , β 3 = 0.5 \beta1=0.2,\ \beta_2=0.3,\ \beta_3=0.5 β1=0.2, β2=0.3, β3=0.5。我们还使用了序列大小 K 1 = 3 , K 2 = 5 , K 3 = 7 K_1=3,\ K_2=5,\ K_3=7 K1=3, K2=5, K3=7。
为了训练条件扩散模型,我们使用 Adam 优化器,学习率为 8 × 1 0 − 5 8\times 10^{−5} 8×10−5,批量大小为 12。对于 UCF-Crime 和 ShanghaiTech,异常片段分类器使用 Adam 优化器进行多序列学习训练,权重衰减为 0.0005,学习率为 0.001。批量大小设置为 32 个视频,其中 16 个正常视频和 16 个异常视频。条件扩散模型在四块 Nvidia RTX 3090 上训练,剪辑分类器在一块 Nvidia RTX 3090 上训练。所有代码均使用 Pytorch 实现。
4.3. 与 SOTA 方法的比较
4.3.1 UCF-crime 数据集
我们的方法在 UCF-Crime 数据集上的结果如表 1 所示。从表中可以看出,我们的方法大大优于单类方法 (Sun et al., 2020; Wang & Cherian, 2019)、无监督方法 (Zaheer et al., 2022) 和弱监督方法 (Feng et al., 2021; Liu, Liu, et al., 2022; Sultani et al., 2018; Zaheer et al., 2020)。具体来说,使用 I3D-RGB 特征,我们的方法优于 (Sultani et al., 2018) 7.83%,MIST (Feng et al., 2021) 3.45%,Chang et al. (2021) 提高了 1.13%,Huang, Liu, et al. (2022) 提高了 1.71%,Kamoona et al. (2023) 提高了 6.02%,Thakare et al.(2022)提高了 1.64%,证明了我们方法的有效性。我们的方法还比使用类似网络架构的 RTFM (Tian et al., 2021) 提高了 1.45%,这表明本研究中添加的共同注意模块的好处。与使用初始自动编码器学习正态表示的 CNL (Liu, Liu, et al., 2022) 相比,我们使用扩散自动编码器进行正态性学习获得了更好的性能。此外,我们将我们的模型与基于 AUC@PR 的现有作品进行了比较,如表 2 所示。我们的方法比下一个最高方法高出 1.62%。即使使用 AUC@AnoROC 进行比较,我们的方法也优于现有方法。这些值表明我们的方法能够正确区分视频中的异常帧和正常帧。
4.3.2 ShanghaiTech 数据集
表 3 显示了我们的方法在 ShanghaiTech 数据集上的结果。正如预期的那样,我们的方法显著超越了单类和无监督方法 (Cai et al., 2021; Le & Kim, 2023; Park et al., 2020; Zaheer et al., 2022)。此外,我们的方法还超越了几种重要的弱监督 VAD 方法。使用 I3D-RGB 特征,我们的方法能够超越 (Sultani et al., 2018) 11.41%,GCN (Zhong et al., 2019) 12.3%,CLAWS (Zaheer et al., 2020) 7.07% 和 MIST (Feng et al., 2021) 1.91%。我们的方法还超过了最近的 MSL (Li et al., 2022) 0.66% 和 NTCN-ML (Shao et al., 2023) 1.44%。这证明了我们的方法在多个数据集上的有效性,取得了与大多数其他重要作品相当或超越的结果。
4.4. 类别异常可辨别性
为了验证我们的方法在 UCF-Crime 数据集中检测不同异常类别的能力,我们绘制了每个异常类别的 AUC@ROC 性能条形图(图 5)。我们将结果与两项重要著作进行了比较,Sultani et al. (2018) 和 RTFM (Tian et al., 2021)。我们的方法在 6 个类别中显示出优于 (Sultani et al., 2018) 和 Tian et al. (2021) 的结果,尤其是在纵火、袭击、打架、抢劫和偷窃类别中。我们的模型在 8 个类别中优于 RTFM,在虐待、纵火、袭击、爆炸、打架和抢劫类别中分别增长了 10%、7%、18%、4%、9% 和 4%。与 Sultani et al. (2018),我们的方法在 8 个类别中表现出色,在纵火、袭击、商店扒窃、抢劫、斗殴和入室盗窃类别中分别提高了 11%、34%、19%、10%、8% 和 4%。
4.5. 定性分析
我们在图 6 和图 7 中可视化了异常得分图,并将我们的方法的结果与 Tian et al. (2021) 和 Chen et al. (2023) 的结果进行比较,以进一步评估我们方法的有效性。图 6 显示了来自上海科技数据集的五个异常和一个正常视频的预测异常得分以及基本事实。图 7 显示了来自 UCF-Crime 的五个不同异常类别的视频和一个正常视频的预测异常得分和基本事实。 Y Y Y 轴表示异常得分, X X X 轴表示帧数。红色区域表示异常帧的基本事实。
研究 UCF-Crime 的图表,我们可以看到图 7(d) 中的长持续时间异常和图 7(a) 中的短持续时间异常都被准确检测到。这展示了我们的 GLFE 模型的优势,该模型可以提取长期和短期特征。与 Tian et al. (2021) 相比,由于 Co-Attention 融合模块,GLFE 模型可以学习全局特征和局部特征之间的有效关系,从而帮助我们的方法检测整个长异常序列的异常,这可以从图 7(d) 中看到。我们的方法还能够在单个视频中检测多个异常事件。从图 7(b) 和图 7© 可以看出,我们的方法在这方面的表现优于 (Tian et al., 2021)。这可以归因于使用正态性预训练和三重对比损失。前者为模型提供了关于正常特征的先验知识,而后者有助于将正常帧与异常视频中的异常帧分开。此外,我们可以从图中看到,Chen et al. (2023) 在大多数情况下都很难识别异常帧。它倾向于将异常视频中的大多数帧归类为异常。然而,他们的方法仍然会得到较高的 AUC 分数,因为数据集中的正常视频平均比异常视频大得多,因此,正常视频中正确预测的帧会掩盖异常视频中的误报。
ShanghaiTech 数据集的图表显示了类似的趋势。长持续时间(图 6(b))和短持续时间(图 6(d))异常均被准确检测,进一步证明了我们模型的有效性。对于来自两个数据集的正常视频(图 6(f)、图 7(f)),我们的模型产生的异常分数接近 0,表明我们的方法可以有效地学习异常帧和正常帧之间的区别。我们的模型在错误分类方面的有限性能也可以在图 6(a)、6(d)、6(e)、7©、7(d) 和 7(e) 中看到。这些视频中存在错误检测的例子。
4.6. 消融研究
我们进行了消融研究,以验证我们方法的显著组成部分的有效性。首先,我们在表 4 中展示了集成中使用的模型对不同片段大小( K K K)值的单独检测性能。对于 UCF-Crime,使用片段大小 K = 5 K=5 K=5 训练的模型实现了 84.88% 的最高准确率。在 ShanghaiTech 数据集上,使用 K = 7 K=7 K=7 训练的模型实现了 96.19% 的最高 AUC@ROC。我们将全局块中的深度和头部数量设置为 1,用于所有研究。通过实验,我们发现增加深度和头部会导致模型过度拟合,因此必须严格根据帧所属视频的标签来学习帧的类别。这会导致异常视频中的大多数帧被归类为异常,从而降低模型的检测性能。
在消融研究的第二部分中,我们使用 I3D 特征验证了 UCF-Crime 数据集上正态性预训练、协同注意模块和三重对比损失的有效性。我们在表 5 中展示了不同片段大小 𝐾 的结果以及最终的集成得分。基线模型用局部和全局块特征的位置级联的一维卷积取代了图 3 中的协同注意模块。此外,基线模型未使用扩散自动编码器设置进行预训练以学习正常特征。最后,不使用对比三重态损失 L t r i p \mathcal{L}_{trip} Ltrip 来训练基线模型,而只使用公式 (14) 中的损失 L c l s , L t s \mathcal{L}_{cls},\ \mathcal{L}_{ts} Lcls, Lts 和 L m s c \mathcal{L}_{msc} Lmsc。得到的基线在 UCF-Crime 上只能达到 82.55%。添加三重态损失可将 AUC 性能提高到 83.86%,而执行正态性预训练可将性能提高到 83.40%。使用 Co-Attention 模块后,AUC 性能提升到 84.00%。三重态损失和正态性预训练有助于减少误报,而 Co-Attention 有助于提取更好的全局和局部特征。然而,与在模型中添加更多头和层不同,这会增加模型的复杂性,但会通过过度拟合降低其性能,而协同注意模块则允许模型自适应地学习全局和局部特征之间的重要关系。当同时添加三重态损失和正态性预训练时,结果增加到 84.04%。当在基线中同时添加三重态损失和协同注意模块时,AUC 增加到 85.04%。当协同注意与正态性预训练相结合时,AUC 性能提高了 2.53%,达到 85.08%。这给出了修改如何相互结合以进一步提高 AUC@ROC 性能的视图。当使用所有三个修改时,可以达到 86.12% 的最佳准确率。
此外,为了证明我们的方法在检测异常方面的有效性,我们还检查了不同组件的 AUC@AnoROC 和 AUC@AnoPR 结果。表 6 中的结果证明了每个组件在提高检测准确率方面的贡献。可以观察到,三重态损失对更准确地检测异常视频中的异常尤其有重大贡献。通过强制低得分片段特征与正常视频片段的特征相似,我们能够进一步区分异常视频中的两类帧。可以进一步验证(从表 6 的第 3、第 5、第 7 行),增加正态性预训练有助于提高模型的检测性能。Co-Attention 模块的有效性通过更高的 AUC@AnoPR 值来证明,这表示检测过程中的准确率更高。Co-Attention 模块增加了模型复杂度,这可能会导致模型在单独使用时(“Baseline+CA”)略微过拟合。这可能导致模型将异常视频中的大多数帧预测为异常。但是,由于大多数帧在正视频中被归类为异常,因此这种情况下召回率很高,进而导致 AUC@ROC 值较高。当使用 K = 3 K=3 K=3 的小片段大小进行训练时,这个问题会更加严重,因为它无法正确检测较长的异常事件。在这方面,“Baseline+NPT+CA” 和 “Baseline+TL+CA” 的表现优于 “Baseline+CA”,因为它们减少了大量误报。但这可能会导致召回率降低,从而导致模型的 AUC 分数略低。在我们的模型中使用这三种修改,我们能够在召回率和误报之间取得更好的平衡。
5. 结论
在这项工作中,我们提出了一种利用数据集中大量正常帧的弱监督视频异常检测新方法。考虑到 MIL 忽略大量正常帧的缺点,我们设计了一个全局-局部特征编码器,首先在条件去噪扩散设置中训练以学习正常信息,然后在使用正常和异常视频的多序列学习设置中训练该编码器。我们进一步建议添加三重对比损失,以更好地区分异常视频中的正常和异常片段。在两个公共基准数据集上的实验表明,我们的方法取得了超过或可与现有最先进方法相媲美的良好性能结果。
虽然我们的方法在 WS-VAD 任务上显示出良好的结果,但我们的工作仍然存在一些缺点。首先,我们的模型遵循两步训练过程。这增加了训练模型所需的时间。特别是,训练 DDPM 模型既耗费资源又耗费时间。然而,在推理时,我们只需要 GLFE 模型,它不占用大量资源。其次,我们的方法与 WS-VAD 中的大多数其他工作一样,依赖于预先训练的动作识别模型提取的特征,这可能无法很好地应用于异常检测任务。在未来的工作中,我们计划直接从视频中提取与任务相关的特征。此外,为了减少训练时间,我们将探索更多内存效率更高的扩散模型。
参考文献
- Cai, R., Zhang, H., Liu, W., Gao, S., & Hao, Z. (2021). Appearance-motion memory consistency network for video anomaly detection. In Proceedings of the AAAI conference on artificial intelligence: vol. 35, (2), (pp. 938–946).
- Carreira, J., & Zisserman, A. (2017). Quo vadis, action recognition? a new model and the kinetics dataset. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6299–6308).
- Chang, S., Li, Y., Shen, S., Feng, J., & Zhou, Z. (2021). Contrastive attention for video anomaly detection. IEEE Transactions on Multimedia, 24, 4067–4076.
- Chang, Y., Tu, Z., Xie, W., Luo, B., Zhang, S., Sui, H., et al. (2022). Video anomaly detection with spatio-temporal dissociation. Pattern Recognition, 122, Article 108213.
- Chang, Y., Tu, Z., Xie, W., & Yuan, J. (2020). Clustering driven deep autoencoder for video anomaly detection. In Computer vision–ECCV 2020: 16th European conference, glasgow, UK, August 23–28, 2020, proceedings, part XV 16 (pp. 329–345). Springer.
- Chen, Y., Liu, Z., Zhang, B., Fok, W., Qi, X., & Wu, Y.-C. (2023). Mgfn: Magnitude- contrastive glance-and-focus network for weakly-supervised video anomaly detec- tion. In Proceedings of the AAAI conference on artificial intelligence: vol. 37, (1), (pp. 387–395).
- Chen, D., Yue, L., Chang, X., Xu, M., & Jia, T. (2021). NM-GAN: Noise-modulated generative adversarial network for video anomaly detection. Pattern Recognition, 116, Article 107969.
- Dhariwal, P., & Nichol, A. (2021). Diffusion models beat gans on image synthesis. Advances in Neural Information Processing Systems, 34, 8780–8794.
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., et al. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.
- Feng, J.-C., Hong, F.-T., & Zheng, W.-S. (2021). Mist: Multiple instance self-training framework for video anomaly detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 14009–14018).
- Gao, Z., Zhang, H., Dong, S., Sun, S., Wang, X., Yang, G., et al. (2020). Salient object detection in the distributed cloud-edge intelligent network. IEEE Network, 34(2), 216–224.
- Gautam, A., Rana, D., Aggarwal, S., Bhosle, S., & Sharma, H. (2023). Deep learning approach to automatically recognise license number plates. Multimedia Tools and Applications, 82(20), 31487–31504.
- Gong, D., Liu, L., Le, V., Saha, B., Mansour, M. R., Venkatesh, S., et al. (2019). Memorizing normality to detect anomaly: Memory-augmented deep autoencoder for unsupervised anomaly detection. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 1705–1714).
- Gong, Y., Wang, C., Dai, X., Yu, S., Xiang, L., & Wu, J. (2022). Multi-scale continuity- aware refinement network for weakly supervised video anomaly detection. In 2022 IEEE international conference on multimedia and expo (pp. 1–6). IEEE.
- Gowda, R., & Pawar, D. (2023). Deep learning-based forgery identification and localization in videos. Signal, Image and Video Processing, 17(5), 2185–2192.
- Grosz, S. A., & Jain, A. K. (2023). Latent fingerprint recognition: Fusion of local and global embeddings. IEEE Transactions on Information Forensics and Security.
- Hao, Y., Li, J., Wang, N., Wang, X., & Gao, X. (2022). Spatiotemporal consistency- enhanced network for video anomaly detection. Pattern Recognition, 121, Article 108232.
- He, C., Li, K., Zhang, Y., Tang, L., Zhang, Y., Guo, Z., et al. (2023). Camouflaged object detection with feature decomposition and edge reconstruction. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 22046–22055).
- He, P., Zhang, F., Li, G., & Li, H. (2024). Adversarial and focused training of abnormal videos for weakly-supervised anomaly detection. Pattern Recognition, 147, Article 110119.
- Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems, 33, 6840–6851.
- Huang, S.-C., Hoang, Q.-V., & Le, T.-H. (2022). SFA-net: A selective features absorption network for object detection in rainy weather conditions. IEEE Transactions on Neural Networks and Learning Systems.
- Huang, C., Liu, C., Wen, J., Wu, L., Xu, Y., Jiang, Q., et al. (2022). Weakly supervised video anomaly detection via self-guided temporal discriminative transformer. IEEE Transactions on Cybernetics.
- Kamoona, A. M., Gostar, A. K., Bab-Hadiashar, A., & Hoseinnezhad, R. (2023). Multiple instance-based video anomaly detection using deep temporal encoding–decoding. Expert Systems with Applications, 214, Article 119079.
- Le, V.-T., & Kim, Y.-G. (2023). Attention-based residual autoencoder for video anomaly detection. Applied Intelligence, 53(3), 3240–3254.
- Lee, Y. G., Na, G., & Byun, J. (2022). Detection of double-compressed videos using descriptors of video encoders. Sensors, 22(23), 9291.
- Li, N., Chang, F., & Liu, C. (2020). Spatial-temporal cascade autoencoder for video anomaly detection in crowded scenes. IEEE Transactions on Multimedia, 23, 203–215. Li, S., Liu, F., & Jiao, L. (2022). Self-training multi-sequence learning with transformer for weakly supervised video anomaly detection. In Proceedings of the AAAI, Virtual: vol. 24.
- Liu, D., Li, Q., Dinh, A.-D., Jiang, T., Shah, M., & Xu, C. (2023). Diffusion action segmentation. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 10139–10149).
- Liu, Y., Liu, J., Zhao, M., Li, S., & Song, L. (2022). Collaborative normality learning framework for weakly supervised video anomaly detection. IEEE Transactions on Circuits and Systems II: Express Briefs, 69(5), 2508–2512.
- Liu, W., Luo, W., Lian, D., & Gao, S. (2018). Future frame prediction for anomaly detection–a new baseline. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6536–6545).
- Liu, Z., Nie, Y., Long, C., Zhang, Q., & Li, G. (2021). A hybrid video anomaly detection framework via memory-augmented flow reconstruction and flow-guided frame prediction. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 13588–13597).
- Liu, W., Ren, G., Yu, R., Guo, S., Zhu, J., & Zhang, L. (2022). Image-adaptive YOLO for object detection in adverse weather conditions. In Proceedings of the AAAI conference on artificial intelligence: vol. 36, (2), (pp. 1792–1800).
- Luo, Z., Chen, D., Zhang, Y., Huang, Y., Wang, L., Shen, Y., et al. (2023). Videofusion: Decomposed diffusion models for high-quality video generation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10209–10218).
- Lv, H., Zhou, C., Cui, Z., Xu, C., Li, Y., & Yang, J. (2021). Localizing anomalies from weakly-labeled videos. IEEE Transactions on Image Processing, 30, 4505–4515.
- Ma, H., & Zhang, L. (2022). Attention-based framework for weakly supervised video anomaly detection. The Journal of Supercomputing, 78(6), 8409–8429.
- Mao, M., Zhang, R., Zheng, H., Ma, T., Peng, Y., Ding, E., et al. (2021). Dual-stream network for visual recognition. Advances in Neural Information Processing Systems, 34, 25346–25358.
- Medioni, G., Cohen, I., Brémond, F., Hongeng, S., & Nevatia, R. (2001). Event detection and analysis from video streams. IEEE Transactions on Pattern Analysis and Machine Intelligence, 23(8), 873–889.
- Najafzadeh, N., Kashiani, H., Saadabadi, M. S. E., Talemi, N. A., Malakshan, S. R., & Nasrabadi, N. M. (2023). Face image quality vector assessment for biometrics applications. In Proceedings of the IEEE/CVF winter conference on applications of computer vision (pp. 511–520).
- Nawaratne, R., Alahakoon, D., De Silva, D., & Yu, X. (2019). Spatiotemporal anomaly detection using deep learning for real-time video surveillance. IEEE Transactions on Industrial Informatics, 16(1), 393–402.
- Park, S., Kim, H., Kim, M., Kim, D., & Sohn, K. (2023). Normality guided multiple instance learning for weakly supervised video anomaly detection. In Proceedings of the IEEE/CVF winter conference on applications of computer vision (pp. 2665–2674).
- Park, H., Noh, J., & Ham, B. (2020). Learning memory-guided normality for anomaly detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 14372–14381).
- Pham, T.-A. (2023). Effective deep neural networks for license plate detection and recognition. The Visual Computer, 39(3), 927–941.
- Preechakul, K., Chatthee, N., Wizadwongsa, S., & Suwajanakorn, S. (2022). Diffusion autoencoders: Toward a meaningful and decodable representation. In Proceed- ings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10619–10629).
- Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10684–10695).
- Saharia, C., Chan, W., Saxena, S., Li, L., Whang, J., Denton, E. L., et al. (2022). Photorealistic text-to-image diffusion models with deep language understanding. Advances in Neural Information Processing Systems, 35, 36479–36494.
- Schölkopf, B., Platt, J. C., Shawe-Taylor, J., Smola, A. J., & Williamson, R. C. (2001). Estimating the support of a high-dimensional distribution. Neural Computation, 13(7), 1443–1471.
- Schölkopf, B., Williamson, R. C., Smola, A., Shawe-Taylor, J., & Platt, J. (1999). Support vector method for novelty detection. In Advances in neural information processing systems: vol. 12.
- Scholkopf, B., Williamson, R., Smola, A., Shawe-Taylor, J., Platt, J., et al. (2000). Support vector method for novelty detection. In Advances in neural information processing systems: vol. 12, (3), (pp. 582–588). MIT Press Cambridege, Mass, USA.
- Shao, W., Xiao, R., Rajapaksha, P., Wang, M., Crespi, N., Luo, Z., et al. (2023). Video anomaly detection with NTCN-ML: A novel TCN for multi-instance learning. Pattern Recognition, Article 109765.
- Song, J., Meng, C., & Ermon, S. (2020). Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502.
- Su, X., Song, J., Meng, C., & Ermon, S. (2023). Dual diffusion implicit bridges for image-to-image translation. In The eleventh international conference on learning representations. URL https://openreview.net/forum?id=5HLoTvVGDe.
- Sultani, W., Chen, C., & Shah, M. (2018). Real-world anomaly detection in surveillance videos. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6479–6488).
- Sun, C., Jia, Y., Hu, Y., & Wu, Y. (2020). Scene-aware context reasoning for unsupervised abnormal event detection in videos. In Proceedings of the 28th ACM international conference on multimedia (pp. 184–192).
- Thakare, K. V., Sharma, N., Dogra, D. P., Choi, H., & Kim, I.-J. (2022). A multi-stream deep neural network with late fuzzy fusion for real-world anomaly detection. Expert Systems with Applications, 201, Article 117030.
- Tian, Y., Pang, G., Chen, Y., Singh, R., Verjans, J. W., & Carneiro, G. (2021). Weakly- supervised video anomaly detection with robust temporal feature magnitude learning. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 4975–4986).
- Ullah, W., Ullah, F. U. M., Khan, Z. A., & Baik, S. W. (2023). Sequential attention mechanism for weakly supervised video anomaly detection. Expert Systems with Applications, Article 120599.
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., et al. (2017). Attention is all you need. In Advances in neural information processing systems: vol. 30.
- Wang, J., & Cherian, A. (2019). Gods: Generalized one-class discriminative subspaces for anomaly detection. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 8201–8211).
- Wolleb, J., Bieder, F., Sandkühler, R., & Cattin, P. C. (2022). Diffusion models for medical anomaly detection. In International conference on medical image computing and computer-assisted intervention (pp. 35–45). Springer.
- Wu, P., & Liu, J. (2021). Learning causal temporal relation and feature discrimination for anomaly detection. IEEE Transactions on Image Processing, 30, 3513–3527.
- Wu, P., Liu, J., Shi, Y., Sun, Y., Shao, F., Wu, Z., et al. (2020). Not only look, but also listen: Learning multimodal violence detection under weak supervision. In European conference on computer vision (pp. 322–339). Springer.
- Wu, L., Zhang, C., & Zou, Y. (2023). SpatioTemporal focus for skeleton-based action recognition. Pattern Recognition, 136, Article 109231.
- Yan, C., Zhang, S., Liu, Y., Pang, G., & Wang, W. (2023). Feature prediction diffusion model for video anomaly detection. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 5527–5537).
- Yi, S., Fan, Z., & Wu, D. (2022). Batch feature standardization network with triplet loss for weakly-supervised video anomaly detection. Image and Vision Computing, 120, Article 104397.
- Yu, J., Lee, Y., Yow, K. C., Jeon, M., & Pedrycz, W. (2021). Abnormal event detection and localization via adversarial event prediction. IEEE Transactions on Neural Networks and Learning Systems, 33(8), 3572–3586.
- Zaheer, M. Z., Mahmood, A., Astrid, M., & Lee, S.-I. (2020). Claws: Clustering assisted weakly supervised learning with normalcy suppression for anomalous event detection. In European conference on computer vision (pp. 358–376). Springer.
- Zaheer, M. Z., Mahmood, A., Astrid, M., & Lee, S.-I. (2023). Clustering aided weakly supervised training to detect anomalous events in surveillance videos. IEEE Transactions on Neural Networks and Learning Systems.
- Zaheer, M. Z., Mahmood, A., Khan, M. H., Segu, M., Yu, F., & Lee, S.-I. (2022). Generative cooperative learning for unsupervised video anomaly detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 14744–14754).
- Zeng, X., Jiang, Y., Ding, W., Li, H., Hao, Y., & Qiu, Z. (2021). A hierarchical spatio- temporal graph convolutional neural network for anomaly detection in videos. IEEE Transactions on Circuits and Systems for Video Technology.
- Zhang, S., Gong, M., Xie, Y., Qin, A. K., Li, H., Gao, Y., et al. (2022). Influence-aware attention networks for anomaly detection in surveillance videos. IEEE Transactions on Circuits and Systems for Video Technology, 32(8), 5427–5437.
- Zhang, D., Huang, C., Liu, C., & Xu, Y. (2022). Weakly supervised video anomaly detection via transformer-enabled temporal relation learning. IEEE Signal Processing Letters.
- Zhong, J.-X., Li, N., Kong, W., Liu, S., Li, T. H., & Li, G. (2019). Graph convolutional label noise cleaner: Train a plug-and-play action classifier for anomaly detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 1237–1246).
- Zhu, Y., & Newsam, S. (2019). Motion-aware feature for improved video anomaly detection… In Proceedings of british machine vision conference (pp. 1–12).