VideoPrism——探索视频分析领域模型的算法与应用

概述

论文地址:https://arxiv.org/pdf/2402.13217.pdf
视频是我们观察世界的生动窗口，记录了从日常瞬间到科学探索的各种体验。在这个数字时代，视频基础模型（ViFM）有可能分析如此海量的信息并提取新的见解。迄今为止，视频理解领域的研究确实取得了长足进步，但构建真正的基础视频模型，娴熟地处理外观和运动问题，仍是一个尚未实现的领域。

因此，本文提出了创新型通用视频编码器VideoPrism，旨在解决从视频分类到定位、搜索、字幕和问题解答等所有视频理解任务。通过广泛的评估（包括计算机视觉数据集以及神经科学和生态学等科学学科），VideoPrism 以最小的适应度展示了最先进的性能。下图是 VideoPrism 的概览。

在 VideoPrism 的开发过程中，我们强调了预训练数据的重要性。理想情况下，预训练数据应该是来自世界各地的具有代表性的视频样本，但实际上，许多视频并不附带描述内容的文本，或者噪音非常大。因此，VideoPrism 通过收集 3,600 万对高质量视频和字幕以及 5.82 亿个噪声视频片段，充分利用了这些数据。

建模从视频和语言之间的意义对比学习开始。然后，它使用纯视频数据，结合全局和局部提炼、标记洗牌，并通过屏蔽视频建模进一步改进。这种独特的两阶段方法是 VideoPrism 在同时关注视频外观和运动的任务中的优势所在。

通过在四大理解任务类别中进行广泛评估，包括从网络视频、脚本表演到科学实验的 33 种不同基准，证明了这种方法的有效性 VideoPrism 在其中 30 种基准中的表现优于现有的视频基础架构模型 (ViFM)。在其中 30 项基准测试中，VideoPrism 的表现远远超过了现有的视频基础架构模型（ViFM），证明了其卓越的性能。结果如下图所示。

这表明 VideoPrism 具有 "非常 "好的概括能力。

技术

VideoPrism 采用创新的视频理解方法。其核心是一个丰富的预训练数据集，包含 3600 万个片段。这些片段是从 3,600 万个视频中提取出来的，并配有高质量的人工字幕。此外，2.75 亿个视频中的 5.82 亿个片段包含带噪声的平行文本。这种预训练数据集在视频基础模型（ViFM）中是前所未有的，但与图像基础模型所用的数据相比仍然较少。为了填补这一空白，本文还收集了其他数据，包括 ASR、元数据和通过大规模多模态模型生成的噪声文本。

值得注意的是，在预训练和后续训练中都没有使用评估基准的训练集。这可以防止模型针对特定的评估基准进行过度优化。此外，预训练语料库与评估基准视频是去重复的，以避免数据泄露。

在模型架构方面，VideoPrism 基于视觉转换器（ViT），但同时考虑了空间和时间因素。这确保了在输出标记序列中保留空间和时间维度，以支持需要细粒度特征的下游任务：VideoPrism-g 采用了拥有 10 亿个参数的 ViT-giant 网络，而较小的 ViT-Base 网络则采用了更小的 ViT-Giant 网络。VideoPrism-B 采用较小的 ViT-Base 网络。

VideoPrism 采用独特的两阶段方法，通过利用视频和文本对以及纯视频数据来学习纯视频数据。由于大型预训练数据集中的文本在某些视频中通常会出现噪声，因此 VideoPrism 专注于纯视频数据，以捕捉视频的深层含义。

第一阶段：在这一阶段，对比学习用于使视频编码器与文本编码器同步。这一过程根据视频-文本对的相似性得分，通过最小化对称交叉熵损失，从语言中引导视频编码器学习丰富的视觉语义。这一阶段产生的模型为下一阶段的学习提供了语义视频嵌入。

第2 阶段：第 1 阶段中仅基于视觉文本数据的学习面临着一个问题，即文本描述包含噪音，而且往往只捕捉外观而非运动。第二阶段的重点是从纯视频数据中学习外观和运动信息。这里引入了一种新的标记洗牌方案以及全局和每个标记的蒸馏损失，作为对遮蔽视频建模的改进。这样，模型就能在保留语义知识的基础上，根据遮蔽视频学习预测第一阶段的嵌入。

通过这种两阶段方法，VideoPrism 正在构建一个底层视频编码器，它可以更好地理解视频并捕捉外观和运动的语义。

试验

对 VideoPrism 进行了评估，以证明其在各种以视频为中心的理解任务中的性能和多功能性。这些任务分为四类：第一类是一般视频理解。这包括分类和时空定位；第二类是零镜头视频文本检索；第三类是零镜头视频字幕和质量保证；第四类是用于科学研究的计算机视觉；第四类是用于视频分析的视频理解。

在所有实验中，VideoPrism 都被固定为视频编码器，只训练特定任务所需的组件。这样就可以评估 VideoPrism 的多功能性及其独立于特定任务模型的能力。此外，VideoPrism 方法在视频分析中特别有用，因为视频编码的成本可以分摊到多个任务中，因此很难进行昂贵的微调。

首先将其与视频理解基准 VideoGLUE 中的先进模型进行比较。评估范围包括以外观为重点的动作识别（VC(A)）、动作丰富的动作识别（VC(M)）、多标签视频分类（VC(ML)）、时间动作定位（TAL）、时间和空间动作定位（STAL）。这项研究使用了八个具有代表性的数据集，包括

从 ViT-B 到 ViT-g，随着模型大小的增加，VideoPrism 的性能显著提高。这意味着 VideoPrism 在单一编码器中结合了对不同视频源的鲁棒性，如外观和运动线索、空间和时间信息、网络视频和脚本性能。

然后，我们使用 MSRVTT、VATEX 和 ActivityNet 这三个关键基准来评估 VideoPrism 的零镜头视频文本检索性能。零镜头视频分类任务也是对 Kinetics-400、Charades、SSv2-Temporal、SSv2-Events 和 NExT-QA 的 ATP-Hard 子集的挑战。

作为一项重要成果，VideoPrism 在多项基准测试中创造了新的最佳记录，并在特别具有挑战性的数据集上取得了显著改进，VideoPrism-B 的表现优于现有的大型模型。此外，与使用域内数据和其他模式预先训练的模型相比，VideoPrism 的表现同样出色，甚至更好。这些结果表明，VideoPrism 在零镜头搜索和分类任务中具有强大的泛化能力。

此外，MSRVTT、VATEX 和 YouCook2 等标准视频封顶数据集以及 MSRVTT-QA、MSVD-QA 和 NExT-QA 等视频质量保证基准被用于视频封顶和质量保证任务，并在零镜头设置下进行性能评估。评估。请注意，这些模型并未针对字幕和质量保证任务进行专门调整。

结果如下表所示。尽管结构简单，适配器参数数量有限，但它仍具有竞争力，在除 VATEX 之外的大多数评估中都取得了优异成绩。这表明，VideoPrism 编码器在视频到语言的生成任务中具有广泛的通用能力。

现有的视频分析基准主要侧重于以人为中心的数据，而 VideoPrism 的功能及其在科学应用方面的潜力则是利用科学数据集对各种视频集进行探索。分析涵盖了广泛的学科，包括行为研究、行为神经科学、认知科学和生态学。本研究首次尝试将 ViFM 应用于科学数据集，结果表明 ViFM 的性能与专业模型相当，甚至更好。这

该分析包括在科学实验中捕获的标注了专业知识的大型视频数据集，其中包括苍蝇、小鼠、黑猩猩和肯尼亚野生动物。所有这些数据集都为行为视频分类或时空动作定位进行了详细注释。其中，CRIM13 数据集分析的是笼子侧面和上方视角的视频。