VideoCLIP-XL:推进视频CLIP模型对长描述的理解

摘要

对比语言-图像预训练(CLIP)已被广泛研究并应用于众多领域。然而,预训练过程中对简短摘要文本的重视阻碍了CLIP理解长描述的能力。在视频方面,这个问题尤为严重,因为视频通常包含大量详细内容。在本文中,我们提出了VideoCLIP-XL(eXtra Length,超长)模型,旨在释放视频CLIP模型理解长描述的能力。首先,我们建立了一个自动数据收集系统,并收集了一个大规模的视频与长描述对(VILD)预训练数据集。然后,我们提出了文本相似性引导的主成分匹配(TPCM)方法,以在扩展长描述能力的同时更好地学习特征空间的分布。我们还引入了两个新任务,即细节感知描述排序(DDR)和幻觉感知描述排序(HDR),以进一步提高理解能力。最后,我们构建了一个长视频描述排序(LVDR)基准,以更全面地评估长描述能力。在包含短描述和长描述的常用文本-视频检索基准以及我们的LVDR基准上的大量实验结果充分证明了我们的方法的有效性。

1 引言

对比语言-图像预训练(CLIP)模型(Radford等,2021)是视觉-语言预训练领域的一项关键发展。它结合了文本和图像编码器,通过对比学习使这两种模态对齐。该方法已在各种应用中得到有效应用,如零样本分类(Sun等,2023)、文本-图像检索(Luo等,2023)和文本到图像的生成(Rombach等,2022;Frans等,2022)。然而,CLIP的一个显著局限性是其处理大量文本描述的能力有限,因为其文本编码器依赖于最大长度为77的位置嵌入。这一限制极大地限制了输入文本的长度,现有研究(Zhang等,2024)也揭示了一个实际有效的标记限制仅为大约20个。

此外,原始CLIP训练过程对简短摘要文本的重视迫使文本/视觉编码器主要关注文本/视觉输入的主要特征,往往忽略了较小但可能至关重要的细节。与图像相比,视频中的这个问题尤为严重,因为视频在连续帧中包含了大量细节,以及活动顺序和流程、摄像机运动等附加信息。在此背景下,采用原始CLIP训练方法的现有视频CLIP模型(Xu等,2021;Luo等,2022;Wang等,2023c)可能难以准确捕捉复杂的关系和属性,因为它们依赖于简单的“概念袋”方法(Tang等,2023b)。为了克服这些限制,增强模型理解长描述的能力至关重要。更长的文本提供了丰富的属性和相互关联的信息,为提高模型在更复杂场景中的性能和适用性提供了途径。

为此,我们提出了据我们所知的第一个具有长描述能力的视频CLIP模型VideoCLIP-XL(eXtra Length,超长)。(1)具体而言,鉴于包含(视频,长描述)对的公共数据集的不足,我们建立了一个自动数据收集系统,旨在从多个数据源聚合足够且高质量的对。我们已经成功收集了超过200万个(视频,长描述)对,称为我们的VILD预训练数据集。(2)我们发现现有的针对长文本的CLIP模型(Zhang等,2024)缺乏在高维特征空间内动态适应分布变化的灵活性。为了解决这个问题,我们引入了文本相似性引导的主成分匹配(TPCM)方法,这是一种使模型能够更好地学习跨模态和跨样本相对距离的新方法。(3)我们认为,具有长描述理解能力的CLIP模型自然应具备两个属性:对于给定的视频及其相关描述,当描述包含i)更丰富和精确的细节上下文;或ii)在相同细节水平下更少出现幻觉时,它应该能够给出更高的评分。为此,我们提出了两个新任务来建模这两个属性,即细节感知描述排序(DDR)和幻觉感知描述排序(HDR)。它们使视频CLIP模型学会如何正确地对具有不同细节和幻觉水平的多个描述进行排序。(4)为了更好地评估视频CLIP模型,我们还发布了一个长视频描述排序(LVDR)基准。给定每个视频和从Shot2Story(Han等,2023)中采样并经过人工校正的对应真实长描述,我们在每一步中迭代地将一定比例的正确内容修改为幻觉。模型需要根据描述的忠实度正确地对这些描述进行排序。

为了评估VideoCLIP-XL的性能,我们不仅在视频&长描述数据集Shot2Story(Han等,2023)上进行了大量实验,还在传统的广泛使用的MSR-VTT(Xu等,2016)、LSMDC(Rohrbach等,2015)、DiDeMo(Anne Hendricks等,2017)、MSVD(Chen和Dolan,2011)和ActivityNet(Heilbron等,2015)基准上进行了文本-视频检索任务的实验。此外,我们还在我们提出的LVDR基准上评估了VideoCLIP-XL和其他代表性CLIP模型。实验结果表明,我们的方法相比最先进的竞争对手表现出优越的性能。

我们的主要贡献如下:

  • 我们提出了VideoCLIP-XL模型,以释放视频CLIP模型理解长描述的能力。我们还使用自动数据收集系统收集并发布了一个新的包含超过200万个视频&长描述对的预训练数据集VILD。
  • 在VideoCLIP-XL中,我们提出了TPCM方法,以在扩展长描述能力的同时进行动态特征学习。我们还提出了两个新任务(即DDR和HDR),以进一步建模有效属性,从而更好地学习长描述的表示。
  • 为了更好地评估视频CLIP模型的长描述能力,我们提出了长描述排序(LVDR)基准。
  • 大量实验表明,VideoCLIP-XL在各种任务和基准上明显优于最先进的模型。

2 相关工作

图像/视频CLIP模型。CLIP(Radford等,2021)是一个基于对比学习的多模态模型。其训练数据包含大量的文本-图像对,每个图像都与相应的文本描述配对。通过对比学习,模型学习文本-图像对之间的匹配关系。由于其强大的零样本泛化能力,CLIP已成功应用于包括检测(Gu等,2021;Li等,2022b)、分割(Xu等,2022;Li等,2022a)、图像/视频理解(Luo等,2022;Xu等,2021;Tang等,2023a)、检索(Wang等,2023a,b)和图像生成(Ramesh等,2022;Frans等,2022;Crowson等,2022;Vinker等,2022)在内的众多场景。对于视频分析,ViCLIP(Wang等,2023c)在其视频编码器内融入了时空注意力,并在训练过程中采用了部分随机补丁掩码。然而,随后的几项研究(Kim等,2023;Zeng等,2021)指出CLIP在提取细粒度信息方面存在不足。这些工作实现了与CLIP类似的对比方法,将完整的句子标记与整个图像的区域进行对齐。此外,Long-CLIP(Zhang等,2024)提出使用CLIP特征的主成分匹配来提高模型对图像中长描述的理解能力。

视觉-语言数据集。随着多模态模型能力的提升,需求已经超越了传统的固定类别图像数据集,如ImageNet(Deng等,2009)和CIFAR10(Krizhevsky等,2009)。当代开放世界应用需要包含图像/视频及其相关文本描述的数据集。常见的开放世界图像-语言数据集包括Visual Genome(Krishna等,2017)、Conceptual-12M(Changpinyo等,2021)、SBU(Ordonez等,2011)、COCO(Lin等,2014)和LAION-5B(Schuhmann等,2022)。典型的视频-语言数据集包括MSR-VTT(Xu等,2016)、MSVD(Chen和Dolan,2011)、LSMDC(Rohrbach等,2015)、WebVid(Bain等,2021)、InternVid(Wang等,2023c)和Panda-70M(Chen等,2024)。然而,这些数据集通常只包含简短的描述。另一方面,少数数据集专注于长描述。ShareGPT4V(Chen等,2023)是一个包含120万张带有长描述图像的大规模数据集。Shot2Story(Han等,2023)包含2万个视频片段,每个片段都有详细的镜头级描述和全面的视频摘要。MiraData(Ju等,2024)处理未剪辑的视频片段,并带有结构化的长描述。它包含57,800个视频片段,涵盖游戏和城市/风景探索两个场景。这些集合中的平均描述长度通常比以前的数据集(Zhang等,2024)中的描述长度高出几个数量级。

3 方法论

在本节中,我们介绍了我们的自动数据收集系统以及由此产生的视频与长描述(VILD)预训练数据集(第3.1节)、文本相似性引导的主成分匹配(TPCM)技术(第3.2节)、两个新的描述排序任务(第3.3节)以及新的长视频描述排序(LVDR)基准数据集(第3.4节)。

3.1 视频与长描述(VILD)数据集

训练CLIP模型通常需要大量的视觉-文本对。在图像处理领域,开源大型多模态模型(LMMs)的出现以及GPT-4V(Achiam等,2023)等API的可用性推动了使用详细长描述对图像进行标注的工作。例如,ShareGPT4V(Chen等,2023)是一个大型数据集,它源自一个高质量策划的10万个描述集合,该集合是使用GPT-4V收集的,并通过一个描述模型扩展到120万个。
在这里插入图片描述

然而,具有大量长描述的视频数据集,尤其是在开放领域,仍然非常稀缺。例如,Shot2Story(Han等,2023)提供了2万个视频片段,每个片段都附有镜头级描述和视频摘要。在使用LMMs进行标注后,进一步的手动校正确保了这些长描述的可靠性,从而使其成为一个值得信赖的评估集,并从我们的训练数据中排除。MiraData(Ju等,2024)利用GPT4V为57,800个视频片段生成长描述,这些视频片段仅限于游戏和城市/风景探索场景。Open-Sora-Dataset(PKU-YuanGroup,2024)利用LMMs为40,200个视频生成描述性叙述,主要是自然景观。

鉴于开放领域视频与长描述对的稀缺性,我们设计了一个自动数据收集系统,如图1所示。我们的方法利用了多种来源,主要包括视频叙述数据、视频指令调整数据、原始视频和可用的视频与长描述对。
(a)视频叙述数据。视频叙述数据通常包含由人类标注者产生的与人类相关的描述,可以描述整个场景、主要活动以及涉及多个角色和对象的事件。我们采用了VidLN(Voigtlaender等,2023)数据集,该数据集包含视频中每个主要人物/动物/目标的个体级描述以及背景的人类标注。为了使数据集符合我们的目的,我们采用大型语言模型(LLMs)通过提示工程(即描述聚合步骤)将个体级叙述聚合成整体级描述。最后,考虑到训练的有效性和鲁棒性,我们进一步利用LLMs对整体级描述进行重写(即描述重写步骤)。此过程涉及生成具有相同意义的不同文本描述,同时保持主要内容和详细属性不变。在附录A.1中展示了在两个步骤中使用的LLMs和提示的详细信息。
(b) 视频指令调优数据。随着大型语言模型(LMMs)的出现,大量的视频指令调优数据集也已公开。例如,VideoInstruct100K(Maaz等,2023)包含与视频摘要、基于描述的问题回答以及创造性/生成性问题回答相关的问答对。VideoChat(Li等,2023b)提供了一个丰富的数据集,其中包含详尽的视频描述和对话,通过融入视频指令中的时间和因果方面来增强数据的多样性。这些数据集最初是为了训练一种与类型无关的视频理解模型而制作的,而不是为了整理视频描述。因此,我们的方法包括使用大型语言模型(LLMs)进行数据过滤,以排除与视频描述无关的样本。我们采用了提示工程,并提供了一些示例演示,以帮助LLMs取得更好的效果。最后,还执行了描述重写步骤。所使用的LLMs和提示的详细信息见附录A.1。

© 可用视频与长描述数据。如前所述,现有将视频与长文本描述配对的数据集通常在视频的数量或领域/类型上受到限制。在这方面,我们对这些数据集执行了数据采样操作。具体而言,VILD包含了MiraData(Ju等,2024)中所有关于游戏和城市/风景探索场景的57.8K个视频片段。从Open-Sora-Dataset(PKU-YuanGroup,2024)中随机抽取了50K条描述自然景观的长字幕。最后还涉及描述重写步骤。(d) 原始视频数据。为了进一步扩大训练数据的数量,我们利用LMMs和LMMs(这里可能是指利用不同类型的LMMs或重复提及以强调,但原文表述略显重复,故在此稍作调整以明确)根据原始视频(有些结合了相应的短字幕)生成长描述。如果没有短字幕可用,则需要使用现成的模型(Li等,2023a;Huang等,2023;Zhang等,2023;Yu等,2023)执行一个可选的短视频描述生成步骤。为了提高计算效率,我们随机抽取了超过200万个视频片段,这些片段由Panda-70M(Chen等,2024)中的多个教师模型和微调后的字幕选择模型生成了高质量短字幕。然后,我们从每个视频片段中等间隔地采样 k k k(在我们的设置中 k = 3 k=3 k=3)帧作为关键帧,并使用LMMs为它们添加长描述。我们没有为每一帧都这样做,因为这将非常耗时且费力。接下来,给定整个视频的短描述和其关键帧的长描述,我们要求LLMs将它们整合成整个视频的长描述。短视频描述的辅助可以缓解帧描述中出现的幻觉。我们的发现也与现有研究(Wang等,2023c,2024)达成共识,即直接使用视频LMMs(Li等,2023b;Maaz等,2023)为长字幕描述视频可能会导致次优结果。所使用的LLMs/LMMs和提示的详细信息见附录A.1。

最后,执行了后处理步骤。过滤掉了不适宜公开(NSFW)的示例。接下来,我们使用ViCLIP(Wang等,2023c)和LongCLIP(Zhang等,2024)过滤掉平均视频-文本相似度小于0.20的低质量示例。我们最终收集了超过200万个视频与长描述数据对,作为我们的VILD数据集用于模型预训练。数据统计信息的更详细比较见附录A.2。

3.2 文本相似性引导的主成分匹配(TCPM)

CLIP模型的原始预训练以视觉-文本对 ( v , t ) (v, t) (v,t)作为输入。 v v v可以是图像或视频。它对特定的单模态编码器架构没有假设。给定一个视觉编码器 E v E_{v} Ev和一个文本编码器 E t E_{t} Et,首先提取单模态特征为 f v = E v ( v ) f_{v}=E_{v}(v) fv=Ev(v) f t = E t ( t ) f_{t}=E_{t}(t) ft=Et(t)。然后,通常采用InfoNCE(Oord等,2018)损失的对比学习来学习视觉和文本之间的对应关系。特别是,这可以表示为:

L C L ( f t , f v ) = 1 2 N ∑ N L InfoNCE  f t → f v + L InfoNCE  f v → f t \mathcal{L}_{\mathrm{CL}}\left(f_{t}, f_{v}\right)=\frac{1}{2 N} \sum_{N} \mathcal{L}_{\text {InfoNCE }}^{f_{t} \rightarrow f_{v}}+\mathcal{L}_{\text {InfoNCE }}^{f_{v} \rightarrow f_{t}} LCL(ft,fv)=2N1NLInfoNCE ftfv+LInfoNCE fvft

其中 N N N是批量大小,

L InfoNCE  f t → f v = − log ⁡ exp ⁡ ( sim ( f t , f v + ) / τ ) ∑ f v ∈ { f v + , f v − } exp ⁡ ( sim ( f t , f v ) / τ ) \mathcal{L}_{\text {InfoNCE }}^{f_{t} \rightarrow f_{v}}=-\log \frac{\exp \left(\text{sim}\left(f_{t}, f_{v}^{+}\right) / \tau\right)}{\sum_{f_{v} \in\left\{f_{v}^{+}, f_{v}^{-}\right\}} \exp \left(\text{sim}\left(f_{t}, f_{v}\right) / \tau\right)} LInfoNCE ftfv=logfv{fv+,fv}exp(sim(ft,fv)/τ)exp(sim(ft,fv+)/τ)

反之亦然。这里, τ \tau τ是温度超参数, sim \text{sim} sim是余弦相似度计算, f v + f_{v}^{+} fv+是与文本特征 f t f_{t} ft配对的正视觉特征, f v − f_{v}^{-} fv是由当前训练批次中其他未配对的图像/视频形成的负视觉特征。

为了扩展CLIP模型对长描述的理解能力,Long-CLIP(Zhang等,2024)提出使用主成分匹配进行图像CLIP。给定短描述、长描述和视觉输入( s t , l t , v s_t, l_t, v st,lt,v),损失函数表示为:

L = L C L ( f l t , f v ) + α 1 L C L ( f s t , f v ′ ) \mathcal{L}=\mathcal{L}_{\mathrm{CL}}\left(f_{l t}, f_{v}\right)+\alpha_{1} \mathcal{L}_{\mathrm{CL}}\left(f_{s t}, f_{v}^{\prime}\right) L=LCL(flt,fv)+α1LCL(fst,fv)

其中 α 1 \alpha_{1} α1是比率超参数, f v ′ = P C E ( f v , 32 ) f_{v}^{\prime}=\mathrm{PCE}\left(f_{v}, 32\right) fv=PCE(fv,32)。这里,PCE是主成分提取的缩写,由组件分解函数 F \mathcal{F} F(将特征分解为不同属性及其重要性的向量)、组件过滤函数 E \mathcal{E} E(过滤掉不太重要的属性)和组件重建函数 F − 1 \mathcal{F}^{-1} F1(重建特征)组成。在实现 E \mathcal{E} E时,Long-CLIP选择了最重要的32个属性作为保留的属性。
在这里插入图片描述

然而,当将此技术扩展到视频预训练时,我们发现由于视频通常比图像包含更丰富的内容和更多细节,这种固定策略无法动态适应视频CLIP高维特征空间在学习期间发生的严重分布变化(如图5所示)。在这方面,我们建议使用 l t l_t lt s t s_t st之间的余弦文本相似性作为信号来指导PCE过程,如图2所示。因此,我们将 f ^ v \hat{f}_{v} f^v重新写为:

f ^ v = P C E ( f v , G ( sim ( f l t , f s t ) ) ) \hat{f}_{v}=\mathrm{PCE}\left(f_{v}, \mathcal{G}\left(\text{sim}\left(f_{l t}, f_{s t}\right)\right)\right) f^v=PCE(fv,G(sim(flt,fst)))

其中 G \mathcal{G} G表示我们按重要性降序保留属性,直到 f ^ v \hat{f}_{v} f^v f v f_{v} fv之间的相似度达到 l t l_t lt s t s_t st之间的相似度为止。

3.3 两种描述排序任务

我们假定,旨在理解长描述的视频CLIP模型应固有地表现出两种特性:给定一个视频及其相关描述,模型应为(1)具有更丰富和更精确上下文以及(2)在细节程度相当的情况下更准确且更少出现幻觉的描述分配更高的分数。为了实现这些原则,我们引入了两个新任务:细节感知描述排序(DDR)和幻觉感知描述排序(HDR),以解决相应的属性问题。我们的准备步骤包括使用句法分析工具,如NLTK(Bird等人,2009)和spaCy(Honnibal等人,2020),对长描述的真实标签执行词性标注和句法结构解析。
在这里插入图片描述

随后,我们为每个视频合成多个描述候选,以促进DDR和HDR训练。如图3(a)所示,在每个步骤中,我们选择性地将特定单词(名词、数字、颜色或方向相关术语、动词)替换为同一句法类别中语义不同的对应词(例如,将boys替换为girls,将white替换为blue,将throwing替换为lifting),并进行 m − 1 m-1 m1次这样的替换。此方法产生一系列逐渐出现幻觉的描述,表示为 t H = { t 1 H , t 2 H , … , t m H } \mathbf{t}^{\mathbf{H}}=\left\{t_{1}^{H}, t_{2}^{H}, \ldots, t_{m}^{H}\right\} tH={t1H,t2H,,tmH}。类似地,如图3(b)所示,每个步骤都涉及从当前描述中随机删除子句、形容词、数字或依存解析子树。此过程递归地为每个视频生成 m − 1 m-1 m1个顺序上逐渐不太详细的描述,表示为 t D = { t 1 D , t 2 D , … , t m D } \mathbf{t}^{\mathbf{D}}=\left\{t_{1}^{D}, t_{2}^{D}, \ldots, t_{m}^{D}\right\} tD={t1D,t2D,,tmD}

对于 t H \mathbf{t}^{\mathbf{H}} tH t D \mathbf{t}^{\mathrm{D}} tD,给定相同的对应视频,我们希望模型能为序列中较早出现的描述生成更高的相似度分数。例如,对于DDR任务,我们制定损失函数如下:

L D D R = 1 m ( m − 1 ) 2 ∑ i = 1 m − 1 ∑ j = i + 1 m ReLU ⁡ ( − ( Δ i , j D − α D ) ) \mathcal{L}_{\mathrm{DDR}}=\frac{1}{\frac{m(m-1)}{2}} \sum_{i=1}^{m-1} \sum_{j=i+1}^{m} \operatorname{ReLU}\left(-\left(\Delta_{i, j}^{D}-\alpha_{D}\right)\right) LDDR=2m(m1)1i=1m1j=i+1mReLU((Δi,jDαD))

其中, α D \alpha_{D} αD是相似度差异间隙,

Δ i , j D = sim ⁡ ( f t i D , f v ) − sim ⁡ ( f t j D , f v ) \Delta_{i, j}^{D}=\operatorname{sim}\left(f_{t_{i}^{D}}, f_{v}\right)-\operatorname{sim}\left(f_{t_{j}^{D}}, f_{v}\right) Δi,jD=sim(ftiD,fv)sim(ftjD,fv)

此学习目标背后的直觉来自于模型能够区分具有最小区分度 α D \alpha_{D} αD的各种描述的要求。类似地,对于HDR,我们有损失函数:

L H D R = 1 m ( m − 1 ) 2 ∑ i = 1 m − 1 ∑ j = i + 1 m ReLU ⁡ ( − ( Δ i , j H − α H ) ) \mathcal{L}_{\mathrm{HDR}}=\frac{1}{\frac{m(m-1)}{2}} \sum_{i=1}^{m-1} \sum_{j=i+1}^{m} \operatorname{ReLU}\left(-\left(\Delta_{i, j}^{H}-\alpha_{H}\right)\right) LHDR=2m(m1)1i=1m1j=i+1mReLU((Δi,jHαH))

我们预训练过程的总损失为:
L = L C L ( f l t , f v ) + α 1 L C L ( f s t , f v ′ ) + α 2 L D D R + α 3 L H D R , \begin{aligned} \mathcal{L}= & \mathcal{L}_{\mathrm{CL}}\left(f_{l t}, f_{v}\right)+\alpha_{1} \mathcal{L}_{\mathrm{CL}}\left(f_{s t}, f_{v}^{\prime}\right)+ \\ & \alpha_{2} \mathcal{L}_{\mathrm{DDR}}+\alpha_{3} \mathcal{L}_{\mathrm{HDR}}, \end{aligned} L=LCL(flt,fv)+α1LCL(fst,fv)+α2LDDR+α3LHDR,
其中, α 2 \alpha_{2} α2 α 3 \alpha_{3} α3是平衡超参数。
在这里插入图片描述

3.4 新的LVDR基准

幻觉在当代大型语言模型(LLMs)和大型多模态模型(LMMs)中无处不在(Liu等人,2024a)。给定一个视频,具有理解长文本能力的视频CLIP模型应自然具备在长描述中区分正确和错误文本的判断力。为了更好地评估这种能力,我们提出了长视频描述排序(LVDR)基准。我们首先从Shot2Story(Han等人,2023)中随机抽取2K个视频和长描述对。然后,我们执行与图3(a)类似的合成过程,迭代 p − 1 p-1 p1次,并在每次迭代中更改 q q q个单词,从而产生总共 p p p个幻觉程度逐渐增加的描述。我们将这样的子集表示为 p × q p \times q p×q,并构建了五个子集作为 { 4 × 1 , 4 × 2 , 4 × 3 , 4 × 4 , 4 × 5 } \{4 \times 1,4 \times 2,4 \times 3,4 \times 4,4 \times 5\} {4×1,4×2,4×3,4×4,4×5}。每个不同的子集都经过人工审核,以避免不恰当的替换。图4中提供了代表性示例。根据我们的分析,一个更好的模型需要能够在给定视频的情况下,正确地将这些描述按相似度降序排序。因此,我们还设计了名为排序分数(RS)的评价标准,其可以表示为:

R S = 100 m ( m − 1 ) 2 ∑ i = 1 m − 1 ∑ j = i + 1 m 1 ( sim ⁡ ( f t i , f v ) > sim ⁡ ( f t j , f v ) ) \mathrm{RS}=\frac{100}{\frac{m(m-1)}{2}} \sum_{i=1}^{m-1} \sum_{j=i+1}^{m} \mathbb{1}\left(\operatorname{sim}\left(f_{t_{i}}, f_{v}\right)>\operatorname{sim}\left(f_{t_{j}}, f_{v}\right)\right) RS=2m(m1)100i=1m1j=i+1m1(sim(fti,fv)>sim(ftj,fv))

其中, 1 \mathbb{1} 1是指示函数。

4 实验

4.1 实现细节

我们采用CLIP(Radford等,2021)的模型结构,结合ViT-L/14,并在视频编码器中使用时空注意力机制,其权重初始化来自ViCLIP(Wang等,2023c)。我们进一步在我们的VILD数据集上对VideoCLIP-XL进行了2个周期的预训练。所有实验均在PyTorch中实现,并在NVIDIA Tesla A100-80G GPU上运行。更多实验细节见附录A.3。

4.2 性能比较

我们将VideoCLIP-XL与三个不同下游任务中的强劲对手进行比较:传统基准上的文本-视频检索、长描述基准上的文本-视频检索,以及在我们LVDR基准上的描述排序。
在这里插入图片描述

传统基准上文本-视频检索的结果如表1和表2所示。我们可以发现,无论是在零样本还是微调设置下,VideoCLIP-XL在所有基准上均表现出优于其他视频CLIP模型的性能。例如,VideoCLIP-XL在MSR-VTT数据集上的T2V/V2T零样本R@1得分分别提高了+7.7/+8.6,T2V/V2T微调R@1得分分别提高了+4.5/+4.8。值得注意的是,尽管我们的方法主要关注学习视频和文本中的细粒度特征,但其有效的训练策略也能在所有基准上带来显著提升,无论文本是否详细。
在这里插入图片描述

如表4所示,在长描述设置下,VideoCLIP-XL在Shot2Story上也显著超越了其他竞争对手。在Shot2Story中,每个视频片段由多个在不同场景之间切换的视频镜头组成,以表达同一主要事件。这要求模型能够从多个复杂场景中充分理解主要活动。实验结果表明,无论是将整个视频片段(Shot2Story-W)还是每个镜头(Shot2Story-S)作为个体进行文本-视频检索任务,我们的方法都表现出显著优势。
在这里插入图片描述

我们LVDR基准的结果如表3所示。VideoCLIP-XL与竞争对手相比,具有更强的识别能力,能够感知长视频描述中的不准确内容,并为其分配较低的相似度分数。例如,在 4 × 1 4 \times 1 4×1设置下,相邻生成的描述之间只有1个原始单词被随机替换为错误单词,我们的模型可以超越Long-CLIP(专注于图像的长文本理解)10.25的排名分数。我们还可以观察到,随着单步幻觉的程度从浅到深(从 4 × 1 4 \times 1 4×1 4 × 5 4 \times 5 4×5),视频CLIP模型能够更自然地区分不同的长视频描述。

4.3 消融研究

在本小节中,我们旨在探索我们方法中每个组件的有效性。

如图1所示,我们的VILD预训练数据集由来自不同数据源的四个部分的聚合而成。对于部分(a)(b)(c),在基于LLM的步骤之前,数据资源通常利用强大的GPT4 V(Achiam等,2023)或人工来生成文本信息。而对于部分(d),我们使用开源LLM从原始视频中生成长描述。表5(a)中的结果展示了数据的有效性。虽然使用开源LLM进行自动化数据合成的效果自然会略逊于GPT-4V/人工,但与现有竞争对手相比,它仍然可以取得最先进的性能。此外,在(a)(b)(c)的基础上添加(d)可以进一步带来明显的改进。这也证明了我们的数据合成管道的有效性。
在这里插入图片描述

如表5(b)中#2与#1所示,TPCM在传统文本-视频检索数据集上可以获得+0.44 R@1的提升,在Shot2Story上可以获得+0.56 R@1的提升。此外,它还可以在预训练期间动态修改特征空间分布,这体现在PCA维度的增加上,如图5所示。
在这里插入图片描述

DDR和HDR的有效性也可以在表5(b)中找到。比较#3与#2,DDR在传统基准上获得了+0.52 R@1的提升,在LVDR上获得了+1.20 RS的提升。至于HDR,比较#4与#2,它在LVDR上获得了+6.55 RS的提升。此外,如表5(b)中#5与#2所示,在MLDMA和LVDR上同时执行这两个任务比单独使用任何一个都更有效。

5 结论

在本文中,我们提出了VideoCLIP-XL,这是一种具有长描述能力的视频CLIP模型。我们建立了一个自动数据采集系统来收集我们的VILD数据集,并提出了TPCM,以在预训练期间更好地学习特征空间分布的同时扩展长描述能力。我们还引入了两个新任务,即DDR和HDR,以进一步提高理解能力。我们的LVDR基准有助于更全面地评估长描述能力。广泛的实验结果证明了我们的方法的有效性。

对于未来的研究,我们计划改进预训练方法,并增加数据量和模型规模以进一步提高性能。我们还将尝试将交叉编码器和LLM的结构集成到我们的方法中。

局限性
尽管VideoCLIP-XL经过训练以具备长描述理解能力,但由于预训练数据的数量和单模态编码器的特征提取能力的限制,仍有改进空间。数据的规模、质量和多样性可以进一步扩展,特征提取器的模型结构和规模也可以扩大。将我们的方法应用于交叉编码器和LLM的结构也值得探索。这些改进留待我们后续工作完成。

伦理考虑
本文提出的训练VideoCLIP-XL模型的技术完全是方法论的,因此我们的方法没有直接的负面社会影响。此外,我们已从预训练数据中过滤掉了NSFW(不适合在工作场合观看)的示例,以确保所看到的内容适合公开分发。

致谢
本研究部分得到了国家自然科学基金(项目号:62441604、62476093)的支持。此外,本研究还得到了阿里云计算的支持,通过华南理工大学的科研人才计划。

A 附录

A.1 VILD数据生成的细节

在VILD数据生成过程中,我们在基于LLM的步骤中使用了Qwen1.5-72B-Chat(Bai等人,2023),在基于LMM的步骤中使用了LLaVA-v1.6-34B(Liu等人,2024b)。我们使用的所有提示如下:
[描述聚合]
“以下是视频中主题或背景的描述。请将它们组织成一个对整个视频的单一描述。不要遗漏任何内容,也不要添加任何未包含或不确定的新内容。
{示例}
描述:{个体层面的描述}
输出:”
[描述重写]
“以下是一个视频描述。请输出一个重写版本。不要遗漏任何内容,也不要添加任何未包含或不确定的新内容。
{示例}
描述:{输入描述}
输出:”
[数据过滤]
“判断以下对话是否在讨论视频的整体/综合层面的描述/内容。如果是,输出Yes;否则,输出No。
(示例)
对话:{输入对话}
输出:”
[长帧描述生成]
“准确描述这张图片。”
[长视频描述生成]
“我们将提供一个视频的描述和一些帧描述。直接根据它们输出一个丰富的视频描述。删除重复内容。不要描述任何不确定或未包含的内容。不要描述单个帧。不要描述具体主题,使用通用词汇代替。
{示例}
视频描述:{短视频描述}
帧描述:{长帧描述} 输出:”

A.2 数据统计详情

数据统计信息的更详细比较如表6所示。

A.3 实验设置详情

在预训练期间,我们为每个视频采样8帧。我们还根据(Zhang等人,2024)将原始绝对位置嵌入从77拉伸到248。在预训练时,我们设置批量大小为1664,预热步数为200,权重衰减为0.02,最大学习率为 4 e − 6 4 \mathrm{e}-6 4e6。学习率在预热后按余弦计划降低。 α 1 \alpha_{1} α1 α 2 \alpha_{2} α2 α 3 \alpha_{3} α3 α D \alpha_{D} αD α H \alpha_{H} αH分别经验性地设置为0.1、1.0、10.0、0.0和0.0。在DDR和HDR任务中, m m m设置为5。

在预训练期间,如等式8所示,我们使用长描述来使VideoCLIP-XL学习长文本的语义,并使用短描述来维持其原有的短文本能力。对于我们的VILD数据集中没有来自原始资源的配对短描述的视频,我们使用Qwen1.5-72B-Chat根据长描述生成它们。我们使用的提示是:
“以下是一个详细的视频描述。请提取其核心内容并将其总结成一个非常短的句子。不要超过10个词。
{示例}
描述:{长视频描述}

输出:”
对于在传统基准上的文本-视频检索微调设置,我们使用普通的文本-视频对比学习损失在每个评估基准的训练集上微调我们的预训练VideoCLIP-XL。在训练和测试期间,我们采样12帧。详细的超参数与ViCLIP(Wang等人,2023c)相同。而在零样本设置下,以及Shot2Story和LVDR的评估中,我们只采样8帧。

对于Long-CLIP等图像CLIP模型,我们计算帧的平均图像特征和文本特征之间的相似性。

A.4 与更多模型的性能比较

如表7所示,我们引入了更多最近强大且大型交叉编码器模型(Li等人,2023c;Wang等人,2024)进行全面比较。交叉编码器模型,特别是大型多模态模型(LMM),通常会添加额外的Transformer层来建模视觉和文本表示之间的深层交互。该模型通常可以提高检索性能,但当应用于整个图像/视频集合时,由于每次给出新的文本查询时都需要为每个图像/视频样本计算跨模态成本,因此检索速度会变得难以忍受地慢。相比之下,具有双编码器结构的VideoCLIP-XL的参数和检索时间成本明显更少。双编码器以完全解耦的方式对视觉和文本输入进行编码。视觉表示可以独立于文本查询进行预计算和重用。这些方法可以在运行时利用快速近似最近邻(ANN)搜索(Muja和Lowe,2009;Jegou等人,2010;Johnson等人,2019)来确保高效率。例如,VideoCLIP-XL在零样本文本-视频检索上通常超越UMT-L(Li等人,2023c),并且在MSR-VTT上的检索速度比UMT-L快 ∼ 4.14 × \sim 4.14 \times 4.14×,无需任何额外修饰,这也表明了我们预训练阶段的有效性。它还比InternVideo 2s2-1B快 ∼ 8.69 × \sim 8.69 \times 8.69×。对于微调,大型交叉编码器模型由于跨模态特征交互而自然超越双编码器模型。然而,这些模型仍然受到推理速度慢的问题的困扰,因此很难部署在实时应用中。

A.5 更多定性结果

我们在图6中给出了通过图1(d)获得的一些合成长视频描述示例。在Shot2Story基准上的文本到视频检索结果的定性示例如图7所示。我们可以发现,与竞争对手相比,我们的VideoCLIP-XL可以实现更准确和匹配的视频检索结果。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/56751.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何看一个flutter项目的具体flutter版本

查看pubspec.lock文件 这个项目实际运行的就是 flutter 3.16.6 版本的

Leetcode 1489. 找到最小生成树里的关键边和伪关键边

1.题目基本信息 1.1.题目描述 给你一个 n 个点的带权无向连通图,节点编号为 0 到 n-1 ,同时还有一个数组 edges ,其中 edges[i] [fromi, toi, weighti] 表示在 fromi 和 toi 节点之间有一条带权无向边。最小生成树 (MST) 是给定图中边的一…

MFC扩展库BCGControlBar Pro v35.1新版亮点:改进网格控件性能

BCGControlBar库拥有500多个经过全面设计、测试和充分记录的MFC扩展类。 我们的组件可以轻松地集成到您的应用程序中,并为您节省数百个开发和调试时间。 BCGControlBar专业版 v35.1已全新发布了,这个版本改进网格控件的性能、增强工具栏编辑器功能等。 …

【puppeteer】wvp-puppeteer制作 过程

目录 最后的结论 制作windows&ubuntu的docker 重启桌面上的docker 命令重启 通过 Docker Desktop 图形界面重启 制作centos docker 测试 参考文档 最后的结论 ubuntu && windows 使用 dualvenregistry:5000/wvp-puppeteer:1.0 centos7 使用:…

通过OpenCV实现 Lucas-Kanade 算法

目录 简介 Lucas-Kanade 光流算法 实现步骤 1. 导入所需库 2. 视频捕捉与初始化 3. 设置特征点参数 4. 创建掩模 5. 光流估计循环 6. 释放资源 结论 简介 在计算机视觉领域,光流估计是一种追踪物体运动的技术。它通过比较连续帧之间的像素强度变化来估计图…

第6篇:无线与移动网络

目录 引言 6.1 无线网络的基础概念 6.2 无线局域网(WLAN)与IEEE 802.11 6.3 蓝牙与无线个域网(WPAN) 6.4 无线城域网(WMAN)与WiMax 6.5 ZigBee与智能家居 6.6 移动蜂窝网络(3G/4G/5G&…

【Linux】总线-设备-驱动模型

背景 前面,我们介绍了写驱动代码的一些常规步骤,并且也写了最基本的驱动代码,但是那些代码存在着问题,我们将硬件的信息都写进了驱动里了,如果我们在杂项设备驱动中控制led,那么会在硬件操作接口中包含硬件…

【SQL实验】数据库、表、模式的SQL语句操作

完整代码在文章末尾 1、数据库的建立、删除和修改操作 (1)使用SQL语句创建数据库EDUC,并进行如下设置: 数据库文件和日志文件的逻辑名称分别为:Student_data和Student_log;数据文件的物理文件名为‘C:\DA…

基于Java语言的培训平台+学习平台+在线学习培训系统+教育平台+教育学习系统+课程学习平台

简述 企业培训平台企业考试系统培训平台考试系统企业大学企业视频网站视频学习平台 介绍 企业培训平台支持企业培训考试全流程,在线学习、在线考试,成熟的企业培训考试解决方案,充分满足企业培训需求。 独立部署,仅内部员工登录…

【热门】智慧果园管理系统解决方案

随着科技的进步,原有农业种植方式已经不能满足社会发展的需要,必须对传统的农业进行技术更新和改造。经过多年的实践,人们总结出一种新的种植方法——温室农业,即“用人工设施控制环境因素,使作物获得最适宜的生长条件,从而延长生产季节,获得最佳的产出”。这种农业生产方式…

03.顺序表实现

顺序表是用一段物理地址连续的存储单元依次存储数据元素的线性结构,一般情况下采用数组存储,在数组上完成数据的增删改查。一般见到的顺序表都是在结构体中定义的数组,只是比普通数组多了增删改查等一些其他功能函数。 上节已经介绍了顺序表有…

【android studio】Gradle和Gradle插件版本关系/配置/常见ERR示例

参考链接: Android之Gradle和Gradle插件区别及联系 grdle 的安装与配置 、gradle和jdk版本对应关系 Android Gradle Plugin与Gradle版本、JDK版本对应关系 配置示例 常见err 主要原因 1.编译版本未设定 2.有多个module而且gradle 版本设置不一致 修改如下&#xf…

虚幻闪烁灯光材质

创建一个材质 材质域改成光照函数 , Time让材质动起来 参数B用来控制速度 , Sine 让灯光闪烁 , Frac 增加了闪烁细节 把材质放到灯光材质上 效果还是挺不错的! 可以用于一些恐怖游戏~

OpenCV高级图形用户界面(8)在指定的窗口中显示一幅图像函数imshow()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 在指定的窗口中显示一幅图像。 函数 imshow 在指定的窗口中显示一幅图像。如果窗口是以 cv::WINDOW_AUTOSIZE 标志创建的,图像将以原…

仕考网:国考笔试没进面还有机会吗?

在国家公务员考试及各省公务员考试中,除了常规的招录程序之外,还有调剂、递补和补录多重机会。 调剂:于笔试结束之后至面试启动之前.针对因报名人数不足未达到预定面试比例的岗位,将开放公开调剂。只要考生的笔试成绩超越了国考设…

如何查看默认网关地址:详细步骤

在日常的网络配置与故障排查中,了解并正确查看默认网关地址是一项基础且至关重要的技能。默认网关是连接本地网络与外部网络(如互联网)的关键节点,它扮演着数据包转发的重要角色。无论是家庭网络、办公室网络还是更复杂的网络环境…

一些简单的编程题(Java与C语言)

引言: 这篇文章呢,小编将会举一些简单的编程题用来帮助大家理解一下Java代码,并且与C语言做个对比,不过这篇文章所出现的题目小编不会向随缘解题系列里面那样详细的讲解每一到题,本篇文章的主要目的是帮助小编和读者们…

vcenter的使用

1 配置 1.1 时间配置 报错原因:ESXI主机没有配置DNS无法解析NTP服务器网址。 解决办法:配置ESXI主机DNS,操作如下图。 点击【配置】、【服务】 【编辑启动策略】 我们可以看到当前的【NTP服务状态】处于 已停止的状态 点击【配置】、【时间…

基于直播美颜SDK的实时美颜平台开发指南

随着直播平台的快速发展,用户对视频质量的要求越来越高,尤其是对于美颜效果的需求。为满足这一市场需求,基于直播美颜SDK的实时美颜平台应运而生。本文将探讨如何开发这样一个平台,助力开发者在激烈的竞争中脱颖而出。 一、理解美…

C#学习笔记(三)

C#学习笔记(三) 第 二 章 命名空间和类、数据类型、变量和代码规范二、类的组成和使用分析1. 基本概念2. 类的内容组成3. 方法的初步理解 第 二 章 命名空间和类、数据类型、变量和代码规范 二、类的组成和使用分析 1. 基本概念 类是程序的基本单元&a…