【AI论文】JavisDiT: 具备层次化时空先验同步机制的联合音视频扩散Transformer

摘要：本文介绍了一种新型的联合音频-视频扩散变换器JavisDiT，该变换器专为同步音频-视频生成（JAVG）而设计。基于强大的扩散变换器（DiT）架构，JavisDiT能够根据开放式用户提示同时生成高质量的音频和视频内容。为了确保最佳同步，我们通过分层时空同步先验（HiST-Sypo）估计器引入了一种细粒度的时空对齐机制。该模块提取全局和细粒度的时空先验，指导视觉和听觉组件之间的同步。此外，我们提出了一个新的基准测试JavisBench，由10140个高质量的文本字幕发声视频组成，这些视频涵盖了不同的场景和复杂的现实场景。此外，我们专门设计了一个鲁棒的指标来评估在现实世界复杂内容中生成的音频-视频对之间的同步。实验结果表明，JavisDiT在确保高质量生成和精确同步方面明显优于现有方法，为JAVG任务设定了新的标准。我们的代码、模型和数据集将在https://javisdit.github.io/上公开发布。Huggingface链接：Paper page，论文链接：2503.23377

研究背景和目的

研究背景

随着人工智能生成内容（AIGC）领域的快速发展，生成多模态内容，如图像、视频和音频，已经吸引了广泛的研究关注。特别是，同步音频和视频生成（JAVG）作为多模态内容生成的一个重要分支，具有广泛的应用前景，如电影制作和短视频创作。然而，现有的JAVG方法仍面临诸多挑战。一方面，如何确保高质量的单模态音频和视频生成是一个核心问题；另一方面，如何实现音频和视频之间的精确同步是另一个重要挑战。

传统的JAVG方法主要分为两类：异步流水线方法和端到端的联合音视频生成（JAVG）方法。异步流水线方法通常先生成音频，然后基于音频合成视频，或者反之。这种方法虽然简单，但容易积累级联噪声。而端到端的JAVG方法则通过避免级联噪声积累吸引了更多研究关注，但仍存在一些问题。例如，大多数方法缺乏对同步的精细建模，无法实现音频和视频之间的精确时空对齐。

此外，现有的JAVG基准测试集也存在一些局限性，如音频视频内容过于简单、场景多样性不足等。这些局限性使得在复杂现实场景下的模型评估变得困难，限制了JAVG技术的进一步发展。

研究目的

针对上述挑战，本文提出了JavisDiT，一种新型的基于扩散变换器（DiT）的JAVG系统。JavisDiT旨在解决两个关键问题：一是如何生成高质量的音频和视频内容；二是如何实现音频和视频之间的精确同步。为了实现这一目标，本文设计了分层时空同步先验（HiST-Sypo）估计器，以提取全局和细粒度的时空先验，指导音频和视频之间的同步。同时，本文还构建了一个新的基准测试集JavisBench，包含10,140个高质量的文本字幕发声视频，涵盖了多样化的场景和复杂的现实场景。此外，本文还提出了一种鲁棒的指标来评估生成的音频视频对在现实复杂内容中的同步性。

研究方法

JavisDiT系统架构

JavisDiT系统基于强大的DiT架构，由视频生成分支、音频生成分支和多模态双向交叉注意力模块组成。在每个分支中，采用了时空自注意力机制进行模态内信息聚合，通过粗粒度交叉注意力机制融入文本语义，通过细粒度时空交叉注意力机制融入时空先验，并通过双向交叉注意力机制增强视频和音频之间的信息聚合。

分层时空同步先验估计器

为了实现音频和视频之间的精确同步，本文设计了HiST-Sypo估计器。该估计器通过文本编码器提取输入文本的全局和细粒度时空先验，然后利用这些先验指导视频和音频之间的同步。具体来说，HiST-Sypo估计器首先利用ImageBind的文本编码器提取文本隐藏状态，然后利用一个4层的Transformer编码器-解码器结构提取时空先验。为了增强估计器的鲁棒性，本文还采用了一种对比学习方法来优化HiST-Sypo估计器。

训练策略

为了同时实现高质量的单模态生成和精确的时空同步，本文采用了一种三阶段训练策略。第一阶段是音频预训练，利用OpenSora的视频分支权重初始化音频分支，并在大规模音频数据集上进行训练。第二阶段是时空先验训练，利用同步的文本-视频-音频三元组和合成的异步负样本训练HiST-Sypo估计器。第三阶段是联合生成训练，冻结视频和音频分支的自注意力模块和HiST-Sypo估计器，只训练时空交叉注意力模块和双向交叉注意力模块，以实现同步的视频和音频生成。

新的基准测试集和评估指标

为了全面评估JAVG模型的性能，本文构建了一个新的基准测试集JavisBench，包含10,140个高质量的文本字幕发声视频，涵盖了多样化的场景和复杂的现实场景。同时，本文还提出了一种新的评估指标JavisScore，用于评估生成的音频视频对在现实复杂内容中的同步性。JavisScore通过计算视频和音频之间的语义对齐程度来评估同步性，比传统的AV-Align指标更加鲁棒和准确。

研究结果

实验结果表明，JavisDiT在单模态生成质量和音视频同步性方面均显著优于现有方法。在JavisBench基准测试集上，JavisDiT在多个评估指标上均取得了最优性能，包括FVD、FAD、TV-IB、TA-IB、CLIP相似度和JavisScore等。此外，JavisDiT还能够在复杂场景下实现精确的音视频同步，这是现有方法所难以做到的。

通过消融实验，本文还验证了JavisDiT中各个模块的有效性。结果表明，时空自注意力机制、细粒度时空交叉注意力机制和双向交叉注意力机制均对JavisDiT的性能有重要贡献。特别是细粒度时空交叉注意力机制，通过引入HiST-Sypo先验显著提高了音视频同步性。