Unet已死，Transformer当立！详细解读基于DiT的开源视频生成大模型EasyAnimate

Diffusion Models视频生成-博客汇总

前言：最近阿里云PIA团队开源了基于Diffusion Transformer结构的视频生成模型EasyAnimate，并且提出了专门针对视频的slice VAE，对于目前基于Unet结构的视频生成最好如SVD形成了降维打击，不论是生成质量、生成时长上都是遥遥领先。这篇博客详细解读一下EasyAnimate的技术报告《EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture》

贡献概述

模型结构

Video VAE

Video DiT结构

三阶段训练

DiT训练

数据集清洗策略

视频分割

视频过滤

视频字幕

效果试用

个人感悟

贡献概述

EasyAnimate是一种用于视频生成的高级方法，它利用 Transformer 架构的力量来实现高性能结果。作者通过扩展了最初设计用于 2D 图像合成的 DiT 框架，通过结合运动模块块来适应 3D 视频生成的复杂性。它用于捕获时间动态，从而确保产生一致的帧和无缝的运动转换。运动模块可以适应各种 DiT 基线方法来生成具有不同风格的视频。它还可以在训练和推理阶段生成具有不同帧速率和分辨率的视频，适用于图像和视频。

模型结构

Video VAE

传统的基于图像的 VAE 的一个显着限制是它不能跨时间维度压缩。因此，细微的帧间时间关系仍未捕获，结果潜在特征很大，导致CUDA内存需求激增。这些挑战极大地阻碍了这种方法在创建长视频方面的实用性。一个主要的挑战在于有效地压缩视频编码器和解码器中的时间维度。

作者使用了MagViT，在MagViT的基础上引入切片机制，提出了Slice VAE。

MagViT采用因果 3D 卷积块。该块在使用 vanilla 3D 卷积之前以先前时间的方式沿时间轴引入填充，从而确保帧利用先验信息来增强时间因果关系，同时保持不受后续帧的影响。尽管 MagViT 对视频编码和解码的复杂方法，但它在训练极其冗长的视频序列时面临挑战，这主要是由于内存限制。具体来说，所需的内存甚至经常超过 A100 GPU 可用的内存，使得大型视频的一步解码（例如 1024x1024x40）是不可行的。所以不能尝试一步解码整个序列，需要切片后批量处理。

为了批处理视频序列，作者首先沿空间维度尝试了切片机制。然而，这导致了不同批次之间的轻微照明不一致。随后，我们转移到沿时间维度切片。通过这种方法，将一组视频帧分成几个部分，每个部分分别编码和解码，如图2(a)所示。尽管如此，不同批次的信息分布是不相等的。例如，由于MagViT中的前向填充过程，第一个批次包含一个真实特征和额外的填充特征，包含的信息较少。这种不均匀的信息分布是一个可能阻碍模型优化的独特方面。此外，这种批处理策略还会影响处理过程中视频的压缩率。或者，我们实现了不同批次的特征共享，如图 2(b) 所示。在解码过程中，特征与其前后特征（如果有）连接，从而产生更一致的特征并实现更高的压缩率。这涉及通过 SpatialTemporalDownBlock（编码器中标记为浅橙色）压缩特征，针对空间和时间维度。这样，编码的特征封装了时间信息，这反过来又保留了计算资源，同时提高了生成结果的质量。

Video DiT结构

主要有两点改进：在PixArt-α的基础上加了运动模块，并用了UViT连接增强稳定性。

运动模块设计：运动模块来利用嵌入在帧长度内的时间信息，通过将注意力机制整合到时间维度上，该模型获得了同化这种时间数据的能力，这对于生成视频运动至关重要。采用网格重塑操作来增强注意力机制的输入标记池，从而增强图像中存在的空间细节的利用率，最终导致生成性能优越。经过训练的运动模块可以适应各种DiT基线模型，以生成不同风格的视频。

UViT：在训练过程中，作者观察到深度 DITs 往往不稳定，正如模型的损失表现出从 0.05 增加到 0.2 所证明的那样，最终增加到 1.0。为了追求通过 DIT 层反向传播期间增强模型优化过程和反转梯度崩溃，我们使用相应变换器块之间的长跳跃连接，这对于基于 UNet 框架的稳定扩散模型是有效的。为了在现有的扩散变压器体系结构中无缝地集成这种修改，而不需要进行全面的再训练，我们用零填充权值初始化几个完全连接的层(图3(c)中的灰色块)。