视频扩散模型因其能够生成连贯且高保真的视频而日益受到关注。然而,迭代去噪过程使得这类模型计算密集且耗时,限制了其应用范围。香港中文大学 MMLab、Avolution AI、上海人工智能实验室和商汤科技公司的研究团队提出了AnimateLCM,这是一种允许在最少步骤内生成高保真视频的方法。AnimateLCM采用了一种解耦的一致性学习策略,将图像生成先验和运动生成先验的蒸馏分开处理,从而提高训练效率并增强生成的视觉质量。为了实现稳定扩散社区中即插即用适配器的组合以实现各种功能(例如可控生成),论文提出了一种有效策略,无需特定教师模型即可适配现有适配器或从头开始训练适配器,而不损害采样速度。
方法
如Figure 2 所示,AnimateLCM 由三个主要部分组成,分别为训练范式、无教师适配策略和适配器训练设计。
左侧:整体训练范式
这部分展示了如何训练视频生成模型以遵循一致性属性。AnimateLCM 的目标是让模型在生成视频时保持数据的一致性,即使在仅有少量迭代步骤的情况下也能生成高质量的视频。这一过程涉及到以下几个关键组件:
-
教师扩散模型:作为训练过程中的参考,提供了视频生成的基础。
-
CFG-Augmented ODE Solver:无分类器引导增强的ODE求解器,用于改善生成过程并提高结果的质量。
-
Self-Consistency:自我一致性机制,确保模型生成的数据在整个过程中保持一致。
-
EMA(指数移动平均):用于更新目标一致性模型,以保持模型权重的平滑过渡。
右上角:无教师适配策略
这一部分介绍了如何在没有教师模型的情况下训练适配器。在 AnimateLCM 中,适配器是可插拔的模块,可以为模型提供额外的功能,例如控制视频生成的风格或内容。以下是无教师适配策略的关键点:
-
One-step MCMC Approximation:一步MCMC近似方法,用于在没有教师模型指导的情况下估计得分,从而进行一致性学习。
-
Teacher-Free Adaptation:无需教师模型的适配过程,允许模型自我学习并适应新的生成任务。
右下角:适配器训练设计
这部分描述了从头开始训练图像到视频适配器或调整现有适配器以适应稳定扩散社区的设计。这包括:
-
Multi-Res Encoder:多分辨率编码器,用于处理不同分辨率的输入图像。
-
Image-to-Video Adapters:图像到视频适配器,负责将图像内容转换为视频格式。
-
Community Adapters:社区适配器,如XX-Net或XX-Adapter等,这些是稳定扩散社区中已经存在的适配器,可以被进一步训练或调整以提高与 AnimateLCM 的兼容性。
扩散模型(DMs)通过迭代去噪过程,逐步将高维高斯噪声转化为真实数据。在这类模型中,通常预测的是给定样本上添加的噪声量,即所谓的ϵ-预测型模型。这种模型的优势在于能够生成高质量的图像和视频,但其缺点是生成过程计算量大,速度慢。
为了解决这一问题,作者提出了一致性模型(CMs)。与DMs不同,CMs的目标是直接预测PF-ODE(Probability Flow Ordinary Differential Equation)轨迹的解x0。CMs致力于直接找到从噪声状态到数据状态的最短路径,而不是逐步去噪,从而有望显著提高生成速度。
在实现从DMs到CMs的转换中,作者引入了一种新的参数化方法。这种方法中,函数fθ被重新定义,用以结合文本条件嵌入c。这允许模型在生成过程中考虑文本条件,实现文本引导的图像或视频生成。例如,给定文本描述“穿着礼服的男人的RAW面部特写肖像,专业摄影,刀锋跑者风格”,模型能够根据这些条件生成相应的图像。此外,作者还采用了无分类器引导增强的ODE求解器,这种求解器利用无分类器引导(Classifier-free Guidance,CFG)的概念,通过增强的ODE求解过程来提高生成质量。CFG是一种在扩散模型中广泛使用的技术,它可以帮助模型在生成过程中更好地遵循数据分布,从而提高生成结果的质量和多样性。
为了提高训练效率和生成质量,作者引入了一种解耦的一致性学习策略。这一策略的核心思想是将图像生成的先验知识与运动生成的先验知识分开进行蒸馏处理。
首先,作者选择在经过筛选的高质量图像-文本数据集上对稳定的扩散模型进行蒸馏。这样做的目的是获得一个图像一致性模型,该模型能够捕捉到图像生成的内在规律。这一步骤是基础,因为它为后续的视频生成提供了一个坚实的起点。
接下来,为了适应视频数据的三维特性,作者采用了3D膨胀技术。这涉及到将2D卷积核扩展为伪3D卷积核,从而使得模型能够处理时间维度上的信息。通过添加时间层并采用零初始化和块级残差连接,模型能够在训练初期保持输出的稳定性,这有助于加速训练过程。
在这一过程中,作者还特别设计了一种初始化策略。这种策略的目的是减轻在膨胀过程中可能对特征造成的损坏。具体来说,在一致性训练的初期,只有预训练的空间LoRA权重被插入到在线一致性模型中,而目标一致性模型则不包含这些权重。这样的设计使得目标一致性模型在训练过程中不会对在线模型产生负面影响。随着训练的进行,LoRA权重会通过指数移动平均(EMA)逐渐累积到目标一致性模型中,从而在一定迭代次数后达到预期的权重设置。
作者还引入了一个损失函数,用于衡量模型输出与目标之间的差异。这个损失函数不仅考虑了不同时间步长的重要性,还采用了Huber损失作为距离度量,以提供更平滑的梯度并增强对异常值的鲁棒性。
为了适应稳定扩散社区中的即插即用适配器,或者从头开始训练特定适配器,作者提出了一种无需教师模型的适配策略。在稳定扩散社区中,即插即用适配器起着至关重要的作用,它们可以为模型提供额外的控制能力,比如根据文本提示生成图像。然而,直接将这些适配器应用于视频生成时,可能会遇到细节控制丢失或结果闪烁等问题。为了解决这些问题,作者提出了一种有效的策略,通过调整适配器的LoRA(Low-Rank Adaptation)层来优化它们与视频一致性模型的兼容性。LoRA层是一种轻量级的调整方式,可以在不显著增加计算负担的情况下,改善适配器的性能。
作者还提出了一种基于一步MCMC(马尔可夫链蒙特卡洛)近似的方法来估计得分。这种方法可以在没有教师模型的指导下,对视频生成过程中的得分进行无偏估计。通过使用一步MCMC近似,可以在给定的噪声水平下,对模型的输出进行调整,以更好地反映数据的分布。
在实现图像到视频的生成方面,作者比较了不同的图像预处理方法,包括使用预训练的CLIP图像编码器、在像素空间的轻量下采样块以及在潜在空间的轻量块。研究发现,在潜在空间中首先对图像进行编码,然后重复潜在表示以对齐视频生成的帧数,这种方法能够取得最佳结果。这可能是因为在潜在空间中进行生成可以更好地保持图像的一致性。
为了进一步提升生成结果的质量,作者还提出了在HSV(色调、饱和度、亮度)空间中对生成视频与输入图像进行额外对齐的方法。这有助于确保生成的视频在颜色和亮度上与原始输入图像保持一致,从而提高了视觉质量和真实感。
在可控视频生成方面即使是在图像扩散模型上训练的布局控制适配器,也可以直接集成到视频一致性模型中,以实现可控的视频生成。但是,为了减少细节控制的丢失和结果闪烁,作者通过调整现有适配器的LoRA层,显著提高了控制的稳定性和视觉质量。
实验
作者使用了稳定扩散版本1-5作为大多数实验的基础模型,并采用了DDIM ODE求解器进行训练。遵循潜在一致性模型的做法,作者从1000个时间步中均匀采样了50个用于训练。除了可控视频生成的实验外,所有实验都是在公开可用的WebVid2M数据集上进行的,没有使用任何数据增强或额外数据。对于可控视频生成,作者在TikTok数据集上训练模型,并使用BLIP标注的简短文本提示。
定性结果展示了AnimateLCM在文本到视频生成、图像到视频生成以及可控视频生成中的四步生成结果。这些结果包括了现实主义、2D动漫和3D动漫等不同个性化风格模型。所有结果都令人满意,在不同推理步骤下,AnimateLCM方法能够很好地遵循一致性属性,保持相似的风格和运动。即使仅使用两步推理,也能展示出良好的视觉质量和平滑的运动。随着功能评估(NFE)次数的增加,生成质量相应提高,与教师模型在25步和50步推理步骤下的性能具有竞争力。
定量实验部分通过表格形式展示了AnimateLCM与其他强基线方法DDIM和DPM++的定量指标比较。AnimateLCM在低步数区间(1到4步)中显著超越了基线方法。AnimateLCM的所有这些指标都是在没有使用分类器自由引导(CFG)的情况下评估的,而其他基线方法则应用了7.5 CFG强度,因此在推理峰值内存成本和推理时间上节省了一半。通过将空间权重替换为公开可用的个性化现实风格模型,AnimateLCM进一步增强了性能,展示了其与个性化扩散模型的良好兼容性。
作者还验证了所提出的解耦学习策略和特定初始化设计的有效性,并通过实验结果展示了这些策略在提高收敛速度方面的优势。图5中,通过比较不同训练策略下的FVD(Fréchet Video Distance)和CLIPSIM分数,可以看出,采用了解耦一致性学习并结合特别初始化方法的AnimateLCM,在训练过程中收敛得更快,并且在较少的推理步骤下就能实现更低的FVD分数和更高的CLIPSIM分数,这表明其生成的视频在视觉质量和与文本描述的匹配度上都有显著提升。与没有使用解耦策略或没有采用特定初始化方法的基线相比,AnimateLCM展现出了更优的性能,从而验证了其方法在加速视频生成同时保持高生成质量方面的有效性。
图6揭示了直接使用现有适配器(如T2I-Adapter)与经过教师自由适应策略调整后的适配器在控制稳定性和视觉质量方面的对比。实验结果表明,经过教师自由适应过程的适配器能够显著减少细节控制的丢失和结果闪烁问题,从而在保持较低推理步骤的同时,生成更高质量且控制更为精确的视频内容。这一结果验证了AnimateLCM框架在无需额外教师模型指导下,通过简单有效的策略,能够提升适配器性能,实现更优的可控视频生成效果。
AnimateLCM通过解耦一致性学习策略和无教师适配策略,在训练效率和生成质量之间取得了良好的平衡。尽管在单步生成样本时可能会产生模糊或有缺陷的结果,但实验结果验证了该方法的有效性。
论文链接:https://arxiv.org/abs/2402.00769