MagicAnimate：Temporally consistent human image animation using diffusion model

1.Introduction

本文研究了任务形象动画人物，旨在根据特定的运动序列生成一个具有特定参考身份的视频。现有的人物图像动画的数据驱动方法可以基于所使用的生成主干模型分为两类，1.基于GAN，通常使用变形函数将参考图变形为目标姿态，并利用GAN模型来外推缺失或mask的身体部分；2.基于diffusion model，利用外观和姿势条件基于预训练的扩散模型来生成目标图像。但通常存在几个限制：1.基于GAN的方法具有受限的运动传递能力，导致mask区域的细节不真实，在跨身份场景中的泛化能力有限；2.基于扩散的方法以逐帧的方式处理长视频，然后沿temporal维度stack，忽略了temporal consistency，导致闪烁的结果，通常依赖于CLIP来编码参考外观，CLIP在保留细节方面的效果较差。

MagicAnimate提供了long-range temporal consistency，robust appearance encoding，和高质量的逐帧动画，开发了视频扩散模型，通过将temporal attention block融入扩散模型来编码temporal信息。其次，引入了一种创新的外观编码器，以保留从参考图图像中获取的人物身份和背景信息。

2.Method

给定一个参考图像Iref和一个运动序列P=[p1，...，pN]，其中N是帧数，目标是在遵循给定的运动系列的同时合成一个连续的视频I=[I1，...，IN]，其外观和Iref相似。

Temporal consistency modeling处理闪烁问题；Appearance encoder捕捉精细的细节。

MagicAnimate，使用Appearance encoder将参考图嵌入为Appearance embedding ya，然后将目标姿势序列，如DensePose，传入姿势控制网络Fp，提取运动条件yp，在这两个信号的基础上，训练视频扩散模型，将参考任务的身份根据给定的运动进行动画化，为了减轻一些片段之间的细微不连续性，采用一种简单的视频融合方法来提高过渡的平滑性，将整个视频分解为重叠的片段，并简单的对重叠帧的预测进行平均，引入了一种图像视频联合训练策略。

2.1 Temporal consistency modeling

为了确保视频帧之间的时间一致性，将扩散模型扩展到视频领域，通过插入temporal attention layer将原始的2d unet变成3d unet。1.随机初始化潜在噪声Zt(1-K)，其中K是视频帧的长度，2.将K个连续的姿势stack成一个Densepose序列P(1-K)用于运动指导，通过将输入特征从NxCxKxHxW重新调整为NKxCxHxW，将Zt(1-K)输入到视频扩散网络中，在temporal模块中，将特征重新调整为NKWxKxC，以沿着temporal维度计算跨帧信息，添加正弦位置编码使模型了解每帧在视频中的位置，使用standard attention操作temporal attention，MagicAnimate聚合了相邻帧的temporal信息，并合成具有improved temporal consistency的K帧。

2.2 Appearance encoder

人物图像动画的目标是在参考图像Iref的指导下生成结果。Appearance encoder的核心目标是使用详细的身份和背景相关特征来表示Iref，这些特征可以注入到视频扩散模型中，以在运动信息引导下进行重定位，和MasaCtrl以及Reference-only controlnet模式一致，提出一种新的appearance encoder，具有improved identity and background preservation，以增强单帧的保真度和时间连贯性。创建了unet的另一个可训练副本，并且每个去噪步骤t计算参考图像Iref的条件特征，

ya是middle and upsampling blocks的normalized attention hidden states，与controlnet以residual manner add conditions的方式不同，MagicAnimate将这些特征传递给了spatial self-attention layers，通过讲过ya的每个特征和原始unet中self-attention hidden states特征concat起来，以注入appearance信息。

2.3 Animation pipeline

2.3.1 Motion transfer

对于动画化参考人体图像，通常使用controlnet for openpose关键点，但主要的身体关键点是稀疏的，对某些动作不够稳健，例如旋转，因此采用了densepose

2.3.2 Denoising process

基于appearance ya和运动条件yp(1-K)，magicanimate根据densepose序列动画化参考图像。

2.3.3 Long video animation

通过时间一致性建模和外观编码器，可以通过分段处理生成任意长度的时间上一致的人体图像动画结果，然而，由于temporal attention无法对不同段落之间的长程一致性（long-range consistency）建模，因此可能出现不自然的过渡和段落之间不一致的细节。

为了解决这个问题，在推断时，采用滑动窗口方法来提高过渡的平滑性，将长的运动序列分成多个具有temporal overlap的段落，其中每个段落的长度为K，先对整个视频采样噪声Z(1-N)，将其分割成具有重叠的噪声段落{Z(1-K)，z(K-s+1:2K-s)，...，}，最后一帧不满K就填充成K，对于每个去噪时间步t，预测噪声并得到每个段落的噪声预测，然后对重叠帧进行平均合并得到动画。

2.4 Training

2.4.1 Learning objectives

采用了多阶段的训练策略，第一阶段，临时省略temporal attention layer，将appearance encoder和姿势控制网络一起训练（Fa，Fp），第二阶段，仅优化Ft中的temporal attention layer。

2.4.2 Image-video joint training

第一阶段，训练Fa和Fp时，设置了一个采样阈值t0，随机抽取数值，小于t0就用采样的凸显个训练。第二阶段，选择两个阈值t1和t2，<t1，从图像数据中采样训练数据，否则从视频数据中采样数据。