HALLO2: LONG-DURATION AND HIGH-RESOLUTION AUDIO-DRIVEN PORTRAIT IMAGE ANIMATION
论文:https://arxiv.org/abs/2410.07718
代码:https://github.com/fudan-generative-vision/hallo2
模型:https://huggingface.co/fudan-generative-ai/hallo2
前言:24年6月,该团队推出了Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation用于纵向图像动画的分层音频驱动视觉合成,得到了广泛关注,同时京东健康在Hallo基础上用中文数据训练的新的模型JoyHallo,10月16日,Hallo2横空出世,本文主要是介绍Hallo2论文相关内容
Hallo2演示demo
摘要
最近,基于潜在扩散的人像动画生成模型,如Hallo,在短时间视频合成中取得了令人印象深刻的结果。在本文中,作者介绍了Hallo的更新,介绍了几个设计增强以扩展其功能。首先,将该方法扩展到制作长时间的视频。为了解决诸如外观漂移和时间伪影等实质性挑战,研究了条件运动帧图像空间内的增强策略。具体来说,引入了一种增强高斯噪声的贴片掉落技术,以增强长时间的视觉一致性和时间相干性。第二,实现4K分辨率人像视频生成。为了实现这一点,实现了潜在代码的矢量量化,并应用时间对齐技术来保持跨时间维度的一致性。通过集成高质量的解码器,实现了4K分辨率的视觉合成。第三,将纵向表达式的可调语义文本标签作为条件输入。这超越了传统的音频线索,提高了可控性,增加了生成内容的多样性。本文提出的Hallo2是第一个实现4K分辨率并生成长达一小时的音频驱动肖像图像动画的方法,并通过文本提示进行增强。已经进行了大量的实验来评估在公开可用数据集上的方法,包括HDTF、CelebV和引入的“Wild”数据集。实验结果表明,作者的方法在长时间人像视频动画中实现了最先进的性能,成功地生成了长达数十分钟的4K分辨率的丰富可控内容。
技术介绍
肖像图像动画-是一个快速发展的领域,具有跨多个领域的巨大潜力。这些领域包括高质量的电影和动画制作,虚拟助理的开发,个性化的客户服务解决方案,互动教育内容的创作,以及游戏行业中的逼真角色动画。因此,生成长时间、高分辨率、音频驱动的人像动画的能力,特别是那些由文本提示辅助的动画,对这些应用程序至关重要。最近的技术进步,特别是在潜在扩散模型方面,极大地推动了这一领域的发展。
近年来出现了几种利用潜在扩散模型进行人像动画的方法。例如,VASA-1 采用Peebles和DiT模型作为扩散过程中的去噪器,将单个静态图像和音频片段转换为逼真的会话面部动画。同样,EMO框架代表了第一个端到端系统,该系统使用基于unet的扩散模型,仅使用单个参考图像和音频输入,能够生成具有高表现力和真实感的动画,无缝帧转换和身份保存。该领域的其他重大进展包括AniPortrait,EchoMimic,V-Express, Loopy和CyberHost,每个人都有助于增强肖像图像动画的功能和应用。Hallo是另一个值得注意的贡献,他们在先前的研究基础上引入了分层音频驱动的视觉合成,以实现面部表情生成、头部姿势控制和个性化动画定制。在本文中,通过引入几个设计增强来扩展其功能,对Hallo进行了更新。
图1:该方法处理一个参考图像和一个持续几分钟的音频输入。此外,可以在不同的间隔引入可选的文本提示,以调节和细化肖像的表达。由此产生的输出是一个高分辨率的4K视频,与音频同步,并受可选的表达式提示的影响,确保在整个延长的视频持续时间内的连续性
首先,将hello从生成简短的、第二长的肖像动画扩展到支持长达数十分钟的持续时间。如图2所示,长期视频生成通常采用两种主要方法。第一种方法包括在控制信号的引导下并行生成音频驱动的视频剪辑,然后在这些剪辑的相邻帧之间应用外观和运动约束。这种方法的一个重要限制是必须在生成的剪辑中保持最小的外观和运动差异,这阻碍了嘴唇运动,面部表情和姿势的实质性变化,由于强制连续性约束,经常导致模糊和扭曲的表情和姿势。第二种方法通过利用之前的帧作为条件信息,增量地生成新的视频内容。虽然这种方法允许连续运动,但容易产生错误积累。相对于参考图像的扭曲、变形、噪声伪影或前一帧中的运动不一致会传播到后续帧,从而降低整体视频质量。
为了达到高表现力,现实主义和丰富的运动动态,遵循第二种方法。方法主要是从参考图像中提取外观,仅利用之前生成的帧来传达运动动态-包括嘴唇运动,面部表情和姿势。为了防止前一帧对外观信息的污染,实现了一种patch-drop数据增强技术,该技术在保留运动特征的同时,对条件帧中的外观信息引入了可控的损坏。这种方法鼓励外观主要来自参考肖像图像,在整个动画中保持强大的身份一致性,并使长视频具有连续的运动。此外,为了增强对外观污染的恢复能力,将高斯噪声作为附加的数据增强技术应用于条件帧,进一步增强对参考图像的保真度,同时有效地利用运动信息。
图2:基于并行和增量扩散的长期人像动画生成模型的比较。(a)由于帧间连续性约束,并行生成方法可能导致模糊和表达式失真。(b)增量生成法在人脸特征和背景上都容易产生误差积累
其次,为了实现4K视频分辨率,将用于码序列预测任务的矢量量化生成对抗网络(VQGAN)离散码本空间方法扩展到时间维度。通过将时序对齐整合到码序列预测网络中,实现了生成视频的预测码序列的平滑过渡。在应用高质量解码器后,外观和运动的强一致性使方法能够增强高分辨率细节的时间相干性。
第三,为了增强长时间人像视频生成的语义控制,引入了可调节的人像表情语义文本提示作为条件输入和音频信号。通过在不同的时间间隔注入文本提示,方法可以帮助调整面部表情和头部姿势,从而使动画更加逼真和富有表现力。
为了评估提出的方法的有效性,在公开可用的数据集上进行了全面的实验,包括HDTF、CelebV和引入的“Wild”数据集。方法是第一个在肖像图像动画中实现4K分辨率,持续时间长达十分钟甚至几个小时。此外,通过结合可调节的文本提示,可以在生成过程中精确控制面部特征,方法确保了生成动画的高水平真实感和多样性。
最新的相关工作
视频扩散模型:基于扩散的模型在从文本和图像输入生成高质量和逼真的视频方面表现出了非凡的能力。稳定视频扩散强调潜在视频扩散方法,利用预训练,微调和策划数据集来提高视频质量。Make-A-Video利用文本到图像的合成技术来优化文本到视频的生成,而不需要配对数据。MagicVideo引入了一个具有新颖3D U-Net设计的高效框架,降低了计算成本。通过即插即用运动模块实现个性化文本到图像模型的动画。进一步的贡献,如VideoComposer和VideoCrafter,强调视频生成的可控性和质量。VideoComposer集成了动态指导的运动矢量,而videocafter提供了开源模型。CogVideoX通过专家转换器增强文本-视频对齐,MagicTime通过变形延时模型解决物理知识的编码问题。在这些进步的基础上,方法采用了专门为肖像图像动画量身定制的高级预训练扩散模型,专注于长时间和高分辨率合成。
肖像图像动画:在音频驱动的说话头生成和人像动画方面取得了重大进展,强调了与音频输入的真实感和同步性。LipSyncExpert使用鉴别器和新的评估基准提高了对口型的准确性。随后的SadTalker和VividTalk等方法结合了3D运动建模和头部姿势生成,以增强表现力和时间同步。扩散技术进一步推动了该领域的发展。DiffTalk和DreamTalk提高了视频质量,同时保持了不同身份之间的同步。VASA-1和AniTalker整合了细致入微的面部表情和通用的运动表现,产生了栩栩如生的同步动画。AniPortrait、EchoMimic、VExpress、Loopy、CyberHost和EMO都对增强的功能做出了贡献,重点是表现力、真实感和身份保护。尽管取得了这些进步,但生成具有一致视觉质量和时间一致性的长时间高分辨率人像视频仍然是一个挑战。方法建立在hello上,通过在长期肖像图像动画中实现逼真的高分辨率运动动态来解决这一差距
长视频和高分辨率视频生成:视频扩散模型的最新进展显著增强了长时间高分辨率视频的生成。像Flexible Diffusion Modeling和Gen-L-Video这样的框架提高了时间一致性,并使文本驱动的视频生成无需额外的培训。SEINE和StoryDiffusion等方法引入了生成过渡和语义运动预测器,用于平滑的场景变化和视觉叙事。StreamingT2V和MovieDreamer等方法使用自回归策略和扩散渲染来处理具有无缝过渡的扩展叙事视频。VideoInfinity通过分布式推理优化长视频合成,而FreeLong集成了全局和本地视频功能,而无需训练一致性。在本文中,采用斑块下降和高斯噪声增强来实现长时间的肖像图像动画。
离散先验表示与学习字典已被证明是有效的图像恢复。VQ-VAE通过矢量量化引入离散潜在空间来增强vae,解决后验崩溃问题,并实现高质量的图像,视频和语音生成。在此基础上,VQ-GAN结合cnn和transformer来创建一个上下文丰富的图像组件词汇表,在条件图像生成中实现了最先进的结果。CodeFormer使用学习的离散码本进行盲脸恢复,采用基于transformer的网络增强抗退化的鲁棒性。本文提出了用时间对齐技术对潜在码进行矢量量化,以保持4K合成的时间高分辨率相干性。
方法
肖像图像动画的扩展技术有效地解决了生成具有复杂运动动力学的长时间高分辨率视频的挑战,以及启用音频驱动和文本提示控制。提出的方法主要从单个参考图像中提取受试者的外观,同时利用先前生成的帧作为条件输入来捕获运动信息。为了保留参考图像的外观细节并防止前一帧的污染,引入了一种结合高斯噪声注入的斑块滴数据增强技术。此外,将VQGAN离散码本预测扩展到时域,促进高分辨率视频生成并增强时间相干性。此外,将文本条件与音频信号结合起来,在长期视频生成过程中实现对面部表情和动作的多种控制。
图4:提出的高分辨率增强模块的示意图,演示了提取输入潜在特征的两种备选设计
具体的推理公式请参考论文原文,论文中写的很详细
实验对比
表1 在HDTF数据集上与现有人像动画方法的定量比较。
图6:与现有方法在HDTF数据集上的定性比较
表2:在CelebV数据集上与现有人像动画方法的定量比较
表3:在建议的“Wild”数据集上与现有方法的定量比较
图9:不同肖像风格下的肖像图像动画效果
表6:CelebV数据集上patch drop和高斯噪声增强的消蚀研究
定性比较了高分辨率增强前后的人像动画效果
参考图像和动作帧的注意力地图可视化