数字人解决方案——AniPortrait音频驱动的真实肖像动画合成

概述

在当今数字化时代,将静态图像和音频素材转化为动态、富有表现力的肖像动画,已经成为游戏、数字媒体、虚拟现实等多个领域的重要技术。然而,开发人员在创建既具有视觉吸引力又能保持时间一致性的高质量动画框架方面面临着巨大挑战。其中,嘴唇运动、头部位置和面部表情的复杂协调是造成这一复杂性的主要原因,这些元素需要精确同步以产生引人入胜的视觉效果。

本文将深入探讨AniPortrait,这是一个创新的框架,专注于生成由参考肖像图像和音频样本驱动的高质量动画。AniPortrait的工作流程分为两个主要阶段:

  1. 3D表示与2D面部标志的映射:首先,AniPortrait从音频样本中提取关键的3D中间表示,这些表示随后被映射到一系列2D面部标志上。这一步骤是将音频信号转换为视觉动画的关键环节。

  2. 扩散模型与运动模块的融合:接着,AniPortrait利用一个鲁棒的扩散模型,结合精心设计的头部运动模块,将面部标志的序列转换成既时间一致又逼真的动画。

实验结果表明,AniPortrait框架在生成具有卓越视觉质量、姿势多样性和面部自然度的高质量动画方面具有显著优势,极大地增强了用户的感知体验。此外,AniPortrait在可控性和灵活性方面也展现了巨大潜力,使其能够有效应用于面部重现、面部动作编辑等多个领域。

本文的目的是全面介绍AniPortrait框架,包括其内在机制、所采用的方法、整体架构,以及与当前最先进框架的比较分析。通过深入探讨,我们将揭示AniPortrait如何突破现有技术的局限,为数字肖像动画领域带来革命性的变革。

随着我们逐步深入AniPortrait的世界,您将了解到这一技术是如何将静态图像和音频转化为栩栩如生的动态肖像,以及它如何在多个应用场景中发挥其独特的价值。让我们一起探索AniPortrait如何通过先进的算法和创新的技术手段,为数字媒体创作者提供前所未有的创作自由度和表现力。

源码地址:https://github.com/Zejun-Yang/AniPortrait
整合包与技术交流群:787501969

演示视频:

数字人解决方案——AniPortrait音频驱动的真实肖像动

AniPortrait

创建逼真且富有表现力的肖像动画一直是数字艺术和技术研究的前沿领域,它在数字媒体、虚拟现实和游戏等多个行业展现出巨大的应用潜力。尽管如此,生成既具有视觉吸引力又保持时间一致性的高质量动画仍然是一个技术挑战。这主要是因为需要精确协调头部位置、视觉表达和嘴唇动作等多个复杂因素,以创造出引人入胜的视觉效果。传统的生成器,如NeRF、基于运动的解码器和生成对抗网络(GAN),在这方面存在泛化能力有限和生成稳定性不足的问题。然而,随着扩散模型的兴起,它们在生成高质量图像方面展现出了巨大潜力,为解决这一挑战提供了新的思路。
AniPortrait框架正是基于扩散模型的最新进展,旨在通过参考图像和音频样本来生成高质量的动画肖像。该框架的工作流程分为两个阶段:

  1. 音频到3D面部网格的转换

    • 在第一阶段,AniPortrait利用基于Transformer的模型从音频输入中提取3D面部网格和头部姿势,并将这些信息映射到2D面部标志序列上。
    • 这一步骤不仅捕捉了音频中的嘴唇运动和微妙表情,还实现了与音频节奏同步的头部运动,为后续动画制作奠定了基础。
  2. 面部标志序列到动画的转换

    • 第二阶段,AniPortrait结合强大的扩散模型和运动模块,将面部标志序列转换成逼真且时间一致的动画肖像。
    • 该框架借鉴了现有的AnimateAnyone模型的网络架构,采用了Stable Diffusion 1.5,这是一种高效的扩散模型,能够根据参考图像和身体运动序列生成逼真且流畅的图像。

AniPortrait框架在设计上进行了创新,特别是在处理嘴唇动作生成方面,通过重新设计网络中的姿态引导模块,不仅保持了轻量级的设计,还提高了生成唇形动作的精度。

实验结果
实验结果显示,AniPortrait框架在生成具有高度面部自然度、出色视觉质量和多样化姿势的动画方面具有显著优势。通过采用3D面部表征作为中间特征,AniPortrait框架展现出了高度的灵活性,可以根据具体需求调整这些表征,显著增强了其在面部重演和面部动作编辑等领域的应用潜力。

AniPortrait框架的提出,不仅推动了肖像动画生成技术的发展,也为未来在更广泛的应用场景中实现个性化和高质量的动画制作提供了可能。随着技术的不断进步和优化,我们有理由相信,AniPortrait框架将在数字艺术创作和虚拟角色交互等领域发挥越来越重要的作用。

算法框架

所提出的 AniPortrait 框架包括两个模块,即 Lmk2Video 和 Audio2Lmk。 Audio2Lmk 模块尝试提取一系列地标序列,从音频输入中捕获复杂的嘴唇运动和面部表情,而 Lmk2Video 模块则使用此地标序列生成具有时间稳定性的高质量肖像视频。下图概述了 AniPortrait 框架的工作情况。可以看出,AniPortrait 框架首先从音频中提取 3D 面部网格和头部姿势,然后将这两个元素投影为 2D 关键点。在第二阶段,该框架采用扩散模型将二维关键点转换为肖像视频,两个阶段在网络中同时进行训练。

音频2Lmk

对于给定的语音片段序列,AniPortrait 框架的主要目标是通过平移和旋转的矢量表示来预测相应的 3D 面部网格序列。 AniPortrait框架采用预训练的wav2vec方法来提取音频特征,该模型具有高度的泛化性,能够准确地识别音频中的语调和发音,这对于生成音频数据起着至关重要的作用。通过利用获得的强大语音特征,AniPortrait 框架能够有效地采用由两个 fc 层组成的简单架构,将这些特征转换为 3D 面部网格。 AniPortrait 框架观察到,模型实现的这种简单设计不仅提高了推理过程的效率,而且保证了准确性。将音频转换为姿势时,AniPortrait 框架采用相同的 wav2vec 网络作为主干,尽管该模型不与音频到网格模块共享权重。这主要是因为姿势更多地与音频中存在的音调和节奏相关,与音频和网格任务相比,其侧重点不同。为了考虑先前状态的影响,AniPortrait 框架采用 Transformer 解码器来解码姿势序列。在此过程中,框架使用交叉注意机制将音频特征集成到解码器中,并且对于这两个模块,框架使用 L1 损失对其进行训练。一旦模型获得姿势和网格序列,它就会采用透视投影将这些序列转换为面部标志的二维序列,然后将其用作后续阶段的输入信号。

Lmk2视频

对于给定的参考肖像图像和面部标志序列,所提出的 Lmk2Video 模块创建时间一致的肖像动画,并且该动画将运动与标志序列对齐,并保持与参考图像一致的外观,最后,该框架将肖像动画表示为一系列肖像帧。 Lmk2Video网络结构的设计从现有的AnimateAnyone框架中寻求灵感。 AniPortrait 框架采用了 稳定扩散1.5,一个极其有效的扩散模型作为其支柱,并结合了一个时间运动模块,可以有效地将多帧噪声输入转换为视频帧序列。同时,ReferencenNet网络组件镜像了Stable Diffusion 1.5的结构,并利用它从参考图像中提取外观信息,并将其集成到主干中。战略设计可确保面部 ID 在整个输出视频中保持一致。与 AnimateAnyone 框架不同,AniPortrait 框架增强了 PoseGuider 设计的复杂性。 AnimateAnyone 框架的原始版本仅包含几个卷积层,其中地标特征与主干输入层的潜在特征合并。 AniPortrait 框架发现该设计在捕捉复杂的嘴唇运动方面存在不足,为了解决这个问题,该框架采用了 ConvNet 架构的多尺度策略,并将相应尺度的标志性特征合并到主干的不同块中。此外,AniPortrait 框架通过将参考图像的地标作为附加输入引入了额外的改进。 PoseGuider组件的交叉注意力模块促进了每一帧的目标地标和参考地标之间的交互。这个过程为网络提供了额外的线索来理解外观和面部特征之间的相关性,从而有助于生成具有更精确运动的肖像动画。

实施结果

对于 Audio2Lmk 阶段,AniPortrait 框架采用 wav2vec2.0 组件作为骨干,并利用 MediaPipe 架构提取 3D 网格和 6D 姿势进行注释。该模型从其内部数据集获取 Audio2Mesh 组件的训练数据,该数据集包含来自单个说话者的近 60 分钟的高质量语音数据。为了确保 MediaPipe 组件提取的 3D 网格稳定,要求配音演员面向摄像机,并在整个录制过程中保持稳定的头部位置。对于 Lmk2Video 模块,AniPortrait 框架实现了两阶段训练方法。在第一阶段,该框架专注于训练ReferenceNet和PoseGuider(主干的2D组件),并省略了运动模块。第二步,AniPortrait框架冻结所有其他组件,并专注于训练运动模块。在这个阶段,该框架利用两个大规模高质量面部视频数据集来训练模型,并使用 MediaPipe 组件处理所有数据以提取 2D 面部标志。此外,为了增强网络对嘴唇运动的敏感度,AniPortrait 模型在从 2D 地标渲染姿势图像时,用不同的颜色区分上唇和下唇。

如下图所示,AniPortrait 框架生成一系列动画,展现出卓越的品质和真实感。

然后,该框架利用可编辑的中间 3D 表示来根据要求操作输出。例如,用户可以从某个来源提取地标并更改其 ID,从而允许 AniPortrait 框架创建面部重演效果。

总结

AniPortrait,这是一个新颖的框架,旨在生成由参考肖像图像和音频样本驱动的高质量动画。只需输入参考图像和音频剪辑,AniPortrait 框架就能够生成具有自然头部运动和平滑嘴唇运动特征的肖像视频。通过利用扩散模型强大的泛化能力,AniPortrait 框架生成的动画能够显示令人印象深刻的逼真图像质量和逼真的运动。 AniPortrait 框架的工作分为两个阶段。首先,AniPortrait 框架从音频样本中提取中间 3D 表示,并将它们投影到一系列 2D 面部标志中。接下来,该框架采用鲁棒的扩散模型与运动模块相结合,将地标序列转换为时间一致且逼真的动画。实验结果证明了 AniPortrait 框架的优越性和能力,可以生成具有卓越视觉质量、姿势多样性和面部自然度的高质量动画,从而提供增强和丰富的感知体验。此外,AniPortrait框架在可控性和灵活性方面具有显着的潜力,可以有效应用于面部重现、面部动作编辑等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/11998.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

k8s endpoint

Endpoint Service 并不是和 pod 直接相连的,Endpoint 介于两者之间。Endpoint 资源就是暴露一个服务的 IP 地址和端口的列表。 虽然在 spec 服务中定义了 pod 选择器,但在重定向传入连接时不会直接使用它。选择器用于构建 IP 和端口列表,然…

优思学院:精益六西格玛如何影响企业文化?

精益六西格玛(Lean Six Sigma)是一种在优化生产过程、提高效率、减少浪费的管理方法论。其影响远不止于生产线或质量控制部门,实际上,精益六西格玛的实施可以深刻影响企业文化的各个层面,從而令企業獲得真正最大的成功…

【JavaScript超详细的学习笔记-下】JavaScrip超详细的学习笔记,共27部分,12多万字,学习js不错的选择,内容超详细

想要获取笔记的可以点击下面链接获取,或者私信我 ** JavaScript超详细的学习笔记,点击我获取 13,闭包 13-1 闭包 闭包是指有权访问另一个函数作用域中的变量的函数;其本质就是在一个函数内部创建另一个内部函数;并…

基于若依的开源网盘系统

简介 在线网盘系统,使用了DFA算法,实现了文件夹的创建与修改,多级目录,很正常的文件夹一样,支持所有文件上传,并按文件类型分类,支持文件删除,回收站管理,恢复与彻底删除…

低空经济:无人机竞赛详解

无人机竞赛市场近年来呈现出蓬勃发展的态势,其市场价值不仅体现在竞赛本身,还体现在推动无人机技术创新、拓展应用场景以及促进产业链发展等多个方面。 一、比赛项目介绍 无人机竞赛通常分为多个项目,包括竞速赛、技巧赛、航拍赛等。每个项目…

HR人才测评:自控能力与岗位胜任力素质测评

自控能力是什么? 自控能力可以解释为自我控制的能力,指一个人在应对人事物突发事件时,及时调整进行的自我控制的表现,它是实行自我支配的一种能力,在能进行自主支配时,一个人就成熟不少了,也可以…

优选算法——双指针1

双指针 常⻅的双指针有两种形式,⼀种是对撞指针,⼀种是左右指针。 对撞指针:⼀般⽤于顺序结构中,也称左右指针。 对撞指针从两端向中间移动。⼀个指针从最左端开始,另⼀个从最右端开始,然后逐渐往中间逼 近…

MySQL-InnoDB数据存储结构

1、存储结构-页 索引结构提供了高效的索引方式,索引信息以及数据记录都保存在数据文件或索引文件中(本质存储在页结构中) 1.1、磁盘与内存交互的基本单位:页 在InnoDB中将数据划分为若干页,页的默认大小为&#xff…

webpack并行构建示例:

由于js的单线程特性,文件和任务时 要等待一个任务执行完成后执行下一个任务,但在实际开发中,很多任务是可以并行执行的(如同时处理多个不同js文件或同事压缩多张图片),一些loader和插件(thread-…

【数据结构】解密链表之旅(单链表篇)

前言 哈喽大家好,我是野生的编程萌新,首先感谢大家的观看。数据结构的学习者大多有这样的想法:数据结构很重要,一定要学好,但数据结构比较抽象,有些算法理解起来很困难,学的很累。我想让大家知道…

自制无感无刷电机驱动板

自制无感无刷电机驱动板 分别测试了基于C251的STC32G单片机、Arduino AVR的ATmega328PB、以及ARM的ST32F103单片机。 🧲测试转动效果 ✒目前市面上开源的有关无刷电机的项目数不胜数,其控制原理都大同小异,在没有领透其技术要领情况下&#x…

苍穹外卖项目---------收获以及改进(9-12)

①Spring Task-------实现系统定时任务 概念: 应用场景: 使用步骤: 实现订单超时和前一天派送中的订单的自动任务处理: Component Slf4j public class Mytask {Autowiredprivate OrderServiceimpl orderServiceimpl;/*** 处理订…

yarn 安装以及报错处理

前一种报错是由于没有安装yarn导致的,使用以下命令即可安装: npm install -g yarn 如果成功安装,将显示Yarn的版本号。 yarn --version 第二种报错是因为系统上的执行策略限制导致的。执行策略是一种安全功能,用于控制在计算机…

Kafka官方文档中文版+Kafka面试题详解!

你了解kafka吗?目前它在一线互联网公司以迅雷不及掩耳之势得到了广泛的应用。但究竟是什么呢?Kafka最初于2011年在LinkedIn开发,自那时起经历了很多改进。如今它是一个完整的平台,允许您冗余地存储荒谬的数据量,拥有一…

SH150S1光电吊舱

SH150S1光电吊舱 1产品应用 SH150S1是一款三轴三光吊舱,集成了最远测程达3.0km,精度小于2米的半导体激光测距机,640512高分辨率红外相机,30倍光学变倍可见光相机以及高稳定精度平台框架;可安装于中小型无人机&#x…

【每日刷题】Day40

【每日刷题】Day40 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 1. 202. 快乐数 - 力扣(LeetCode) 2. 217. 存在重复元素 - 力扣(Le…

vue2 报错,警告 解决方法 component name“Index“should always be multi-word

报错原因: 组件名称应该为俩个或俩个以上单词组成的,并且还要是大驼峰命名,例如:MyIndex,MyLogin等 解决方法一: 将组件名称改为俩个或俩个以上单词组成的名称,且为大驼峰命名,例如…

Postman基础功能-Collection集合和批量运行

一、Collection(集合)介绍 当我们对一个或多个系统中的很多接口用例进行维护时,首先想到的就是对接口用例进行分类管理,同时还希望对这批接口用例做回归测试。 在 Postman 中也提供了这样一个功能,就是 Collec…

免费的GPT4终于要来了!OpenAI直播发布会详细解读!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识…

Docker下载镜像出现“missing signature key”如何解决?

“missing signature key” 通常与 Docker 配置有关,具体是 Docker 试图验证镜像的签名但未能找到相应的密钥。这种情况可能发生在启用了 Docker Content Trust (DCT) 的环境中,DCT 是一种安全功能,要求所有镜像必须有签名才能拉取。 原因 …