DreamTalk:单张图像即可生成逼真人物说话头像动画,助力AI数字人落地

DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models

DreamTalk是一个基于扩散的音频驱动的富有表现力的说话头生成框架,可以生成不同说话风格的高质量的说话头视频。DreamTalk对各种输入表现出强大的性能,包括歌曲、多语言语音、噪声音频和域外肖像。

项目主页:https://dreamtalk-project.github.io/

论文地址:https://arxiv.org/pdf/2312.09767.pdf

Github地址:https://github.com/ali-vilab/dreamtalk

摘要

DreamTalk利用扩散模型生成表情丰富的说话头像。该框架包括三个关键组件:去噪网络、风格感知的唇部专家和风格预测器。去噪网络能够生成高质量的音频驱动面部动作,唇部专家能够提高唇部运动的表现力和准确性,风格预测器能够直接从音频中预测目标表情,减少对昂贵的风格参考的依赖。实验结果表明,DreamTalk能够生成逼真的说话头像,超越现有的最先进的对手。

简介

音频驱动的说话头生成是一种将肖像与语音音频动画化的技术,它在视频游戏、电影配音和虚拟化身等领域引起了广泛关注。生成逼真的面部表情对于增强说话头的真实感至关重要。目前,生成对抗网络(GANs)在表达性说话头生成方面处于领先地位,但其存在的模式崩溃和不稳定训练问题限制了其在不同说话风格上的高性能表现。扩散模型是一种新的生成技术,近年来在图像生成、视频生成和人体动作合成等领域取得了高质量的结果。然而,目前的扩散模型在表达性说话头生成方面仍存在问题,如帧抖动问题。因此,如何充分发挥扩散模型在表达性说话头生成方面的潜力是一个有前景但尚未开发的研究方向。

DreamTalk是一个表情丰富的说话头生成框架,利用扩散模型提供高性能和减少对昂贵的风格参考的依赖。它由去噪网络、风格感知的嘴唇专家和风格预测器组成。去噪网络利用扩散模型产生具有参考视频指定的说话风格的音频驱动的面部动作。风格感知的嘴唇专家确保准确的嘴唇动作和生动的表情。风格预测器通过音频直接预测个性化的说话风格。DreamTalk能够在各种说话风格下一致生成逼真的说话头,并最小化对额外风格参考的需求。它还能够灵活地操纵说话风格,并在多语言、嘈杂音频和领域外肖像等各种输入下展现出强大的泛化能力。通过全面的定性和定量评估,证明了DreamTalk相比现有的最先进方法的优越性。

相关工作

两种人工智能生成人物头像的方法:音频驱动和表情驱动。音频驱动方法分为个人特定和个人不确定两种,前者需要在训练时指定演讲者,后者则可以为未知演讲者生成视频。表情驱动方法早期采用离散情感类别模型,后来采用表情参考视频进行表情转移。然而,这些基于GAN的模型存在模式崩溃问题。本文提出了一种使用扩散模型的方法,可以从输入音频和肖像中推断出个性化和情感表达。扩散模型在多个视觉任务中表现出色,但之前的尝试在生成表情时只能产生中性情感的头像。本文提出的方法可以生成更具表现力的头像,而且可以从输入音频中推断出演讲风格。

DreamTalk

DreamTalk由3个关键组件组成:去噪网络,风格感知唇形专家和风格预测器。去噪网络根据语音和风格参考视频计算人脸运动。人脸运动被参数化为来自3D形变模型的表情参数序列。人脸运动由渲染器渲染成视频帧。风格感知唇形专家提供不同表情下的唇动指导,从而驱动去噪网络在保证风格表现力的同时实现准确的唇形同步。风格预测器可以预测与讲话中传达的风格一致的说话风格。

去噪的网络。去噪网络以滑动窗口的方式逐帧合成人脸运动序列。它使用音频窗口预测运动帧。音频窗口首先被馈送到基于transformer的音频编码器中,输出与信道维度的噪声运动级联。线性投影到相同维度后,将拼接结果和时间步长t求和,作为transformer解码器的键和值。为了从风格参考中提取说话风格,风格编码器首先提取3DMM表情参数序列,然后将它们输入transformer编码器。使用自注意力池化层聚合输出标记,以获得风格代码。风格代码重复2w + 1次,并添加位置编码。结果作为transformer解码器的查询。解码器的中间输出令牌被馈送到前馈网络以预测信号。

风格感知唇形专家。我们观察到,仅使用标准扩散模型中的去噪损失会导致不准确的唇动。为解决这个问题,本文提出一名风格感知的唇形专家。该唇部专家经过训练,可以评估不同说话风格下的口型同步。因此,它可以在不同的说话风格下提供唇动指导,更好地在风格表现力和口型同步之间取得平衡。嘴唇专家E根据风格参考R计算一段音频和嘴唇运动同步的概率:

具有风格感知的唇部专家将唇动和音频编码为以风格参考为条件的各自嵌入,然后计算余弦相似度以表示同步概率。为了从人脸运动中获取唇动信息,首先将人脸运动转换为相应的人脸网格,并选择嘴巴区域的顶点作为唇动表示。首先使用风格编码器从风格参考中提取风格特征,该特征反映了去噪网络中的风格结构,然后将风格特征与嵌入编码器的中间特征图连接起来,从而将风格条件融合到嵌入网络中。

风格的预测。风格预测器预测由训练的去噪网络中的风格编码器提取的风格代码。观察说话人身份和风格代码之间的相关性,风格预测器还将肖像作为输入进行集成。风格预测器被实例化为扩散模型,并被训练来预测风格代码本身:

风格预测器是序列上的transformer编码器,序列按顺序包括:音频嵌入,扩散时间步的嵌入,说话人信息嵌入,噪声风格代码嵌入,和一个称为learned query的最终嵌入,它的输出用于预测无噪声风格代码。音频嵌入是使用自监督预训练语音模型提取的音频特征。为获得说话人信息嵌入,该方法首先提取了3DMM身份参数,其中包括人脸形状信息,但从肖像中删除了表情等无关信息,然后使用MLP将其嵌入到token中。

训练和推理

训练。首先,通过确定随机采样的音频和唇动剪辑是否像中那样同步,对风格感知的唇动专家进行预训练,然后在训练去噪网络期间进行冻结。

去噪网络是通过从数据集中抽样随机元组来训练的,优化损失:

具体来说,从同一时刻的训练视频中提取地面真实运动和语音音频窗口。样式引用是从同一个视频中随机抽取的视频片段。

我们首先计算扩散模型的去噪损失定义为:

然后,去噪网络通过对生成的片段进行同步损失来最大化同步概率:

使用无分类器指导的进行模型训练。对于推理,预测信号由一下公式计算:

该方法通过调节比例因子ω来控制风格参考R的效果。

当训练风格预测器时,我们抽取一个随机视频,然后从中提取音频和风格代码。由于3DMM身份参数可能会泄露表情信息,因此从具有相同说话人身份的另一个视频中采样肖像。样式预测器通过优化损失值来训练:

利用PIRenderer作为渲染器,并对其进行精心微调,使渲染器具有情感表达生成能力。

推理。本方法可以使用参考视频或仅通过输入音频和肖像来指定说话风格。在参考视频的情况下,使用去噪网络中的风格编码器导出风格代码。当仅依赖输入的音频和人像时,这些输入由风格预测器处理,采用去噪过程来获得风格代码。

有了风格代码,去噪网络利用DDPM的采样算法产生人脸运动。它首先对随机运动进行采样,然后计算去噪序列。最后,生成人脸运动。利用DDIM可以加速采样过程。然后,渲染器PIRenderer将输出的人脸运动渲染为视频。

实验

实验设置

数据集。我们在MEAD、HDTF和Voxceleb2上训练和评估去噪网络。风格感知唇形专家使用MEAD和HDTF训练。我们在MEAD上训练风格预测器,并在MEAD和RAVEDESS上对其进行评估。

基线。我们与以下方法进行对比:MakeitTalk、Wav2Lip、PCAVS、AVCT、GC-AVT、EAMM、StyleTalk、DiffTalk、SadTalker、PDFGC、EAT。

指标。使用了广泛使用的指标:SSIM[88]、模糊检测的累积概率(CPBD)、SyncNet置信度分数(Sync conf)、嘴巴区域周围的地标距离(M-LMD)、全脸地标距离(F-LMD)。

结果

定量比较。本方法在大多数指标上优于先前的方法,尤其在精确的嘴唇同步和生成与参考说话风格一致的面部表情方面表现出色。

定性比较。与其他方法相比,MakeItTalk和AVCT在准确的嘴唇同步方面存在困难,Wav2Lip和PC-AVS的输出模糊不清,SadTalker在嘴唇运动方面有时显示出不自然的抖动。EAT的能力仅限于生成离散的情绪,缺乏细腻的表达。EAMM、GC-AVT、StyleTalk和PD-FGC能够产生细致的表情,但EAMM在嘴唇同步方面表现不佳,GC-AVT和PDFGC在保持说话者身份方面有困难,而且三者都存在渲染合理背景的问题。StyleTalk能够生成细致的表情,但有时会减弱强度并且无法准确地生成某些单词的嘴唇运动。DiffTalk在嘴唇同步方面存在困难,并且在嘴部区域引入抖动和伪影。DreamTalk在生成逼真的说话人脸方面表现出色,不仅能够模仿参考说话风格,还能实现精确的嘴唇同步和优质的视频质量。

泛化能力。本方法还展示了在不同领域的肖像、各种语言的语音、嘈杂的音频输入和歌曲中生成逼真的说话头视频的能力。

说话风格预测结果。本方法能够准确识别细微的表情差异,并根据原始视频中观察到的个性化说话风格进行预测。

消融分析

本文通过消融实验分析了设计的贡献,包括去除口型专家和使用无条件口型专家的变体。结果表明,去除口型专家会导致情感数据集MEAD的唇同步精度下降,而使用无条件口型专家则会牺牲表达风格的精度。全模型通过引导扩散模型的表达潜力,实现了精确的唇同步和生动的表情,达到了平衡。

风格代码可视化

使用tSNE将MEAD数据集中15个说话者的风格代码映射到2D空间中,这些说话者展示了22种不同的说话风格,包括三个强度级别的七种情绪和一种中性风格。每种风格从10个随机选择的视频中提取风格代码。结果显示,相同说话者的风格代码倾向于聚集在一起,这表明个体说话者的独特性对说话风格的差异产生了更大的影响,这也是使用肖像信息推断说话风格的合理性的基础。此外,每个说话者的风格代码分布都展示了共同的模式和个性化的特征。

风格编辑

调整分类器自由指导方案中的比例因子ω可以调节输入风格的影响,当ω超过2时,唇同步准确度会下降。利用风格空间进行风格代码插值可以实现无缝过渡和生成新的说话风格。

用户研究

用户研究共有20名参与者,测试样本涵盖多种说话风格和说话人。每种方法都需要参与者对10个视频进行评分,评分包括三个方面:唇同步质量、结果真实性和生成视频与风格参考之间的一致性。结果表明,该方法在所有方面均优于现有方法,尤其是在风格一致性方面表现出色。

总结

DreamTalk利用扩散模型生成表情丰富的说话头像。该方法旨在在多样的说话风格中表现出色,同时最小化对额外风格参考的依赖。作者开发了一个去噪网络来创建表情丰富的音频驱动面部动作,并引入了一个风格感知的唇部专家来优化唇语同步,而不会影响风格表现力。此外,作者设计了一个风格预测器,直接从音频中推断说话风格,消除了对视频参考的需求。作者通过大量实验验证了DreamTalk的有效性。

文章转载于灵度智能

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/719452.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Thingsboard本地源码部署教程

本章将介绍ThingsBoard的本地环境搭建,以及源码的编译安装。本机环境:jdk11、maven 3.6.2、node v12.18.2、idea 2023.1、redis 6.2 环境安装 开发环境要求: Jdk 11 版本 ;Postgresql 9 以上;Maven 3.6 以上&#xf…

【Java】Base理论的核心思想和理论三要素

目录 简介 BASE 理论的核心思想 BASE 理论三要素 1. 基本可用 2. 软状态 3. 最终一致性 总结 简介 BASE 是 Basically Available(基本可用) 、Soft-state(软状态) 和 Eventually Consistent(最终一致性&#xf…

财报解读:基本盘稳定后,联想如何进一步抢占AI时代?

从2021年下半年开始,受诸多因素影响,消费电子行业始终处在承压状态,“不景气”这一关键词屡次被市场提及。 但寒气没有持续,可以看到,消费电子行业正在逐渐回暖。国金证券在今年1月的研报中就指出,从多方面…

#WEB前端(CCS常用属性,补充span、div)

1.实验: 复合元素、行内元素、块内元素、行内块元素 2.IDE:VSCODE 3.记录: span为行内元素:不可设置宽高,实际占用控件决定分布空间。 div为块内元素:占满整行,可以设置宽高 img为行内块元…

Unity(第二十三部)导航

你可以使用 unity官方提供的 unity导航组件或第三方 unity导航组件,以实现游戏中角色或其他物体的导航。 unity导航组件通常具有多种导航模式,如飞行模式、步行模式、车辆模式等,可以根据不同的需求选择合适的模式。同时,unity导…

2023年全国职业院校技能大赛中职组大数据应用与服务赛项题库参考答案陆续更新中,敬请期待…

2023年全国职业院校技能大赛中职组大数据应用与服务赛项题库参考答案陆续更新中,敬请期待… 武汉唯众智创科技有限公司 2024 年 2 月 联系人:辜渝傧13037102709 题号:试题01 模块二:数据获取与处理 (一)…

Ainx的全局配置

📕作者简介: 过去日记,致力于Java、GoLang,Rust等多种编程语言,热爱技术,喜欢游戏的博主。 📗本文收录于Ainx系列,大家有兴趣的可以看一看 📘相关专栏Rust初阶教程、go语言基础系列…

【S32DS报错】-7-程序进入HardFault_Handler,无法正常运行

【S32K3_MCAL从入门到精通】合集: S32K3_MCAL从入门到精通https://blog.csdn.net/qfmzhu/category_12519033.html 问题背景: 在S32DS IDE中使用PEmicro(Multilink ACP,Multilink Universal,Multilink FX&#xff09…

【网站项目】182在线作业管理系统

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

【Python】进阶学习:pandas--describe()函数的使用介绍

🐍【Python】进阶学习:pandas——describe()函数的使用介绍 🌈 个人主页:高斯小哥 🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程&am…

绘图机器 - 华为OD统一考试(C卷)

OD统一考试(C卷) 分值: 100分 题解: Java / Python / C 题目描述 绘图机器的绘图笔初始位置在原点(0, 0),机器启动后其绘图笔按下面规则绘制直线: 1)尝试沿着横向坐标轴…

支持向量机 SVM | 线性可分:硬间隔模型公式推导

目录 一. SVM的优越性二. SVM算法推导小节概念 在开始讲述SVM算法之前,我们先来看一段定义: 支持向量机(Support VecorMachine, SVM)本身是一个二元分类算法,支持线性分类和非线性分类的分类应用,同时通过OvR或者OvO的方式可以应用…

长贵对赵本山说:你需要我们家大脚,我立马给你配双大鞋!

长贵对赵本山说:你需要我们家大脚,我立马给你配双大鞋! --小品《乡村爱情》(中2)的台词 表演者:赵本山 于月仙 王小利 唐鉴军等 (接上) 哈哈哈 伊拉克啊 这地方也不产这玩意吧 …

Chat GPT:AI聊天机器人的革命性突破!

一、引言 近年来,人工智能(AI)技术的发展日新月异,其中最具代表性的成果之一便是Chat GPT。这款基于自然语言处理(NLP)技术的聊天机器人,以其高度智能、灵活多变的特点,迅速吸引了全…

笔记74:在SLAM建图过程中,为什么要使用【障碍物点云配准算法】和【里程计估算算法】结合的方法

仅使用【障碍物点云配准算法】,很容易导致在一条长通道中,因为前后两帧的雷达点云图过于相似,导致特征匹配一直完全重合,使得机器人建图一直停留在原地,但实体机器人早就沿着通道跑向远端了; 使用Hector_ma…

(学习日记)2024.03.02:UCOSIII第四节:创建任务

写在前面: 由于时间的不足与学习的碎片化,写博客变得有些奢侈。 但是对于记录学习(忘了以后能快速复习)的渴望一天天变得强烈。 既然如此 不如以天为单位,以时间为顺序,仅仅将博客当做一个知识学习的目录&a…

这是开玩笑吗?加个工具,WPS与Excel表格变成了应用系统

表格处理数据简单快捷,是个人用户的首选。然而,当企业长期使用,成本表、客户表、销售表等堆积如山,寻找所需表格如同大海捞针,稍有不慎便可能导致数据丢失、混乱。即便使用WPS和Excel这样的表格软件,处理大…

回溯难题(算法村第十八关黄金挑战)

复原 IP 地址 93. 复原 IP 地址 - 力扣(LeetCode) 有效 IP 地址 正好由四个整数(每个整数位于 0 到 255 之间组成,且不能含有前导 0),整数之间用 . 分隔。 例如:"0.1.2.201" 和 &q…

IDEA中使用git提交代码时,有.class文件怎么避免

在IDEA中使用git提交代码时,git把.class文件都给我放进来了,而我并不想要提交.class文件 我要提交的是.java文件 应该怎么设置呢 解决方案,点击整个项目的生命周期中的clean之前,你会发现git提交栏的.class文件都不见了。

ROS2服务通信的实现

文章目录 1.服务通信的概念及应用场景1.1概念1.2 应用场景 2.准备工作3.服务通信的实现3.1 服务通信接口消息3.2 服务端实现3.3 客户端实现3.4 编译及运行3.4.1 修改CMakeLists3.4.2 服务端运行结果3.4.2 客户端运行结果 1.服务通信的概念及应用场景 1.1概念 服务通信也是ROS…