【数字人】9、DiffTalk | 使用扩散模型基于 audio-driven+对应人物视频 合成说话头(CVPR2023)

在这里插入图片描述

论文:DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven Portraits Animation

代码:https://sstzal.github.io/DiffTalk/

出处:CVPR2023

特点:需要音频+对应人物的视频来合成新的说话头视频,嘴部抖动严重

一、背景

talking head 合成任务相关的工作最近都集中于提升合成视频的质量或者提升模型的泛化性,很少有工作聚焦于同时提升这两个方面,而这对实际的使用很重要

所以,本文作者引入扩散模型来实现 audio-driven talking head,同时使用的声音信号、面部、关键点来作为驱动信号,可以在不同的的说话人上进行泛化

当前的研究现状:

  • 2D:主要是基于 GAN 来实现 audio-to-lip 的驱动,也就是主要是声音到嘴型的驱动,不同的模特都可以被驱动,能泛化于不同的模特之间(因为主要是驱动的嘴巴,其他部分还是保持视频原状即可)。但 GAN 训练容易坍塌,且生成的视频分辨率不高,看着比较模糊
  • 3D:如 NeRF,能够生成看起来质量较高的视频,但很难泛化,一般一个模型只能支持一个模特的渲染,泛化性较差

因此,作者选择了更好训练的扩散模型,将 audio-driven talking head 的合成看做一个 audio-driven 的连续时序的去噪过程

如图 1 所示,输入一个语音序列,DiffTalk 可以根据一个人物的一段视频来生成这个人物的新的说话视频

在这里插入图片描述

二、方法

DiffTalk 的整体结构如图 2 所示

在这里插入图片描述

2.1 针对 Talking head 的条件扩散模型

现在潜在扩散模型 LDM 应用很广泛,所以这里作者使用的也是 LDM

作者使用了一对儿训练好的 image encoder E I E_I EI 和 decoder D I D_I DI,在后续训练的时候固定权重不做训练

基于此,输入的人脸图片就会被编码到隐空间 z 0 = E I ( x ) ∈ R h × w × 3 z_0=E_I(x) \in R ^{h \times w \times 3} z0=EI(x)Rh×w×3,h 和 w 是原图大小 H 和 W 经过压缩后的大小,压缩倍数是下采样参数

一般的 LDM 都是一个时间序列的 UNet 去噪网络 M M M,学习的是反向去噪过程:

在这里插入图片描述

但在本文中,给定一个人物的 source identity 和 driven audio,本文的目标是训练一个模型能够生成和语音匹配的说话头视频,且要保留原始 identity 信息

所以,语音信号是一个基础条件来控制如何去噪

2.2 Identity-Preserving Model Generalization

在学习音频到唇部翻译的同时,另一个重要任务是在保留源图像中完整身份信息的同时实现模型的泛化。泛化的身份信息包括面部外观、头部姿态和图像背景。

为此,作者设计了一个参考机制,使模型能够泛化到训练中未见过的新个体

如图 2 所示,选择一个随机的源身份面部图像 xr 作为参考,其中包含外观和背景信息。为了防止训练中的捷径,会限制选择的 xr 与目标图像相距 60 帧以上。然而,由于真实的面部图像与 xr 的姿态完全不同,模型预期在没有任何先验信息的情况下将 xr 的姿态转移到目标面部上。

因此,作者将掩蔽的真实图像 xm 作为另一个参考条件来提供目标头部姿态的指导。xm 的嘴部区域被完全掩盖,以确保网络看不到真实的唇部动作。这样,参考 xr 专注于提供嘴部外观信息,这也降低了训练的难度。

同时,还使用 MLP encoder E L E_L EL 对面部关键点(除过嘴部)进行了编码,也作为条件

所以整个输入条件就变成了:

在这里插入图片描述
整个优化目标就是:

在这里插入图片描述

三、效果

数据:

  • HDTF 数据集,包括 16 小时视频,分辨率为 720P 或 1080P 的,超过 300 个人物
  • 作者随机选择了 100 个视频,抽取了约 100 min 时长的视频作为训练
  • resize 输入数据到 256x256,隐空间编码大小为 64x64x3,如果要训练大分辨率模型,输入是 512x512,隐空间编码大小同样为 64x64x3

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/621816.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《Git学习笔记:Git入门 常用命令》

1. Git概述 1.1 什么是Git? Git是一个分布式版本控制工具,主要用于管理开发过程中的源代码文件(Java类、xml文件、html页面等),在软件开发过程中被广泛使用。 其它的版本控制工具 SVNCVSVSS 1.2 学完Git之后能做…

R语言【paleobioDB】——pbdb_intervals():通过参数选择,返回多个地层年代段的基本信息

Package paleobioDB version 0.7.0 paleobioDB 包在2020年已经停止更新,该包依赖PBDB v1 API。 可以选择在Index of /src/contrib/Archive/paleobioDB (r-project.org)下载安装包后,执行本地安装。 Usage pbdb_interval (id, ...) Arguments 参数【..…

顺序表的实现(上)(C语言)

本文章主要对顺序表的介绍以及数据结构的定义,以及几道相关例题,帮助大家更好理解顺序表. 文章目录 前言 一、顺序表的静态实现 二、顺序表的动态实现 三.定义打印顺序表函数 四.定义动态增加顺序表长度函数 五.创建顺序表并初始化 六.顺序表的按位查找 七.顺序表的按值…

力扣 第 121 场双周赛 解题报告 | 珂学家 | 数位DP

前言 整体评价 T3, T4 都是典题 T1. 大于等于顺序前缀和的最小缺失整数 思路: 模拟 class Solution { public:int missingInteger(vector<int>& nums) {set<int> s(nums.begin(), nums.end());int acc nums[0];for (int i 1; i < nums.size(); i) {if …

Win10专业版系统搭建DNS解析服务

Win10专业版 纯新手&#xff0c;也没弄过Linux的。不喜勿喷&#xff0c;有问题请指出 第一天一头雾水整了几个小时没结果&#xff0c;第二天豁然开朗&#xff0c;10分钟明白了第一天的问题所在。 Win10 安卓&#xff1a; iOS&#xff1a; 搭建DNS服务器的意义&#xff1a; 屏蔽…

运算放大器相关知识总结(1)

1、 前言 最近做了一个小项目&#xff0c;这个项目是研发一款阻抗测量仪。这个阻抗测量仪可以测量人体在不同频率下的生物电阻抗&#xff0c;该设备的核心是模拟电路&#xff0c;技术难点是减小模拟电路噪声。该项目前前忙了2个多月&#xff0c;借着研发这个项目的机会把自己掌…

ivrobot乐高EV3 鲸鱼 能力风暴自制遥控手柄库文件和编程样例 使用指南

编程示例&#xff1a; 资源下载链接&#xff1a; https://download.csdn.net/download/abilix_tony/88739582 EV3 mindstorms能用基础版和高阶版&#xff08;条形编程界面&#xff09; EV3 classroom只能用基础版 &#xff08;scratch模块形状编程界面&#xff09; 请根据使…

WEB前端人机交互导论实验-实训2格式化文本、段落与列表

1.项目1 文本与段落标记的应用&#xff1a; A.题目要求: B.思路&#xff1a; &#xff08;1&#xff09;首先&#xff0c;HTML文档的基本结构是通过<html>...</html>标签包围的&#xff0c;包含了头部信息和页面主体内容。 &#xff08;2&#xff09;在头部信息…

【AI的未来 - AI Agent系列】【MetaGPT】2. 实现自己的第一个Agent

在MetaGPT中定义的一个agent运行示例如下&#xff1a; 一个agent在启动后他会观察自己能获取到的信息&#xff0c;加入自己的记忆中下一步进行思考&#xff0c;决定下一步的行动&#xff0c;也就是从Action1&#xff0c;Action2&#xff0c;Action3中选择执行的Action决定行动…

ADSelfService Plus 推出离线多因素身份验证以提升远程工作安全性

采用先进验证方法&#xff0c;确保在任何时间、地点或连接问题下对业务数据的合法访问即使远程用户未连接到身份验证服务器或互联网&#xff0c;也可通过MFA安全认证。 MFA 得克萨斯州德尔瓦雷 — 2023年5月3日 — Zoho Corporation 旗下的企业IT管理部门ManageEngine今日宣布…

抖音小店无货源爆单技巧大公开!教你如何与达人合作!

大家好&#xff0c;我是电商花花。 现在越来越多的人开始关注抖音小店电商&#xff0c;尝试着做抖音小店&#xff0c;我们做抖音小店除了要选品之外&#xff0c;我们还要学会找达人合作&#xff0c;让达人帮我们带货出单。 今天给大家讲一下如何找达人合作带货&#xff0c;如…

【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型

前言 Animatediff是一个有效的框架将文本到图像模型扩展到动画生成器中&#xff0c;无需针对特定模型进行调整。只要在大型视频数据集中学习到运动先验知识。AnimateDiff就可以插入到个性化的文生图模型中&#xff0c;与Civitai和Huggingface的文生图模型兼容&#xff0c;也可…

polar CTF CB链

一、题目 二、解答 1、通过jar包&#xff0c;可以看到/user路由下有反序列化操作 看到存在commons-beanutils依赖且版本为1.9.2&#xff0c;可利用CB链Getshell。 使用ysoserial项目中的CommonsBeanutils1链写一个POC&#xff0c;注意确保ysoserial项目中的pom.xml中的comm…

嵌入式培训机构四个月实训课程笔记(完整版)-Linux网络编程第一天-socket编程(物联技术666)

更多配套资料CSDN地址:点赞+关注,功德无量。更多配套资料,欢迎私信。 物联技术666-CSDN博客物联技术666擅长嵌入式C语言开发,嵌入式培训笔记,嵌入式硬件,等方面的知识,物联技术666关注机器学习,arm开发,物联网,嵌入式硬件,单片机领域.https://blog.csdn.net/weixin_3980490…

8.1 Centos安装部署Redis

文章目录 前言一、下载Redis二、编译Redis三、配置redis.conf四、启动Redis服务端五、启动Redis客户端测试前言 本文将手把手演示在CentOS7上安装部署Redis。 一、下载Redis 可以使用wget命令进行下载,这里下载到/app目录 wget http://download.redis.io/releases/redis-5.…

Centos安装Datax

Centos7安装DataX 一、DataX简介二、DataX的数据源支持三、安装DataX1、下载DataX2、解压3、检验是否安装成功4、使用 四、实践案例1、环境信息2、编写同步的配置文件(user_info.json)3、执行同步4、验证同步结果 一、DataX简介 DataX 是阿里云 DataWorks数据集成 的开源版本&a…

RocketMQ源码阅读-Message消息存储

RocketMQ源码阅读-Message消息存储 1. CommitLog的作用2. CommitLog 存储消息3. 时序图4. 小结 在Broker消息接收一篇中&#xff0c;分析到Broker接收到消息&#xff0c;最终会调用CommitLong#putMessage方法存储消息。 本篇来分析CommitLong#putMessage存储消息的流程。 1. C…

自编C++题目——战争

预估难度 困难 题目描述 国与国以河为界&#xff0c;有一天他们两国发生了战争&#xff0c;在边疆的战士开始了厮杀。小明是一个参谋&#xff0c;他也知道两国的兵都能打个人&#xff0c;所以他想让你帮忙安排布置兵&#xff0c;以击杀所有国的兵。 打仗规则 只能打在同一…

鸿蒙应用开发尝鲜:初识HarmonyOS

初识HarmonyOS 来源:华为官方网站 : https://developer.huawei.com/ 相信大家对鸿蒙应用开发也不在陌生,很多身处互联网行业或者不了解的人们现在也一定都听说过华为鸿蒙.这里我将不再说废话,直接步入正题 鸿蒙应用开发语言 HarmonyOS应用开发采用的是ArkTS语言,ArkTS是在Typ…

高校站群内容管理系统开发语言各有优势

站群管理系统开发可以选择多种编程语言&#xff0c;具体选择哪种语言最好需要考虑多个因素&#xff0c;包括开发团队的技术栈、项目需求、性能要求、安全性等。下面列举一些常见的编程语言及其适用场景&#xff1a; PHP&#xff1a;PHP是一种广泛使用的服务器端脚本语言&#…