【数字人】9、DiffTalk | 使用扩散模型基于 audio-driven+对应人物视频合成说话头（CVPR2023）

【数字人】9、DiffTalk | 使用扩散模型基于 audio-driven+对应人物视频合成说话头（CVPR2023）

news/2025/4/29 4:38:43/文章来源:https://blog.csdn.net/jiaoyangwm/article/details/135528550

在这里插入图片描述

论文：DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven Portraits Animation

代码：https://sstzal.github.io/DiffTalk/

出处：CVPR2023

特点：需要音频+对应人物的视频来合成新的说话头视频，嘴部抖动严重

一、背景

talking head 合成任务相关的工作最近都集中于提升合成视频的质量或者提升模型的泛化性，很少有工作聚焦于同时提升这两个方面，而这对实际的使用很重要

所以，本文作者引入扩散模型来实现 audio-driven talking head，同时使用的声音信号、面部、关键点来作为驱动信号，可以在不同的的说话人上进行泛化

当前的研究现状：

2D：主要是基于 GAN 来实现 audio-to-lip 的驱动，也就是主要是声音到嘴型的驱动，不同的模特都可以被驱动，能泛化于不同的模特之间（因为主要是驱动的嘴巴，其他部分还是保持视频原状即可）。但 GAN 训练容易坍塌，且生成的视频分辨率不高，看着比较模糊
3D：如 NeRF，能够生成看起来质量较高的视频，但很难泛化，一般一个模型只能支持一个模特的渲染，泛化性较差

因此，作者选择了更好训练的扩散模型，将 audio-driven talking head 的合成看做一个 audio-driven 的连续时序的去噪过程

如图 1 所示，输入一个语音序列，DiffTalk 可以根据一个人物的一段视频来生成这个人物的新的说话视频

在这里插入图片描述

二、方法

DiffTalk 的整体结构如图 2 所示

在这里插入图片描述

2.1 针对 Talking head 的条件扩散模型

现在潜在扩散模型 LDM 应用很广泛，所以这里作者使用的也是 LDM

作者使用了一对儿训练好的 image encoder $E_I$ 和 decoder $D_I$ ，在后续训练的时候固定权重不做训练

基于此，输入的人脸图片就会被编码到隐空间 $z_0=E_I(x) \in R ^{h \times w \times 3}$ ，h 和 w 是原图大小 H 和 W 经过压缩后的大小，压缩倍数是下采样参数

一般的 LDM 都是一个时间序列的 UNet 去噪网络 $M$ ，学习的是反向去噪过程：

在这里插入图片描述

但在本文中，给定一个人物的 source identity 和 driven audio，本文的目标是训练一个模型能够生成和语音匹配的说话头视频，且要保留原始 identity 信息

所以，语音信号是一个基础条件来控制如何去噪

2.2 Identity-Preserving Model Generalization

在学习音频到唇部翻译的同时，另一个重要任务是在保留源图像中完整身份信息的同时实现模型的泛化。泛化的身份信息包括面部外观、头部姿态和图像背景。

为此，作者设计了一个参考机制，使模型能够泛化到训练中未见过的新个体

如图 2 所示，选择一个随机的源身份面部图像 xr 作为参考，其中包含外观和背景信息。为了防止训练中的捷径，会限制选择的 xr 与目标图像相距 60 帧以上。然而，由于真实的面部图像与 xr 的姿态完全不同，模型预期在没有任何先验信息的情况下将 xr 的姿态转移到目标面部上。

因此，作者将掩蔽的真实图像 xm 作为另一个参考条件来提供目标头部姿态的指导。xm 的嘴部区域被完全掩盖，以确保网络看不到真实的唇部动作。这样，参考 xr 专注于提供嘴部外观信息，这也降低了训练的难度。

同时，还使用 MLP encoder $E_L$ 对面部关键点（除过嘴部）进行了编码，也作为条件

所以整个输入条件就变成了：

在这里插入图片描述
整个优化目标就是：

在这里插入图片描述

三、效果

数据：

HDTF 数据集，包括 16 小时视频，分辨率为 720P 或 1080P 的，超过 300 个人物
作者随机选择了 100 个视频，抽取了约 100 min 时长的视频作为训练
resize 输入数据到 256x256，隐空间编码大小为 64x64x3，如果要训练大分辨率模型，输入是 512x512，隐空间编码大小同样为 64x64x3

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/621816.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

《Git学习笔记：Git入门常用命令》

《Git学习笔记：Git入门常用命令》

1. Git概述 1.1 什么是Git？ Git是一个分布式版本控制工具，主要用于管理开发过程中的源代码文件（Java类、xml文件、html页面等），在软件开发过程中被广泛使用。其它的版本控制工具 SVNCVSVSS 1.2 学完Git之后能做…

阅读更多...

R语言【paleobioDB】——pbdb_intervals()：通过参数选择，返回多个地层年代段的基本信息

R语言【paleobioDB】——pbdb_intervals()：通过参数选择，返回多个地层年代段的基本信息

Package paleobioDB version 0.7.0 paleobioDB 包在2020年已经停止更新，该包依赖PBDB v1 API。可以选择在Index of /src/contrib/Archive/paleobioDB (r-project.org)下载安装包后，执行本地安装。 Usage pbdb_interval (id, ...) Arguments 参数【..…

阅读更多...

顺序表的实现(上)(C语言)

顺序表的实现(上)(C语言)

本文章主要对顺序表的介绍以及数据结构的定义,以及几道相关例题,帮助大家更好理解顺序表. 文章目录前言一、顺序表的静态实现二、顺序表的动态实现三.定义打印顺序表函数四.定义动态增加顺序表长度函数五.创建顺序表并初始化六.顺序表的按位查找七.顺序表的按值…

阅读更多...

【数值分析】区间折半法，matlab实现

【数值分析】区间折半法，matlab实现

区间折半法从梯形公式出发，上一步步长为 h {h} h ，则有步长折半后的积分 T 2 n 1 2 T n h 2 ∑ i 0 n − 1 f ( x i 0.5 ) T_{2n} \frac{1}{2}T_n \frac{h}{2} \sum_{i0}^{ n-1}f(x_{i0.5}) T2n21Tn2hi0∑n−1f(xi0.5) matlab实现 …

阅读更多...

力扣第 121 场双周赛解题报告 | 珂学家 | 数位DP

力扣第 121 场双周赛解题报告 | 珂学家 | 数位DP

前言整体评价 T3, T4 都是典题 T1. 大于等于顺序前缀和的最小缺失整数思路: 模拟 class Solution { public:int missingInteger(vector<int>& nums) {set<int> s(nums.begin(), nums.end());int acc nums[0];for (int i 1; i < nums.size(); i) {if …

阅读更多...

Win10专业版系统搭建DNS解析服务

Win10专业版系统搭建DNS解析服务

Win10专业版纯新手，也没弄过Linux的。不喜勿喷，有问题请指出第一天一头雾水整了几个小时没结果，第二天豁然开朗，10分钟明白了第一天的问题所在。 Win10 安卓： iOS： 搭建DNS服务器的意义： 屏蔽…

阅读更多...

React Hooks useContext 传参数

React Hooks useContext 传参数

1、封装 context.js 文件，如下图： import { createContext } from "react";const Context createContext(null);export default Context;2、父级组件引入 context.js 文件，并用Provider包裹子组件，值通过 value 传递&…

阅读更多...

运算放大器相关知识总结（1）

运算放大器相关知识总结（1）

1、前言最近做了一个小项目，这个项目是研发一款阻抗测量仪。这个阻抗测量仪可以测量人体在不同频率下的生物电阻抗，该设备的核心是模拟电路，技术难点是减小模拟电路噪声。该项目前前忙了2个多月，借着研发这个项目的机会把自己掌…

阅读更多...

fmt中几个技法

fmt中几个技法

最简状态机实现 struct {state current_state state::start;FMT_CONSTEXPR void operator()(state s, bool valid true) {if (current_state > s || !valid)throw_format_error("invalid format specifier");current_state s;} } enter_state;2336: ente…

阅读更多...

ivrobot乐高EV3 鲸鱼能力风暴自制遥控手柄库文件和编程样例使用指南

ivrobot乐高EV3 鲸鱼能力风暴自制遥控手柄库文件和编程样例使用指南

编程示例： 资源下载链接： https://download.csdn.net/download/abilix_tony/88739582 EV3 mindstorms能用基础版和高阶版（条形编程界面） EV3 classroom只能用基础版 （scratch模块形状编程界面） 请根据使…

阅读更多...

WEB前端人机交互导论实验-实训2格式化文本、段落与列表

WEB前端人机交互导论实验-实训2格式化文本、段落与列表

1.项目1 文本与段落标记的应用： A.题目要求: B.思路： （1）首先，HTML文档的基本结构是通过<html>...</html>标签包围的，包含了头部信息和页面主体内容。 （2）在头部信息…

阅读更多...

【AI的未来 - AI Agent系列】【MetaGPT】2. 实现自己的第一个Agent

【AI的未来 - AI Agent系列】【MetaGPT】2. 实现自己的第一个Agent

在MetaGPT中定义的一个agent运行示例如下： 一个agent在启动后他会观察自己能获取到的信息，加入自己的记忆中下一步进行思考，决定下一步的行动，也就是从Action1，Action2，Action3中选择执行的Action决定行动…

阅读更多...

RPC：Remote Procedure Call 远程过程调用

RPC：Remote Procedure Call 远程过程调用

目前，对于一个完整的应用来说，通常包含了若干支持不同功能的服务，亦或者是函数，这些服务之间往往可能需要互相调用，使用已经实现的服务功能，而不是需要在每个服务进程中再去重复实现已经有的功能。这不仅…

阅读更多...

ADSelfService Plus 推出离线多因素身份验证以提升远程工作安全性

ADSelfService Plus 推出离线多因素身份验证以提升远程工作安全性

采用先进验证方法，确保在任何时间、地点或连接问题下对业务数据的合法访问即使远程用户未连接到身份验证服务器或互联网，也可通过MFA安全认证。 MFA 得克萨斯州德尔瓦雷 — 2023年5月3日 — Zoho Corporation 旗下的企业IT管理部门ManageEngine今日宣布…

阅读更多...

CentOS7单机部署Minio

CentOS7单机部署Minio

1、下载二进制文件 # minio运行目录 cd /soft/minio # 下载minio二进制文件 wget https://dl.minio.org.cn/server/minio/release/linux-amd64/minio # 赋权 chmod x minio # 建立minio操作目录 mkdir /mnt/minio/data 2、建立启动脚本 cd /soft/minio vi start.sh 脚本内容…

阅读更多...

抖音小店无货源爆单技巧大公开！教你如何与达人合作！

抖音小店无货源爆单技巧大公开！教你如何与达人合作！

大家好，我是电商花花。现在越来越多的人开始关注抖音小店电商，尝试着做抖音小店，我们做抖音小店除了要选品之外，我们还要学会找达人合作，让达人帮我们带货出单。今天给大家讲一下如何找达人合作带货，如…

阅读更多...

【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型

【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型

前言 Animatediff是一个有效的框架将文本到图像模型扩展到动画生成器中，无需针对特定模型进行调整。只要在大型视频数据集中学习到运动先验知识。AnimateDiff就可以插入到个性化的文生图模型中，与Civitai和Huggingface的文生图模型兼容，也可…

阅读更多...

6 功能开发

6 功能开发

功能开发 6 功能开发1.发布1.1 小程序1.2 API1.3 规则 2.restful api回顾2.1 APIView （ 可以 ）2.2 ListAPIView2.2.1 用户传递某些值2.2.2 fields和exclude的区别？2.2.3 read_only2.3.4 复杂需求2.3.5 serializers嵌套 3. 首页展示扩展&#…

阅读更多...

把项目转换为md知识库，提供给gpts使用

把项目转换为md知识库，提供给gpts使用

把项目转换为md知识库，提供给gpts使用 import osimport chardetproject_path # 项目目录路径 project_name # 项目名称# 定义全局字典，映射文件后缀名到Markdown代码块的语言 language_mapping {.java: java,.py: python,.js: javascript,.html: html,…

阅读更多...

polar CTF CB链

polar CTF CB链

一、题目二、解答 1、通过jar包，可以看到/user路由下有反序列化操作看到存在commons-beanutils依赖且版本为1.9.2，可利用CB链Getshell。使用ysoserial项目中的CommonsBeanutils1链写一个POC，注意确保ysoserial项目中的pom.xml中的comm…

阅读更多...

最新文章