【AIGC-数字人】V-Express:渐进式训练的数字人视频生成技术

介绍

        在人像视频生成领域,使用单张图像生成人像视频已经变得越来越普遍。一种常见的方法涉及利用生成模型来增强适配器以实现受控生成。然而,控制信号的强度可能会有所不同,包括文本、音频、图像参考、姿态、深度图等。其中,较弱的条件往往由于较强条件的干扰而难以发挥作用,这对平衡这些条件提出了挑战。在我们关于肖像视频生成的工作中,我们发现音频信号特别弱,常常被姿势和原始图像等更强的信号所掩盖。然而,用弱信号直接训练往往会导致收敛困难。为了解决这个问题,我们提出了 V-Express,这是一种通过一系列渐进式下降操作来平衡不同控制信号的简单方法。我们的方法逐渐能够通过弱条件进行有效控制,从而实现同时考虑姿势、输入图像和音频的生成能力。实验结果表明,我们的方法可以有效地生成由音频控制的肖像视频。此外,我们的方法为同时有效地使用不同强度的条件提供了潜在的解决方案。

网络结构图

网络解析

        网络主要由Reference U-Net和Denoise U-Net组成

        训练Reference U-Net主要是为主体Denoise U-Net提供参考图片的特征信息,以便生成以参考图片一致性的音频驱动图片数字人。

        Denoise U-Net两个输入,基于视频序列帧的关键点带有噪声的视频序列帧。他们都会先通过特征编码器转换为特征输入到去噪UNet中,视频序列帧通过vae编码器转换到潜在空间,与器通过V-kps引导器生成的特征做相加,作为UNET的输入;而音频的特征和参考图片的特征作为注意力机制嵌入到UNET中

DEMO

github网址:

https://github.com/tencent-ailab/V-Express/

comfyui节点地址:   

https://github.com/AIFSH/ComfyUI_V-Express

         

注意事项

截至目前官方还未公布训练代码,也没有论文 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/20174.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue.js - 生命周期与工程化开发【0基础向 Vue 基础学习】

文章目录 Vue 的生命周期Vue 生命周期的四个阶段Vue 生命周期函数(钩子函数 工程化开发 & 脚手架 Vue CLI**开发 Vue 的两种方式:**脚手架目录文件介绍项目运行流程组件化开发 & 根组件App.vue 文件(单文件组件)的三个组成…

【PyCharm】无法创建虚拟环境,提示:has no attribute CPython3macOsBrew

报错信息: AttributeError: module virtualenv.create.via_global_ref.builtin.cpython.mac_os has no attribute CPython3macOsBrew报错原因: 可能含有多个virtualenv,发生冲突了。 解决方法: 终端执行以下命令: p…

LeetCode 图-岛屿问题

图 图的基本知识基本概念图的类型相关术语 图的存储 LeetCode 相关题目岛屿问题岛屿的最大面积岛屿的周长 图的基本知识 基本概念 图的类型 无向图有向图加权图 相关术语 顶点边路径路径长度环负权环连通性顶点的度入度出度 图的存储 邻接矩阵存储:是用一个二…

豆包大模型API接入

1.安装JDK pip install volcengine 2.API接入 from volcengine.maas.v2 import MaasService maas MaasService(maas-api.ml-platform-cn-beijing.volces.com, cn-beijing) maas.set_ak(###access_key###) maas.set_sk(###secret_key###) req { "strea…

MongoDB~基本知识记录

为何要学Mongodb 工作以来,使用最多、了解最多的是MySQL。但技术的发展一定是依据痛点来的,就比如我遇到的痛点,一个业务、一个平台能力、存储的一个对象,随着产品和运营的需求,不断的进行变更,每一次的变…

真机调试 Error:系统错误,xxx exceed max limit 2MB

我们在使用微信开发者工具开发小程序、小游戏等应用时,往往会点击“真机调试”,微信扫描查看真实情况。 但是会出现下面的报错提示,是因为主包体积超过了2MB。 小程序有体积和资源加载限制,在微信小程序中,每个包不能…

obj 编程语言:深入剖析其独特之处与未来展望

obj 编程语言:深入剖析其独特之处与未来展望 obj编程语言,作为计算机编程领域的一颗璀璨明珠,以其独特的设计理念和强大的功能吸引着众多开发者的目光。本文将从四个方面、五个方面、六个方面和七个方面,对obj编程语言进行深度剖…

vue3简单快速实现主题切换功能

⛰️个人主页: 蒾酒 🔥系列专栏:《vue3实战》 目录 内容概要 实现步骤 1.定义不同主题的css样式变量 2.入口main.ts中引入这个样式文件 3.主题样式css变量引用 4.设置默认主题样式 5.实现点击按钮主题切换 总结 最近发现了一个巨牛的人工智…

【Linux-buildroot,】

Linux-buildroot, ■ buildroot■ 1、简介■ 2、下载■ 2、编译■ 问题一:buildroot 编译的时候会先从网上下载所需的软件源码,下载cmake-3.8.2.tar.gz或下载很慢的情况 ■ buildroot-构建根文件系统■ 1、配置 buildroot■ 2、■ 3、 ■ buildroot-构建…

TK防关联引流系统:全球TikTok多账号运营的神器

在TikTok的生态中,高效运营多个账号已成为品牌全球推广的必经之路。为此,TK防关联引流系统应运而生,它是一款专为TikTok设计的效率神器,助您迅速搭建并管理全球多账号矩阵。该系统由先进的“防关联智能终端”硬件和智能的“TK防关…

AI生成微信职业头像

加油,新时代打工人! 真别说,还挺好看的 https://chatglm.cn/main/alltoolsdetail

GPT-4o:免费且更快的模型

OpenAI GPT-4o 公告 OpenAI 推出了增强版 GPT-4 模型——OpenAI GPT-4o,用于支持 ChatGPT。首席技术官 Mira Murati 表示,更新后的模型速度更快,并在文本、视觉和音频处理方面有了显著提升。GPT-4o 将免费向所有用户开放,付费用户…

C++中类的访问权限及友元函数

目录 摘要 访问权限(Access Specifiers) 1. private 2. protected 3. public 友元函数(Friend Functions) 关键点 总结 摘要 C中的访问权限(Access Specifiers -- private、protected、public)和友…

shell脚本不用nohup如何在后台执行?

supervisord进程管理(go版本) 主要是托管自已的脚本 进程管理工具。 可以监听、启动、停止、重启一个或多个进程 用supervisord管理的进程,当一个进程意外被杀死,supervisord监听到进程死后,会自动将它重启,很方便的做到进程的自动恢复的功能,不在需要自己写脚本来控制 启动文…

乐高小人分类项目

数据来源 LEGO Minifigures | Kaggle 建立文件目录 BASE_DIR lego/star-wars-images/ names [YODA, LUKE SKYWALKER, R2-D2, MACE WINDU, GENERAL GRIEVOUS ] tf.random.set_seed(1)# Read information about dataset if not os.path.isdir(BASE_DIR train/):for name in …

plc scl编程语言:深度解析与应用探索

plc scl编程语言:深度解析与应用探索 在工业自动化领域,PLC(可编程逻辑控制器)扮演着至关重要的角色。而SCL(结构化控制语言)作为PLC的一种编程语言,因其强大的功能和灵活性备受青睐。本文将从…

利用 Docker 简化Redis部署:快速搭建Redis服务

利用 Docker 简化Redis部署:快速搭建Redis服务 目录 利用 Docker 简化Redis部署:快速搭建Redis服务为什么选择 Docker准备工作拉取Redis镜像快速运行Redis容器验证Redis服务总结 在现代软件开发中,Redis作为一种高性能的键值数据库&#xff0…

52 https

HTTPS是什么 https也是一个应用层协议,是在http协议的基础上引入了一个加密层 http协议内容都是按照文本的方式明文传输的,这就导致在传输过程中出现一些被篡改的情况 http和https是可以同时存在的,数据时从应用层自上往下发的&#xff0c…

简述浏览器和 Node.js 中的事件循环 ?

浏览器和Node.js中的事件循环都是用于处理异步任务和回调函数的机制,但它们在某些实现细节和用途上有所不同。下面分别对它们进行简述: 浏览器中的事件循环 目的: 浏览器事件循环是浏览器用于处理用户输入、网络请求、渲染和其他异步事件的机…

OVP、TVS、ESD二极管、稳压二极管的区别

本文介绍OVP、TVS、ESD二极管、稳压二极管简介及TVS与ESD的区别。 文章目录 一、简介1、过压保护(OVP, Over-Voltage Protection)3、稳压二极管(Zener Diode 或齐纳二极管)小结: 二、TVS&ESD的区别1、设计目标2、…