【大模型系列篇】数字人音唇同步模型——腾讯开源MuseTalk

之前有一期我们体验了阿里开源的半身数字人项目EchoMimicV2,感兴趣的小伙伴可跳转至《AI半身数字人开箱体验——开源项目EchoMimicV2》,今天带大家来体验腾讯开源的数字人音唇同步模型MuseTalk。

MuseTalk 是一个实时高品质音频驱动的唇形同步模型,是在 ft-mse-vae 的潜在空间中进行训练,该模型:

  1. 能够根据输入的音频修改未知的面部动作,面部区域大小为 256 x 256

  2. 支持中文、英文和日文等多种语言的音频。

  3. 在 NVIDIA Tesla V100 上支持超过 30fps 的实时推理。

  4. 支持修改面部区域中心点,这对生成结果有显著影响。

  5. 在 HDTF 数据集上训练的模型checkpoint。

MuseTalk 是在潜在空间中进行训练,其中图像由冻结的 VAE 编码,音频由冻结的 whisper-tiny 模型编码。生成网络的架构借鉴了 stable-diffusion-v1-4 的 UNet,其中音频嵌入通过交叉注意力与图像嵌入融合。

注:尽管MuseTalk使用的架构与 Stable Diffusion 非常相似,但 MuseTalk 的独特之处在于它不是一个扩散模型。相反,MuseTalk 是通过在潜在空间中单步修复来操作。

安装部署

https://github.com/TMElyralab/MuseTalk

1. 构建基础环境

Python version=3.10
Cuda version=12.4

2. 安装依赖

pip install -r requirements.txt

  mmlab packages

pip install --no-cache-dir -U openmim 
mim install mmengine 
mim install "mmcv>=2.0.1" 
mim install "mmdet>=3.1.0" 
mim install "mmpose>=1.1.0" 

 3. 安装ffmpeg-static

wget https://www.johnvansickle.com/ffmpeg/old-releases/ffmpeg-4.4-amd64-static.tar.xz
tar -xf ffmpeg-4.4-amd64-static.tar.xz
export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static

4. 安装MuseTalk权重

wget https://hf-mirror.com/TMElyralab/MuseTalk/resolve/main/musetalk/musetalk.json
wget https://hf-mirror.com/TMElyralab/MuseTalk/resolve/main/musetalk/pytorch_model.bin

5. 安装其他组件权重

  • sd-vae-ft-mse

  • whisper

  • dwpose

  • face-parse-bisent

  • resnet18

# sd-vae-ft-mse
git clone https://hf-mirror.com/stabilityai/sd-vae-ft-mse
# whisper
wget https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt
# dwpose
git clone https://hf-mirror.com/yzd-v/DWPose
# face-parse-bisent
git clone https://hf-mirror.com/ManyOtherFunctions/face-parse-bisent
# resnet18
wget https://download.pytorch.org/models/resnet18-5c106cde.pth

 模型权重路径结构

快速入门 

推理

python -m scripts.inference --inference_config configs/inference/test.yaml

configs/inference/test.yaml是推理配置文件的路径,包含视频路径(video_path)和音频路径(audio_path)。视频路径可以是视频文件、图像文件或者图像目录。 

建议输入帧率为25帧每秒的视频,这与训练模型时使用的帧率相同。如果你的视频帧率远低于25帧每秒,建议进行帧插值处理,或者直接使用ffmpeg将视频转换为25帧每秒。

使用bbox_shift来获得可调节的结果

我们发现遮罩的上边界对嘴巴张开程度有重要影响。因此,为了控制遮罩区域,建议使用bbox_shift参数。正值(朝下半部分移动)会增加嘴巴张开程度,而负值(朝上半部分移动)会减小嘴巴张开程度。

你可以先使用默认配置运行以获取可调节值的范围,然后在此范围内重新运行脚本。

例如,以孙新颖的情况为例,运行默认配置后,显示可调节值范围是[-9, 9]。然后,若要减小嘴巴张开程度,可将该值设为-7

python -m scripts.inference --inference_config configs/inference/test.yaml --bbox_shift -7

更多技术细节可在bbox_shift部分找到。

结合 MuseV和 MuseTalk

作为虚拟人物生成的完整解决方案,建议你首先参考相关内容使用“MuseV”来生成视频(文本转视频、图像转视频或姿态转视频)。建议进行帧插值以提高帧率。然后,你可以参考相关内容使用“MuseTalk”来生成唇形同步视频。 

实时推理

在此,我们提供推理脚本。该脚本会预先进行必要的预处理,如人脸检测、人脸解析以及变分自编码器(VAE)编码等操作。在推理过程中,仅涉及生成对抗网络(UNet)和变分自编码器解码器,这使得“MuseTalk”具备实时性。

python -m scripts.realtime_inference --inference_config configs/inference/realtime.yaml --batch_size 4

configs/inference/realtime.yaml是实时推理配置文件的路径,包含准备工作(preparation)、视频路径(video_path)、bbox_shift和音频片段(audio_clips)等内容。

❗️此处代码get_image_blending有些问题,我们回退这个函数。

https://github.com/TMElyralab/MuseTalk/issues/220

realtime.yaml中将preparation设为True,以便为新的虚拟形象准备素材。(如果bbox_shift发生了变化,也需要重新准备素材。)

之后,该虚拟形象将使用从音频片段中选取的一个音频片段来生成视频。

例如使用data/audio/yongen.wav进行推理。

在“MuseTalk”进行推理时,子线程可以同时将结果推送给用户。在英伟达特斯拉V100显卡上,生成过程能够达到30帧每秒及以上的帧率。

如果想使用同一个虚拟形象生成更多视频,可将preparation设为False并运行此脚本。

❗️实时推理注意事项

如果想用同一个虚拟形象/视频生成多个视频,也可以使用此脚本来大幅加快生成过程。

在前面的脚本中,生成时间也受输入/输出(例如保存图像)的限制。如果你只是想测试生成速度而不保存图像,可以运行以下命令:

python -m scripts.realtime_inference --inference_config configs/inference/realtime.yaml --skip_save_images 

启动app

#!/bin/bashecho "entrypoint.sh"
whoami
which python
source /opt/conda/etc/profile.d/conda.sh
conda activate musev
which python
python app.py
sh entrypoint.sh

效果展示

现在就让我们来体验音唇同步的魅力。

任务1:我们将之前用EchoMimicV2生成的14s视频,融合两段不同的音频。

原视频:奋斗的路漫长,爱情是甜蜜的糖,两者交织的光,把生命都照亮。

音频1:地球已经存在45亿年,人类文明的存在对于地球来说只是眨眼间的时间。人类用了几万年的时间征服地球,毁灭只用了短短的几秒钟。核辐射污染了整个地球,使地球所有生命都即将殆尽。那些幸存的人类,也许在外太空找了几十年,也没有找到适合人类居住的行星。

音频2:我见过你最爱我的样子,所以当你开始敷衍我的时候,其实我心里早就明白,只是还放不下那段曾经。 享受了工作带来的薪酬和成长,就要接纳工作带来的委屈和辛苦。 每一刻疲惫的瞬间,我想的都是好好挣钱好好生活。

任务2:我们将MuseTalk自带的人物视频,融合EchoMimicV2官方介绍的音频(视频中提取)。

下面我们来看看MuseTalk给大家带来的效果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/68329.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++基础入门(二)

目录 前言 一、重载 1.函数重载 2.运算符重载 二、构造函数 1.什么是构造函数 2.带参数的构造函数 3.使用初始化列表 4.this关键字 5.new关键字 三、析构函数 1.什么是析构函数 四、静态成员变量 1.静态成员的定义 2.静态成员变量的作用 五、继承 1.继承基本概…

基础vue3前端登陆注册界面以及主页面设计

1.下载依赖 "element-plus/icons": "^0.0.11", "element-plus/icons-vue": "^2.3.1", "fortawesome/fontawesome-svg-core": "^6.7.2", "fortawesome/free-solid-svg-icons": "^6.7.2", &quo…

Mybatis-Plus:乐观锁与悲观锁

文章目录 一、场景二、乐观锁与悲观锁三、模拟修改冲突3.1 数据库中增加商品表3.2 添加数据3.3 添加实体3.4 添加mapper3.5 测试 四、乐观锁实现流程4.1 Mybatis-Plus实现乐观锁 一、场景 一件商品,成本价是80元,售价是100元。老板先是通知小李&#xf…

卷积神经网络——食物分类

整体框架: 导入库 导入了各种必需的Python库,用于数据处理、图像读取、模型构建和训练。 设置随机种子 seed_everything: 用于设置所有随机数生成器的种子,确保每次运行时的结果都是相同的。 图像预处理(transform) 对…

Jmeter配置服务代理器 Proxy(二)

1.创建脚本记录器 2.配置:Jmeter代理、端口、记录目标等 3.配置谷歌浏览器代理 浏览器配置代理的详细教程可参考:使用whistle代理-CSDN博客 4.启动Jmeter记录器 点击ok后弹出这个界面,生成了证书: 5.给浏览器安装Jmeter代理的证书…

灰色预测and BP神经网络 (详细上手使用)

灰色预测模型 基础知识: 白色系统:系统的信息是完全明确的。 灰色系统:系统的部分信息已知,部分信息未知。 黑色系统:系统的内部信息是未知的。 灰色预测是对既含有已知信息又含有不确定信息的系统进行预则&#xf…

mac 安装 node

brew versions node // 安装 node brew versions node14 // 安装指定版本 卸载node: sudo npm uninstall npm -g sudo rm -rf /usr/local/lib/node /usr/local/lib/node_modules /var/db/receipts/org.nodejs.* sudo rm -rf /usr/local/include/node /Users/$USER/.npm su…

【Unity】unity3D 调用LoadSceneAsync 场景切换后比较暗 部门材质丢失

解决方法:两个场景使用同样灯光 现象 直接进入第二个场景是可以正常显示 调用LoadSceneAsync来切换后,第二个场景出现比较暗的情况 解决方法:两个场景使用同样灯光,在loading 的场景中加入灯光。 Light—Directional Light 如果…

红日-VulnStack靶场一

http://vulnstack.qiyuanxuetang.net/vuln/ 一、环境部署 win7(被攻击机/关火墙) web服务器 1张外网网卡(桥接192.168.1.105),一张内网网卡192.168.52.143/255.255.255.0/192.168.52.2 DNS 192.168.52.138 winser2008 域控服务器 1张…

实现linux硬盘smart检测

一、下载交叉编译libatasmart库 下载链接:https://www.linuxfromscratch.org/blfs/view/svn/general/libatasmart.html libatasmart库编译依赖libudev库,交叉编译器前先准备依赖的libudev: 设置libudev的环境变量,并通过configure编译文件生…

蓝桥杯算法|基础笔记(1)

**时间复杂度** 一、概念理解 时间复杂度是用来衡量算法运行时间随输入规模增长而增长的量级。它主要关注的是当输入规模趋向于无穷大时,算法执行基本操作的次数的增长趋势,而不是精确的运行时间。 二、分析代码中的基本操作 确定关键操作 在一段代码…

Uniapp判断设备是安卓还是 iOS,并调用不同的方法

在 UniApp 中,可以通过 uni.getSystemInfoSync() 方法来获取设备信息,然后根据系统类型判断当前设备是安卓还是 iOS,并调用不同的方法。 示例代码 export default {onLoad() {this.checkPlatform();},methods: {checkPlatform() {// 获取系…

K8S 节点选择器

今天我们来实验 pod 调度的 nodeName 与 nodeSelector。官网描述如下: 假设有如下三个节点的 K8S 集群: k8s31master 是控制节点 k8s31node1、k8s31node2 是工作节点 容器运行时是 containerd 一、镜像准备 1.1、镜像拉取 docker pull tomcat:8.5-jre8…

Multi-Agent如何设计

文章小结 研究背景和目的 在单一大语言模型长期主导人工智能领域的背景下,多智能体系统在对话任务解决中逐渐崭露头角。 虽然先前的研究已经展示了多智能体系统在推理任务和创造性工作中的潜力,但对于其在对话范式方面的局限性以及单个智能体的影响&am…

Web端实时播放RTSP视频流(监控)

一、安装ffmpeg: 1、官网下载FFmpeg: Download FFmpeg 2、点击Windows图标,选第一个:Windows builds from gyan.dev 3、跳转到下载页面: 4、下载后放到合适的位置,不用安装,解压即可: 5、配置path 复制解压后的\bin路径,配置环境变量如图: <

keepalived双机热备(LVS+keepalived)实验笔记

目录 前提准备&#xff1a; keepalived1&#xff1a; keepalived2&#xff1a; web1&#xff1a; web2&#xff1a; keepalived介绍 功能特点 工作原理 应用场景 前提准备&#xff1a; 准备4台centos&#xff0c;其中两台为keepalived&#xff0c;两台为webkeepalive…

CentOS 7 下 Nginx 的详细安装与配置

1、安装方式 1.1、通过编译方式安装 下载Nginx1.16.1的安装包 https://nginx.org/download/nginx-1.16.1.tar.gz 下载后上传至/home目录下。 1.2、通过yum方式安装 这种方式安装更简单。 2、通过编译源码包安装Nginx 2.1、安装必要依赖 sudo yum -y install gcc gcc-c sudo…

八股学习 Redis

八股学习 Redis 常见场景常见问题问题1、2示例场景缓存穿透解决方案一解决方案二 问题3示例场景缓存击穿解决方案 问题4示例场景缓存雪崩解决方案 问题5示例场景双写一致性强一致方案允许延时一致方案 问题6RDB方式AOF方式两种方式对比 问题7数据过期策略惰性删除定期删除 问题…

【全套】基于机器学习的印度森林火灾发生概率的分析与预测

【私信送源码文档】基于机器学习的印度森林火灾发生概率的分析与预测 对应的ppt 摘 要 随着全球气候变化的不断加剧&#xff0c;火灾的频发和规模逐渐增大&#xff0c;成为备受关注的问题。本文旨在提高对火灾发生概率的准确性&#xff0c;为火灾的预防和管理提供科学支持。在…

RabbitMQ中有哪几种交换机类型?

大家好&#xff0c;我是锋哥。今天分享关于【RabbitMQ中有哪几种交换机类型&#xff1f;】面试题。希望对大家有帮助&#xff1b; RabbitMQ中有哪几种交换机类型&#xff1f; 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 在RabbitMQ中&#xff0c;交换机&#xf…