数字人项目 ER-NeRF 的使用和部署详细教程

文章目录

  • 1. ER-NeRF简介
  • 2. ER-NeRF部署
  • 3. 训练自己的数字人
  • 4. 生成数字人视频
  • 5. 其他数字人模型比较
  • 常见错误

1. ER-NeRF简介

ER-NeRF(官方链接)是一个Talking Portrait Synthesis(对嘴型)项目。即:给一段某人说话的视频,再给定一段音频,经过该模型后处理后,可将原视频的嘴型与音频保持一致。

该模型的有优点:

  • 可以做到实时响应。即模型比较小,处理速度快。

缺点:

  • 需要对“要对嘴型的视频”进行训练。也就是每段视频对应一个模型
  • 生成出的头部不够稳定。

2. ER-NeRF部署

ER-NeRF的环境要求:

  • Pytroch 1.12
  • CUDA 11.x (必须,否则pytorch3d相关的代码会报错)

部署步骤如下:

  1. 按顺序执行以下命令(一个一个执行)
# 这个知识针对pytorch的,本机的cuda不一定非要是11.6,但必须是11.x
conda install cudatoolkit=11.6 -c pytorch# 安装pytorch
pip install torch==1.12.1+cu116 torchvision==0.13.1+cu116 --index-url https://download.pytorch.org/whl/cu116# 安装pytorch3d,这一步一定要成功。否则后面处理数据会报错
pip install "git+https://github.com/facebookresearch/pytorch3d.git"# 安装tensorflow
pip install tensorflow-gpu==2.8.0# 安装一些必要的依赖
apt-get update
apt install portaudio19-dev
apt-get install ffmpeg# 克隆项目
git clone https://github.com/Fictionarry/ER-NeRF.git# 克隆项目,安装项目所需依赖
cd ER-NeRF
pip install -r requirements.txt# 重新安装protobuf,使用3.20.3版本
pip uninstall protobuf
pip install protobuf==3.20.3
  1. 下载模型。网盘链接地址,结构如下:
-- checkpoints  # 将其放在 `~/.cache/torch/hub/checkpoints` 目录下(这部可以不做,源码也会自己下载)
-- data_utils  # 将其下面的文件放在 `ER-NeRF/data_utils`对应目录下-- face_parsing-- face_tracking

3. 训练自己的数字人

如果就想用现有的模型(只有obama),可以跳转到第4节。

源码中提供了一个训练好的视频(obama)。若想训练自己的数字人模型,需要遵循以下步骤(以源码中提供的obama视频为例):

  1. 下载视频(要训练的视频片段),将其放在data目录下。以data/<ID>/<ID>.mp4明明。例如:kunkun.mp4就放在ER-NeRF/data/kunkun/kunkun.mp4
wget https://github.com/YudongGuo/AD-NeRF/blob/master/dataset/vids/Obama.mp4?raw=true -O data/obama/obama.mp4

视频要求(必须满足):① 帧率:25FPS;② 每一帧都要是人物说话;③ 分辨率:512x512;④ 时长:1-5分钟;⑤ 人物背景要稳定。

  1. 使用data_utils/process.py脚本处理视频
python data_utils/process.py data/<ID>/<ID>.mp4

这一步耗时较长,且容易出错(前面环境没配好就会导致某步出错,找出相应的环境配置,配好就行)。process.py包含多个任务,每个任务会生成若干文件,放在data/<ID>/*下面。可以根据对应的文件是否生成或日志来判断该任务是否正常完成:

  • task 1:分离视频。生成aud.wav文件。若报错,通常是ffmpeg问题。
  • task 2:生成一些音频数据,aud.npy文件。若报错,一般是protobuf版本问题。
  • task 3:提取视频中的每帧图像。生成ori_imgs/XXX.jpg文件,会有很多jpg文件。
  • task 4:分割人像(语义分割)。生成parsing/XX.png文件,会有很多png文件。
  • task 5:提取背景图像。生成bc.jpg文件。是人物的背景图片。
  • task 6:分割出身体部分与生成Ground Truth图片。生成gt_imgs/XXX.jpgtorso_imgs/XXX.png(只有躯干没有人脸的图片)。
  • task 7:获取人脸各个点位的坐标。生成ori_imgs/XXX.lms
  • task 8:获取人脸跟踪数据,这步要训练一个追踪模型,会很慢。生成track_params.pt文件。这部报错通常是pytorch3d的问题,注意cuda版本。
  • task 9:生成transformers_train.jsontransforms_val.json

如果某个任务报错,可以配置环境后使用:python data_utils/process.py data/<ID>/<ID>.mp4 --task <taskId>来重试。例如(重试任务2):python data_utils/process.py data/obama/obama.mp4 --task 2

  1. 将生成的aud.npy复制一份,改名aud_ds.npy(源码好像有点问题,所以要这么做)。

  2. 使用OpenFace生成<ID>.csv文件。具体步骤:① 下载OpenFace(Windows版本链接);② 解压文件,打卡里面的OpenFaceOffline.exe;③ Record里只勾选Record AUs 在这里插入图片描述 ;④ 打开文件,之后就开始运行。⑤ 等待运行结束,会在./processd文件夹中生成<ID>.csv文件,将其更名为au.csv。⑥ 将其放在data/<ID>/文件夹下。

  3. 训练模型,依次执行以下代码:

# 命令1:训练模型
python main.py data/obama/ --workspace trial_obama/ -O --iters 100000
# 命令2:在命令1完成后,再多训练“25000”次,微调一下lips
python main.py data/obama/ --workspace trial_obama/ -O --iters 125000 --finetune_lips --patch_size 32

trial_obama是工作路径,也就是生成的模型存放路径。运行完后会生成trial_obama文件夹,文件树如下:

-- checkpoints/  # 模型文件├── ngp_ep0013.pth  # 第13个epoch的文件(会保存最后两个epoch的文件)├── ngp_ep0014.pth└── ngp.pth   # 最终的模型文件
-- log_ngp.txt   # 训练过程中的日志文件
-- opt.txt  # 训练时传的启动参数
-- result   # 训练结果文件├── ngp_ep0014_depth.mp4└── ngp_ep0014.mp4  # 可以下载这个文件看效果
-- run/ngp/events.out.xxxxx   # 训练过程中的数据
-- validation

上面两个命令运行完后,运行下面:

python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --head_ckpt trial_obama/checkpoints/ngp.pth --iters 200000

trial_obama/checkpoints/ngp.pth 为上面生成的最终模型文件

4. 生成数字人视频

当模型生成出来后,就可以用我们自己的语音来生成视频了。需要遵循以下3步骤:

  1. 上传音频,提取音频数据(生成对应的npy文件)

例如:

python data_utils/deepspeech_features/extract_ds_features.py --input /root/demo2.wav

将demo2.wav更改为你的音频文件。执行结束后,会在同目录生成demo2.npy文件

  1. 执行模型推理,生成对口型后的视频文件。不过生成的视频没有声音。
python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --test --test_train --aud /root/demo2.npy

最后的/root/demo2.npy就是第一步生成的npy文件

  1. 将音频和视频合并起来。
ffmpeg -i /root/ER-NeRF/trial_obama_torso/results/ngp_ep0028.mp4 -i /root/demo2.wav -c:v copy -c:a aac -strict experimental /root/output.mp4

ngp_ep0028.mp4是第二步生成的视频(日志里可以看到在哪)。
demo2.wav是上传的音频。
/root/output.mp4 是你想要输出文件的路径

5. 其他数字人模型比较

模型名称推理速度单独训练优点缺点
video-retalking无需单独训练1. 部署简单
2.无需训练,可直接对任意视频使用
3.项目成熟,兼容性强
4. 包含视频处理部分,无需自行处理视频
1. 推理速度慢,无法做到实时。
2.效果不稳定,有些视频效果很差
ER-NeRF需要自主训练模型1. 模型小,推理速度快,可满足实时要求
2. 嘴型效果较好,但头部晃动严重
1. 项目不成熟,为论文源码,坑比较多
2. 兼容性较差,对部署环境要求严格
3. 数据处理与训练耗时较长,5分钟的视频大约需要1天
Wav2Lip--1. 项目成熟1. 项目太老(4年前的)



常见错误

  1. ValueError: Found array with 0 sample(s) (shape=(0, 2)) while a minimum of 1 is required by NearestNeighbors.:
Traceback (most recent call last):File "data_utils/process.py", line 417, in <module>extract_background(base_dir, ori_imgs_dir)File "data_utils/process.py", line 112, in extract_backgroundnbrs = NearestNeighbors(n_neighbors=1, algorithm='kd_tree').fit(fg_xys)File "/root/miniconda3/lib/python3.8/site-packages/sklearn/base.py", line 1152, in wrapperreturn fit_method(estimator, *args, **kwargs)File "/root/miniconda3/lib/python3.8/site-packages/sklearn/neighbors/_unsupervised.py", line 175, in fitreturn self._fit(X)File "/root/miniconda3/lib/python3.8/site-packages/sklearn/neighbors/_base.py", line 498, in _fitX = self._validate_data(X, accept_sparse="csr", order="C")File "/root/miniconda3/lib/python3.8/site-packages/sklearn/base.py", line 605, in _validate_dataout = check_array(X, input_name="X", **check_params)File "/root/miniconda3/lib/python3.8/site-packages/sklearn/utils/validation.py", line 967, in check_arrayraise ValueError(
ValueError: Found array with 0 sample(s) (shape=(0, 2)) while a minimum of 1 is required by NearestNeighbors.

原因:视频中的部分帧没有人脸。一般容易出现在视频开头或结尾。可以通过查看生成的parsing文件夹的图片进行确认。详见issus

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/808984.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux网络基础2(下)

传输层 再谈端口号端口号的划分netstatpidof UDP协议 UDP的特点UDP缓冲区UDP使用注意事项UDP报头的理解基于UDP的应用层协议 TCP协议 4位首部长度16位窗口大小确认应答机制32位序号和32位确认序号6个标记位超时重传机制连接管理机制流量控制快重传机制再谈序号延迟应答面相字节…

知识图谱与人工智能:携手共进

知识图谱与人工智能&#xff1a;携手共进 一、引言&#xff1a;知识图谱与人工智能的融合 在这个数据驱动的时代&#xff0c;知识图谱与人工智能&#xff08;AI&#xff09;之间的融合不仅是技术发展的必然趋势&#xff0c;也是推动各行各业创新的关键。知识图谱&#xff0c;作…

游戏行业科普 (二)游戏是怎么做出来,怎么卖出去的?

游戏行业科普系列文章&#xff0c;大家可以关注起来&#xff0c;等我慢慢芬分享~~ 《蛋仔派对》 一、研运流程--游戏是怎么做出来的 一款游戏的开发和运营大体上可以分为预研立项、设计开发、测试调优、发行上线和成熟运营几个阶段。 1&#xff09;预研立项&#xff1a; 初始研…

贪心算法|56.合并区间

力扣题目链接 class Solution { public:vector<vector<int>> merge(vector<vector<int>>& intervals) {vector<vector<int>> result;if (intervals.size() 0) return result; // 区间集合为空直接返回// 排序的参数使用了lambda表达…

Nginx的基本使用

目录 介绍Nginx&#xff1a; 其优点有很多&#xff1a; 如何下载Nginx&#xff1a; 下载Nginx 启动Nginx ​编辑 如何用Nginx创建网站 Nginx自带的网站 分析网页 转变ip地址为自己的网页 换内容 换文件 介绍Nginx&#xff1a; Nginx是一个高性能的HTTP和反向代理w…

如何将普通maven项目转为maven-web项目

文件-项目结构&#xff08;File-->Project Structure &#xff09; 模块-->learn&#xff08;moudle-->learn&#xff09; 选中需要添加web的moudle&#xff0c;点击加号&#xff0c;我得是learn&#xff0c;单击选中后进行下如图操作&#xff1a; 编辑路径 结果如下…

Open CASCADE学习|BrepOffsetAPI_ThruSections无法放样成Solid

目录 1、边界线&#xff08;TopoDS_Wire&#xff09;不在一个平面上时&#xff0c;无法生成Solid 2、边界线&#xff08;TopoDS_Wire&#xff09;在一个平面上时&#xff0c;可以生成Solid 3、边界线&#xff08;TopoDS_Wire&#xff09;不在一个平面上时&#xff0c;添加To…

【vue】v-model 双向数据绑定

:value&#xff1a;单向数据绑定v-model&#xff1a;双向数据绑定 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0">…

学习云计算HCIE选择誉天有什么优势?

誉天云计算课程优势实战性强 课程注重实践操作&#xff0c;通过实际案例和实验操作&#xff0c;让学员深入了解云计算的应用场景和实际操作技能。课程内容全面 涵盖所有云计算涉及的IT基础知识、服务器、存储、网络等方面的基础知识&#xff0c;开源操作系统Linux&#xff0c;开…

Python(1):认识Python并且了解一些简单函数

文章目录 一、Python的优势及其使用场景二、Python环境的安装三、Python中的变量及其命名四、Python中的注释五、一些简单常见的函数和认识ASCII表六、Python导入模块的方式 一、Python的优势及其使用场景 优点&#xff1a; 开发效率高&#xff1a;Python具有非常强大的第三方…

设计模式代码实战-工厂模式

1、问题描述 小明家有两个工厂&#xff0c;一个用于生产圆形积木&#xff0c;一个用于生产方形积木&#xff0c;请你帮他设计一个积木工厂系统&#xff0c;记录积木生产的信息。 输入案例 3 Circle 1 Square 2 Circle 1 2、工厂模式 将产品的创建过程封装在⼀个⼯⼚类中&am…

我国量子信息科技创新发展面临的挑战及建议——基于中美对比视角的分析

2024年2月&#xff0c;中国科学技术发展战略院慕慧娟博士、丁明磊研究员及光子盒顾成建一起在《科技管理研究》上发表文章——《我国量子信息科技创新发展面临的挑战及建议&#xff1a;基于中美对比视角的分析》。 在此&#xff0c;我们整理并发布这篇文章&#xff0c;欢迎感兴…

librosa.beat.beat_track()报错解决记录

在使用librosa.beat.beat_track(yy, srsr)时报错&#xff1a;AttributeError: module scipy.signal has no attribute hann&#xff0c;很奇怪的问题&#xff0c;大家好像都没有遇到这个错误&#xff1a; 很奇怪&#xff0c;这个hann明明是scipy.signal.windows里面的。。虚拟环…

OpenHarmony4.0分布式任务调度浅析

1 概述 OpenHarmony 分布式任务调度是一种基于分布式软总线、分布式数据管理、分布式 Profile 等技术特性的任务调度方式。它通过构建一种统一的分布式服务管理机制&#xff0c;包括服务发现、同步、注册和调用等环节&#xff0c;实现了对跨设备的应用进行远程启动、远程调用、…

物联网在工业中的应用是什么?——青创智通

工业物联网解决方案-工业IOT-青创智通 物联网在工业中的应用已经日益广泛&#xff0c;它为企业带来了前所未有的机会和挑战。物联网技术通过连接各种设备和系统&#xff0c;实现了数据的实时采集、分析和优化&#xff0c;从而提高了生产效率、降低了成本并提升了企业的竞争力。…

基于WEB的水库水情自动测报系统的研究与设计(论文+源码)_kaic

摘要 水情信息是水利管理最重要的基础信息&#xff0c;是水文预报、水资源管理、防汛抗旱决策的主要依据。水情自动测报系统是一个自动采集、传输、处理水情信息的实时测报系统&#xff0c;可对水库流域内的水情、水文和气象数据&#xff0c;如雨量、流量、水位等&#xff0c;实…

动态规划-入门三道题

1137. 第 N 个泰波那契数 题目描述&#xff1a; 状态表示: dp[i]表示第i个泰波那契数。 状态转移方程&#xff1a; dp[i]dp[i-3]dp[i-2]dp[i-1]。 初始化: 动态规划问题的初始化就是为了去避免初始情况下的越界问题。这里就对dp[0]0,dp[1]1,dp[2]1这样进行初始化即可&#xf…

[2024最新]PyCharm专业版安装与破解

1、下载pyCharm专业版安装包和破解包 下载链接&#xff1a;https://pan.baidu.com/s/1h-DN3G-LCpj0Wnk5HPNhqQ?pwdyyds 提取码&#xff1a;yyds 2、选择版本&#xff0c;这里我以2023.1.4专业版举例 3、开始安装 选择下一步 配置安装选项&#xff08;建议全部勾上&#xff…

PostgreSQL强势崛起,选择它还是MySQL

大家好&#xff0c;关系型数据库&#xff08;RDBMS&#xff09;作为数据管理的基石&#xff0c;自数据仓库兴起之初便扮演着核心角色&#xff0c;并在数据科学的发展浪潮中持续发挥着价值。即便在人工智能和大型语言模型&#xff08;LLM&#xff09;日益成熟的今天&#xff0c;…

嵌入式操作教程_数字信号处理_音频编解码:3-6 AAC音频解码实验

一、实验目的 了解AAC音频格式&#xff0c;掌握AAC音频解码的原理&#xff0c;并实现将AAC格式的音频解码为PCM 二、实验原理 音频编解码的主要对象是音乐和语音&#xff0c;音频的编解码格式可分为无压缩的格式、无损压缩格式、有损音乐压缩格式、有损语音压缩格式和合成算…