15分钟训练数字人MimicTalk

只需15分钟，就能训练高质量，个性化数字人大模型。由浙江大学与字节跳动联合推出MimicTalk算法，目前已开源。
在外表和说话风格上和真人相似。将通用3D数字人大模型适应到单个目标人，采用动静结合的高效微调方案，首次实现了高效率个性化精品数字人视频合成。

MimicTalk是浙江大学和字节跳动共同研发推出基于NeRF(神经辐射场)技术，能在极短的时间内，仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。
MimicTalk的核心在于其高效的微调策略和上下文学习能力。传统的个性化数字人生成往往依赖小型模型逐一训练，不仅耗时长，且对于数据量和样本质量的要求过高。而现有的大型通用3D数字人模型虽能快速生成数字人，但在外表相似度和说话风格模仿上屡有不足。MimicTalk通过结合这两者的优势，实现了前所未有的突破。

官网下载源文件
GitHub：GitHub - yerfor/MimicTalk: MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes; NeurIPS 2024; Official code

下载3DMM BFM（人脸模型）
百度网盘地址：https://pan.baidu.com/share/init ... uxxblQ&pwd=m9q5
在项目内的文件结构如下
deep_3drecon/BFM/
├── 01_MorphableModel.mat
├── BFM_exp_idx.mat
├── BFM_front_idx.mat
├── BFM_model_front.mat
├── Exp_Pca.bin
├── facemodel_info.mat
├── index_mp468_from_mesh35709.npy
└── std_exp.txt

下载预训练模型
https://pan.baidu.com/share/init ... qsThUg&pwd=mimi
在项目内的文件结构如下：
checkpoints/
├── mimictalk_orig
│ └── os_secc2plane_torso
│    ├── config.yaml
│    └── model_ckpt_steps_100000.ckpt
|-- 240112_icl_audio2secc_vox2_cmlr
│    ├── config.yaml
│    └── model_ckpt_steps_1856000.ckpt
└── pretrained_ckpts
└── mit_b0.pth

checkpoints_mimictalk/
└── German_20s
├── config.yaml
└── model_ckpt_steps_10000.ckpt

启动Gradio WebUI
python inference/app_mimictalk.py

在浏览器中访问：

网页中上传资源，点击Training按钮训练针对特定人的 MimicTalk 模型，然后点击Generate按钮对任意音频和风格进行推理：

MimicTalk 训练命令
python inference/train_mimictalk_on_a_video.py --video_id data/raw/videos/German_20s.mp4 --max_updates 2000 --work_dir checkpoints_mimictalk/German_20s

MimicTalk 推理命令
python inference/mimictalk_infer.py --drv_aud data/raw/examples/金双石男.mp3 --drv_pose data/raw/examples/German_20s.mp4 --drv_style data/raw/examples/German_20s.mp4 --bg_img data/raw/examples/bg.png --out_name output.mp4 --out_mode final

看效果：

我们也可以定制自己的数字人，我用自己的形象做了一个，经过1.2万次训练，历时14个小时，看效果：

查看数字人训练细节：https://www.jinshuangshi.com/forum.php?mod=viewthread&tid=879&extra=page%3D1

参考：
15分钟打造个性化数字人，MimicTalk算法引领AI新潮流_训练_技术_模型

中文说明文档
MimicTalk/README-zh.md at main · yerfor/MimicTalk · GitHub
项目官网：
MimicTalk: Mimicking a personalized and expressive 3D talking face in few minutes

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/888693.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！