只需15分钟,就能训练高质量,个性化数字人大模型。由浙江大学与字节跳动联合推出MimicTalk算法,目前已开源。
在外表和说话风格上和真人相似。将通用3D数字人大模型适应到单个目标人,采用动静结合的高效微调方案,首次实现了高效率个性化精品数字人视频合成。
MimicTalk是浙江大学和字节跳动共同研发推出基于NeRF(神经辐射场)技术,能在极短的时间内,仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。
MimicTalk的核心在于其高效的微调策略和上下文学习能力。传统的个性化数字人生成往往依赖小型模型逐一训练,不仅耗时长,且对于数据量和样本质量的要求过高。而现有的大型通用3D数字人模型虽能快速生成数字人,但在外表相似度和说话风格模仿上屡有不足。MimicTalk通过结合这两者的优势,实现了前所未有的突破。
官网下载源文件
GitHub:GitHub - yerfor/MimicTalk: MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes; NeurIPS 2024; Official code
下载3DMM BFM(人脸模型)
百度网盘地址:https://pan.baidu.com/share/init ... uxxblQ&pwd=m9q5
在项目内的文件结构如下
deep_3drecon/BFM/
├── 01_MorphableModel.mat
├── BFM_exp_idx.mat
├── BFM_front_idx.mat
├── BFM_model_front.mat
├── Exp_Pca.bin
├── facemodel_info.mat
├── index_mp468_from_mesh35709.npy
└── std_exp.txt
下载预训练模型
https://pan.baidu.com/share/init ... qsThUg&pwd=mimi
在项目内的文件结构如下:
checkpoints/
├── mimictalk_orig
│ └── os_secc2plane_torso
│ ├── config.yaml
│ └── model_ckpt_steps_100000.ckpt
|-- 240112_icl_audio2secc_vox2_cmlr
│ ├── config.yaml
│ └── model_ckpt_steps_1856000.ckpt
└── pretrained_ckpts
└── mit_b0.pth
checkpoints_mimictalk/
└── German_20s
├── config.yaml
└── model_ckpt_steps_10000.ckpt
启动Gradio WebUI
python inference/app_mimictalk.py
在浏览器中访问:
网页中上传资源,点击Training按钮训练针对特定人的 MimicTalk 模型,然后点击Generate按钮对任意音频和风格进行推理:
MimicTalk 训练命令
python inference/train_mimictalk_on_a_video.py --video_id data/raw/videos/German_20s.mp4 --max_updates 2000 --work_dir checkpoints_mimictalk/German_20s
MimicTalk 推理命令
python inference/mimictalk_infer.py --drv_aud data/raw/examples/金双石男.mp3 --drv_pose data/raw/examples/German_20s.mp4 --drv_style data/raw/examples/German_20s.mp4 --bg_img data/raw/examples/bg.png --out_name output.mp4 --out_mode final
看效果:
我们也可以定制自己的数字人,我用自己的形象做了一个,经过1.2万次训练,历时14个小时,看效果:
查看数字人训练细节:https://www.jinshuangshi.com/forum.php?mod=viewthread&tid=879&extra=page%3D1
参考:
15分钟打造个性化数字人,MimicTalk算法引领AI新潮流_训练_技术_模型
中文说明文档
MimicTalk/README-zh.md at main · yerfor/MimicTalk · GitHub
项目官网:
MimicTalk: Mimicking a personalized and expressive 3D talking face in few minutes