Diffusion Models专栏文章汇总:入门与实战
前言:目前音频驱动大部分的论文和数据都是围绕英文输入驱动打造的,应用在东亚人和国语上效果有所降低。与英语相比,普通话中复杂的嘴唇动作使模型训练更加复杂。这篇博客介绍京东提出的数字人技术《JoyHallo: Digital human model for Mandarin》
目录
贡献概述
方法详解
关键组件
半解耦结构
数据集
代码
贡献概述
在音频驱动的视频生成中,创建普通话视频带来了重大挑战。收集全面的普通话数据集是困难的,与英语相比,普通话中复杂的嘴唇动作使模型训练更加复杂。在这项研究中,我们收集了29
京东健