【计算机视觉|人脸建模】SOFA:基于风格、由单一示例的2D关键点驱动的3D面部动画

本系列博文为深度学习/计算机视觉论文笔记,转载请注明出处

标题:SOFA: Style-based One-shot 3D Facial Animation Driven by 2D landmarks

链接:SOFA: Style-based One-shot 3D Facial Animation Driven by 2D landmarks | Proceedings of the 2023 ACM International Conference on Multimedia Retrieval

授权声明:

允许免费制作本作品全部或部分内容的数字或硬拷贝以供个人或课堂使用,前提是制作或分发副本不是为了盈利或商业利益,并且副本在首页上附有此通知和完整引用。必须尊重作者以外的其他人拥有的本作品组件的版权。允许以信用方式提取。要以其他方式复制、重新发布、发布到服务器上或重新分发到列表,需要事先获得特定许可和/或付费。从 permissions@acm.org 请求权限。

ICMR’23,2023年6月12日至15日,希腊塞萨洛尼基

© 2023年版权由所有者/作者持有。出版权由ACM授权。

ACM ISBN 979-8-4007-0178-8/23/06. . . 15.00美元

https://doi.org/10.1145/3591106.3592291

图1:我们方法的可视化结果。(a) 目标面部图像 (b) 目标关键点图 © 我们渲染的虚拟角色 (d) 真实虚拟角色 (e) 我们的纹理映射 (f) 真实纹理映射。

摘要

我们提出了一个基于2D关键点驱动的3D面部动画框架(2D landmark-driven 3D facial animation framework),无需使用3D面部数据集进行训练。我们的方法将3D面部头像分解为几何(geometry)和纹理(texture)部分。在给定2D关键点作为输入的情况下,我们的模型学习估计FLAME的参数,并将目标纹理转换为不同的面部表情。实验结果表明,我们的方法取得了显著的成果。通过使用2D关键点作为输入数据,我们的方法有潜力在获取完整RGB面部图像有困难的场景下进行部署(例如被VR头戴显示器遮挡)。

CCS概念

• 计算方法学 -> 动画

关键词

面部动画、3D头像、可塑模型

ACM参考文献格式

Pu Ching, Hung-Kuo Chu, and Min-Chun Hu. 2023. SOFA: Style-based One-shot 3D Facial Animation Driven by 2D landmarks. In International Conference on Multimedia Retrieval (ICMR '23), June 12–15, 2023, Thessaloniki, Greece. ACM, New York, NY, USA, 5 pages. https://doi.org/10.1145/3591106.3592291

1 介绍

面部动画一直是计算机图形学和计算机视觉领域中的重要任务。尽管发展了在远程会议场景中广泛使用的卡通风格虚拟角色,但为那些需要更具沉浸感和生动体验的用户提供逼真的面部动画仍然具有挑战性。根据输出的最终表示形式,面部动画可以简单地分为两类方法:基于2D和基于3D的方法。基于3D的方法可以进一步根据是否使用**参数化面部模型(parameterized facial model)**分为基于模型(model-based)和基于无模型(model-free based)的方法。

**基于2D的面部动画。**基于2D的面部动画着重于特定范围内的摄像机角度,并在给定一系列2D面部目标图像和诸如关键点等信息的情况下生成相应的2D面部图像序列。根据应用限制,基于2D的面部动画可以分为主体依赖(subject-dependent)和主体无关(subject-agnostic)的方法。

  • 主体依赖方法只能用于特定的人物。
  • 主体无关的方法大多是基于单示例设置(one-shot setting),即在给定用户的一张图像和不同模态的源信息的情况下控制目标图像。

例如

  1. Gu等人[4]将关键点图与输入图像拼接在一起,学习了一个基于变形的网络用于面部重定向。
  2. Zakharov等人[18]利用自适应实例归一化来融合关键点和原始图像特征。
  3. 为了生成高质量的面部图像,Yi等人[17]在生成器中包含了一个两阶段的精化步骤。
  4. 为了进一步利用面部控制信号,Zhao等人[19]使用局部分支来改进细粒度面部细节;
  5. Meshry等人[12]学习了一个空间布局图以产生更多信息;
  6. Tao等人[15]提出使用可变形锚点来建模复杂结构。

大量的2D面部数据集鼓励研究人员开发不同的面部解析器,例如关键点预测器(landmark predictor)面部特征分割器(landmark predictor),以便以简单的方式驱动虚拟角色。

大多数现有的基于2D的方法可以**输出正面面部的高质量图像,但无法生成不同头部姿势的面部图像。**相比之下,基于3D的方法具有更大的潜力生成不同头部姿势的面部动画。

基于3D的面部动画。3D面部动画可分为无模型和基于模型的方法,即是否使用可塑模型作为先验

  • 无模型方法[9, 13, 16]通常预先训练变分自编码器(VAE),学习一个潜在空间来压缩纹理和几何的语义信息。然后根据预训练的解码器和不同数据模态的输入(例如NIR眼睛图像或用户眼睛/嘴唇的关键点位置)驱动虚拟角色。
    • 由于以上方法是用户特定的,Cao等人[2]提出了一个框架来学习全局先验,并在不同身份条件下解码纹理和几何。
    • 无模型方法能够为不同输入数据模态学习全局潜在空间,但3D无模型方法的训练通常依赖于特定用户的大量3D面部几何和纹理数据,导致对该用户过拟合,并且泛化能力较差
  • 基于3D模型的方法通常训练一个编码器,用于给定用户的2D面部图像回归不同面部属性的参数(例如姿态、形状和表情),以及一个解码器,用于生成用户的3D面部。
    • 3DMM[1, 7]已被用作注册面部的有效方法。最近,FLAME[8]被提出用于估计控制表情、姿态和形状的参数。**先前的方法旨在回归这些参数,并使用2D面部图像重建损失作为训练目标。**基于模型的方法将几何信息压缩为低维表示,因此在最近的面部动画工作中被广泛使用。
    • Sanyal等人[8]在投影的2D关键点上使用循环一致性来实现3D面部重建,而无需使用3D面部的真值数据。Feng等人[3]考虑了纹理映射和详细位移,使用可微分渲染来训练其生成器。Medin等人[11]解决了类似于Feng的工作[3]的面部动画问题,但最终输出是一张2D图像而不是3D面部。
    • 与3D无模型方法相比,3D模型方法通常使用可微分渲染器来计算图像之间的重建损失,因此不需要3D面部几何和纹理数据的真值。然而,对于虚拟现实应用,现有的基于3D模型的方法可能会失败,因为用户的面部被头戴式显示器(HMD)遮挡,导致输入面部信息不完整

总结起来,当前的面部动画方法在数据采集和逼真度方面存在一些权衡。

  • 2D方法在数据采集和跨模态推断方面比较方便,但无法提供高度沉浸式的渲染结果。3D无模型方法提供良好的渲染结果,但受到数据采集难度的限制。
  • 3D模型方法在数据采集和渲染结果之间取得了平衡,但依赖于完整的RGB面部图像,因此在虚拟现实等遮挡环境中并不实用。

在本文中,我们采用了一个单示例设置的框架,通过用户的一张完整面部图像和面部关键点序列驱动3D面部动画

面部关键点序列可以从完整的面部图像中获取,也可以在VR场景中从部分遮挡的面部图像中获取,并辅助使用额外的NIR(近红外)图像。

我们提出的架构基于3D模型方法的概念,并且可以在不需要3D面部真值的情况下进行操作。基于提出的框架,我们进一步提出使用由关键点表示的面部表情作为风格,并通过StyleGAN生成器调整目标面部纹理映射。

实验结果表明,我们提出的方法能够在实时生成显著的面部合成结果

2 方法

图2(a)展示了我们的系统框架。

图2:总体系统框架

控制(controlling)关键点图(landmark map) L ′ L' L可以通过基于现成的关键点预测器 E L E_L EL从源面部图像 I ′ I' I(或者从捕获被部分遮挡的面部图像的额外近红外图像)中获取。

对于给定的关键点图 L ′ L' L,可以通过面部几何回归器 E R E_R ER来预测面部参数。

同时,根据之前描述的单示例设置,给定完整的用户面部图像 I 0 I_0 I0,预先训练的虚拟角色估计器 E T E_T ET用于估计用户的初始面部纹理 T 0 T_0 T0,关键点预测器 E L E_L EL被应用于获取用户的初始关键点图 L 0 L_0 L0

我们提出了一个基于风格的纹理转换器 S T S_T ST,用于根据给定的关键点图 L 0 L_0 L0 L ′ L' L,将初始面部纹理 T 0 T_0 T0变形为目标纹理 T ′ T' T,这是通过计算给定的关键点图 L 0 L_0 L0 L ′ L' L之间的残差信息 Δ S \Delta{S} ΔS得到的。

最后,对于每个源帧 I ′ I' I,结合面部参数和纹理 T ′ T' T,使用虚拟角色生成器 D A D_A DA生成最终的虚拟角色 Y Y Y

2.1 几何回归器

几何回归器(Geometry Regressor,图中 E R E_R ER

使用单视角图像直接合成整个以顶点表示的3D面部模型是一个非常复杂的问题。

受先前工作的启发,我们采用FLAME [8]作为可塑模型,它需要三种参数:

  • 姿态 θ \theta θ
  • 表情 ψ \psi ψ
  • 形状 β \beta β

来生成3D面部网格。与对整个面部进行复杂几何建模相比,使用像FLAME这样的可塑模型有一个优势,即具有较低自由度的表示,使我们能够设计一个轻量级的几何回归器 E R E_R ER来估计FLAME参数并实时生成虚拟角色。

  1. 姿态(Pose):姿态参数 θ \theta θ用来描述3D面部网格在空间中的旋转和平移。它可以控制虚拟角色的头部和脸部的朝向,从而实现不同的头部姿势和面部朝向。
  2. 表情(Expression):表情参数 ψ \psi ψ用来描述3D面部网格的面部表情,例如微笑、愤怒、悲伤等。它可以控制虚拟角色的面部表情的变化,从而实现不同的面部表情。
  3. 形状(Shape):形状参数 β \beta β用来描述3D面部网格的整体形状。它可以控制虚拟角色的面部形状的变化,从而实现不同用户的个性化特征和面部形态的变化。

除了减小模型大小,使用FLAME可塑模型使得在不需要3D真值数据的情况下生成高质量的面部网格成为可能。

值得注意的是

  1. 几何回归器 E R E_R ER仅估计姿态参数 θ ′ \theta' θ和表情参数 ψ ′ \psi' ψ
  2. 形状参数 β ′ \beta' β由虚拟角色估计器 E T E_T ET根据完整的用户面部图像 I 0 I_0 I0进行估计。

在第3.3节中,我们将展示当几何回归器 E R E_R ER不包含形状参数进行回归时效果更好。

2.2 基于风格的纹理转换器

基于风格的纹理转换器(Style-based Texture Translator,图中 S T S_T ST

基于风格的纹理转换器 S T S_T ST接收一个风格编码 Δ S \Delta{S} ΔS,它是关键点图的残差信息,用于估计动画纹理映射 T ′ T' T

  • 我们通过映射网络 M M M从2D关键点图 L ′ L' L中提取信息,输出 S ′ S' S包含主体身份和源表情的信息。
  • 类似地,映射网络 M M M被应用于2D关键点图 L 0 L_0 L0,以提取 S 0 S_0 S0,其中包含主体身份和中性表情的信息。

为了减少对主体身份的依赖并仅保留表情信息,我们将 S ′ S' S S 0 S_0 S0的残差作为风格编码,即:
Δ S = S ′ − S 0 (1) \Delta{S}=S'-S_0\tag{1} ΔS=SS0(1)
如图2(b)所示,纹理转换器 S T S_T ST N N N个编码块, { E i } i = 1 N \lbrace{E_i}\rbrace^N_{i=1} {Ei}i=1N,和 N N N个基于风格的堆叠扭曲(style-based stacked warping)块, { D i } i = 1 N \lbrace{D_i}\rbrace^N_{i=1} {Di}i=1N,组成,其中的跳跃连接(skip-connection)类似U-net架构。

在给定 Δ S \Delta{S} ΔS的条件下,每个基于风格的堆叠扭曲块 D i D_i Di将前一层的输出特征 D i + 1 D_{i+1} Di+1 E i E_i Ei作为输入。

更具体地说,每个扭曲块 D i D_i Di是一个具有调制卷积层的StyleGAN生成器,其公式为:
f D i = U p s a m p l e ( c o n v m ( D i ( f D i + 1 , f E i ) , Δ S ) ) (2) f_{D_i}=Upsample(convm(D_i(f_{D_{i+1}},f_{E_i}),\Delta{S}))\tag{2} fDi=Upsample(convm(Di(fDi+1,fEi),ΔS))(2)
请注意, f D 0 f_{D_0} fD0是最终的动画纹理映射 T ′ T' T

在第3.2节中,我们验证了将PixelShuffle [14]作为上采样过程应用,相较于使用反卷积层,可以提高细粒度生成质量。通过在不同感受野中提供风格编码,纹理转换器 S T S_T ST能够生成具有特定风格的全局表示。

2.3 虚拟角色生成器

虚拟角色生成器(Avatar generator,图中 D A D_A DA

由于我们的面部模型建立在FLAME基础上,我们可以对估计的虚拟角色应用预定义的UV映射来进行渲染。

为了提高渲染质量,我们采用了一个基于L2范数计算的照片级别损失,该损失计算了使用估计纹理和使用真实纹理渲染的面部图像之间的差异(详见第2.4节)。

此外,我们采用可微分渲染来实现所提出的纹理转换器 S T S_T ST的端到端训练。值得注意的是,在推断阶段,可以使用其他不可微分引擎来渲染估计的虚拟角色。

我们估计的3D虚拟角色在渲染过程中不受输入图像的原始摄像机角度的限制。

2.4 学习内容

在训练阶段,几何估计器 E R E_R ER和纹理转换器 S T S_T ST分别进行训练。

  • 对于几何估计器 E R E_R ER,我们最小化几何损失,定义为:
    L g = λ F L F L A M E + λ l L l (3) L_g=\lambda_FL_{FLAME}+\lambda_lL_l\tag{3} Lg=λFLFLAME+λlLl(3)

    • L F L A M E L_{FLAME} LFLAME是估计参数和真实参数之间的L2损失,即 ∣ ∣ θ ′ − θ ∣ ∣ 2 ||\theta'-\theta||^2 ∣∣θθ2 ∣ ∣ ψ ′ − ψ ∣ ∣ 2 ||\psi'-\psi||^2 ∣∣ψψ2

    • L l L_l Ll是估计网格的3D关键点与真实网格的3D关键点之间的L2损失。需要注意的是,网格的3D关键点是由FLAME提取的。

  • 对于纹理转换器 S T S_T ST,我们最小化纹理损失,定义为:
    L T = λ i L i + λ r L r + λ p L p (4) L_T=\lambda_iL_i+\lambda_rL_r+\lambda_pL_p\tag{4} LT=λiLi+λrLr+λpLp(4)

    • L i L_i Li表示估计纹理映射和真实纹理映射之间的L2损失。
    • L r L_r Lr是前面提到的照片级别损失。
    • L p L_p Lp是估计纹理映射和真实纹理映射之间的感知损失[6]。

λ F \lambda_F λF λ l \lambda_l λl λ i \lambda_i λi λ r \lambda_r λr λ p \lambda_p λp是预定义的超参数。

3 实验

3.1 实验设置

  • 数据收集。 为了证明我们的基于3D模型的方法可以在不需要3D面部真值的情况下运行,我们收集了一个包含792个视频序列的2D面部数据集,

    • 其中包含6种基本情绪(包括惊讶、害怕、厌恶、快乐、悲伤、愤怒)和12种复合面部表情(由这6种基本情绪组成),以涵盖丰富的自然表情。
    • 我们邀请了22名受试者来收集视频数据集,每个受试者执行每种表情两次。
    • 其中两位受试者的视频被用作测试集。
  • 数据处理。 对于收集到的原始视频序列,我们使用一个现成的面部检测模型[10]来裁剪每帧中的面部区域。然后,裁剪后的面部区域被调整大小为256×256,并作为我们网络的输入。

  • 训练细节。 几何估计器 E R E_R ER和纹理转换器 S T S_T ST是分别进行训练的。

    • 对于几何估计器 E R E_R ER,我们使用ResNet-18作为主干网络来提取特征,然后分别应用2个MLP分支来预测姿势和表情。在我们的实验中,我们使用Adam优化器,在学习率为0.0002的情况下,对我们的模型进行了50个epochs的训练。

    • 纹理转换器 S T S_T ST由3个编码块和3个解码块组成,通过U-net架构进行连接。在我们的实验中,我们使用Adam优化器,在学习率为0.0002的情况下,对我们的模型进行了100个epochs的训练。

3.2 纹理转换

我们将基于风格的解码块与一个基准方法进行比较,该基准方法直接使用2D卷积层融合特征。

在实践中,我们应用了相同的训练设置,除了解码器的架构。

在基准模型中,我们不是将提取的特征映射为风格编码,而是在瓶颈处将关键点特征与输出进行连接,该输出是编码器的2D特征图。

  • 在UV空间中,通常使用L1、PSNR、SSIM和FID等常见重建指标。

  • 在我们的实验中,我们发现L1、PSNR和SSIM在不同方法之间只有很小的差异,因此我们使用FID作为性能指标来展示每种方法的有效性。

表1显示了不同方法之间的定量评估,包括基准方法,我们提出的方法以及应用PixelShuffle(表示为Pix)、将剩余信息作为风格编码(表示为Res)、以及是否应用感知损失(表示为PLoss)的削减研究。

表1:纹理转换比较结果。Pix 使用PixelShuffle进行上采样,Res 将剩余信息用作风格编码,PLoss 应用感知损失。

在这里插入图片描述

我们发现,使用我们提出的基于风格的解码器可以显着改善纹理重建质量。将剩余信息作为风格编码进一步提高了视觉质量。

图3:不同方法之间的定性比较。 对于每种方法,左列是纹理映射,右列是渲染结果。

图3显示了基准模型不能很好地重建细节眼部表情,如眨眼,而我们提出的基于风格的纹理转换器可以更好地重建面部细节。此外,我们的模型轻巧,可以实现实时推理(约20 fps)。

  • 表1显示,应用感知损失在训练过程中降低了FID。
  • 图3显示,感知损失有助于保留纹理重建中的高频细节(例如皱纹或光照)。

我们还尝试了应用patch-GAN[5]损失来进一步改善视觉质量,但是FID性能大幅下降。

3.3 几何估计

我们比较了估计所有FLAME参数和只估计表情/姿势而不估计形状之间的结果。

表2:几何估计的比较(MSE ↓)

表2显示了对应的MSE(均方误差),用于衡量估计参数与真实参数之间的距离。我们可以观察到,不估计形状信息的模型表现更好。

此外,我们还比较了由FLAME获得的3D关键点的MSE,结果也显示出不估计形状信息的模型达到了更好的性能

4 结论

  • 本研究提出了一种新的框架,使用2D关键点对3D面部动画进行建模,无需使用3D面部数据集作为真值。
  • 我们提供了一种灵活的解决方案,只要可以获取2D面部关键点并提供一张完整的面部图像(单示例设置),就可以驱动3D角色。
  • 我们展示了通过使用提出的基于风格的框架,重建的角色的视觉质量优于基准方法。
  • 在未来,我们将验证基于不同控制输入的提出框架,并证明该模型的泛化能力。

参考文献

[1] Volker Blanz和Thomas Vetter. 1999. 用于合成3D面部的可塑模型。《计算机图形学与交互技术年会论文集》。

[2] Chen Cao,Tomas Simon,Jin Kyu Kim,Gabe Schwartz,Michael Zollhoefer,ShunSuke Saito,Stephen Lombardi,Shih-En Wei,Danielle Belko,Shoou-I Yu等。2022年。来自手机扫描的真实体积化身。《ACM图形学交易》(TOG)(2022)。

[3] Yao Feng,Haiwen Feng,Michael J Black和Timo Bolkart。2021年。从野外图像中学习可动画的详细3D面部模型。《ACM图形学交易》(ToG)(2021)。

[4] Kuangxiao Gu,Yuqian Zhou和Thomas Huang。2020年。Flnet:基于关键点的忠实对话面部动画综合的学习网络。《人工智能AAAI会议论文集》。

[5] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou和Alexei A Efros。2017年。条件对抗网络的图像到图像转换。CVPR(2017)。

[6] Justin Johnson,Alexandre Alahi和Li Fei-Fei。2016年。用于实时风格转换和超分辨率的感知损失。《欧洲计算机视觉会议论文集》。斯普林格。

[7] Reinhard Knothe,Brian Amberg,Sami Romdhani,Volker Blanz和Thomas Vetter。2011年。面部形态模型。《人脸识别手册》。斯普林格。

[8] Tianye Li,Timo Bolkart,Michael J Black,Hao Li和Javier Romero。2017年。从4D扫描中学习面部形状和表情模型。《ACM图形学交易》(2017)。

[9] Stephen Lombardi,Jason Saragih,Tomas Simon和Yaser Sheikh。2018年。面部渲染的深度外观模型。《ACM图形学交易》(ToG)(2018)。

[10] Camillo Lugaresi,Jiuqiang Tang,Hadon Nash,Chris McClanahan,Esha Uboweja,Michael Hays,Fan Zhang,Chuo-Ling Chang,Ming Guang Yong,Juhyun Lee等。2019年。Mediapipe:构建感知管道的框架。arXiv预印本arXiv:1906.08172(2019)。

[11] Safa C Medin,Bernhard Egger,Anoop Cherian,Ye Wang,Joshua B Tenenbaum,Xiaoming Liu和Tim K Marks。2022年。MOST-GAN:用于解缠面部图像操作的3D可塑StyleGAN。《AAAI人工智能会议论文集》。

[12] Moustafa Meshry,Saksham Suri,Larry S Davis和Abhinav Shrivastava。2021年。学习用于少样本说话头合成的空间表示。《IEEE / CVF计算机视觉国际会议论文集》。

[13] Alexander Richard,Colin Lea,Shugao Ma,Jurgen Gall,Fernando De la Torre和Yaser Sheikh。2021年。编解码器角色的音频和凝视驱动面部动画。《IEEE / CVF冬季计算机视觉应用会议论文集》。

[14] Wenzhe Shi,Jose Caballero,Ferenc Huszár,Johannes Totz,Andrew P Aitken,Rob Bishop,Daniel Rueckert和Zehan Wang。2016年。使用高效子像素卷积神经网络的实时单图像和视频超分辨率。《IEEE计算机视觉和模式识别会议论文集》。

[15] Jiale Tao,Biao Wang,Borun Xu,Tiezheng Ge,Yuning Jiang,Wen Li和Lixin Duan。2022年。具有可变形锚模型的结构感知运动转移。《IEEE / CVF计算机视觉与模式识别会议论文集》。

[16] Shih-En Wei,Jason Saragih,Tomas Simon,Adam W Harley,Stephen Lombardi,Michal Perdoch,Alexander Hypes,Dawei Wang,Hernan Badino和Yaser Sheikh。2019年。VR面部动画通过多视角图像转换。《ACM图形学交易》(TOG)(2019)。

[17] Zili Yi,Qiang Tang,Vishnu Sanjay Ramiya Srinivasan和Zhan Xu。2020年。通过变形实现动画:高质量面部表情动画的高效方法。《多媒体ACM国际会议论文集》。

[18] Egor Zakharov,Aliaksandra Shysheya,Egor Burkov和Victor Lempitsky。2019年。逼真的神经说话头模型的少样本对抗学习。《IEEE / CVF国际计算机视觉会议论文集》。

[19] Ruiqi Zhao,Tianyi Wu和Guodong Guo。2021年。面部图像动画的稀疏到密集运动转移。《IEEE / CVF国际计算机视觉会议论文集》。

REFERENCES

[1] Volker Blanz and Thomas Vetter. 1999. A morphable model for the synthesis of 3D faces. In Proceedings of the 26th annual conference on Computer graphics and interactive techniques.

[2] Chen Cao, Tomas Simon, Jin Kyu Kim, Gabe Schwartz, Michael Zollhoefer, Shun-Suke Saito, Stephen Lombardi, Shih-En Wei, Danielle Belko, Shoou-I Yu, et al. 2022. Authentic volumetric avatars from a phone scan. ACM Transactions on Graphics (TOG) (2022).

[3] Yao Feng, Haiwen Feng, Michael J Black, and Timo Bolkart. 2021. Learning an animatable detailed 3D face model from in-the-wild images. ACM Transactions on Graphics (ToG) (2021).

[4] Kuangxiao Gu, Yuqian Zhou, and Thomas Huang. 2020. Flnet: Landmark-driven fetching and learning network for faithful talking facial animation synthesis. In Proceedings of the AAAI conference on artificial intelligence.

[5] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. 2017. Image-to-Image Translation with Conditional Adversarial Networks. CVPR (2017).

[6] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. 2016. Perceptual losses for real-time style transfer and super-resolution. In European conference on computer vision. Springer.

[7] Reinhard Knothe, Brian Amberg, Sami Romdhani, Volker Blanz, and Thomas Vetter. 2011. Morphable Models of Faces. In Handbook of Face Recognition. Springer.

[8] Tianye Li, Timo Bolkart, Michael J Black, Hao Li, and Javier Romero. 2017. Learning a model of facial shape and expression from 4D scans. ACM Trans. Graph. (2017).

[9] Stephen Lombardi, Jason Saragih, Tomas Simon, and Yaser Sheikh. 2018. Deep appearance models for face rendering. ACM Transactions on Graphics (ToG) (2018).

[10] Camillo Lugaresi, Jiuqiang Tang, Hadon Nash, Chris McClanahan, Esha Uboweja, Michael Hays, Fan Zhang, Chuo-Ling Chang, Ming Guang Yong, Juhyun Lee, et al. 2019. Mediapipe: A framework for building perception pipelines. arXiv preprint arXiv:1906.08172 (2019).

[11] Safa C Medin, Bernhard Egger, Anoop Cherian, Ye Wang, Joshua B Tenenbaum, Xiaoming Liu, and Tim K Marks. 2022. MOST-GAN: 3D morphable StyleGAN for disentangled face image manipulation. In Proceedings of the AAAI Conference on Artificial Intelligence.

[12] Moustafa Meshry, Saksham Suri, Larry S Davis, and Abhinav Shrivastava. 2021. Learned Spatial Representations for Few-shot Talking-Head Synthesis. In Proceedings of the IEEE/CVF International Conference on Computer Vision.

[13] Alexander Richard, Colin Lea, Shugao Ma, Jurgen Gall, Fernando De la Torre, and Yaser Sheikh. 2021. Audio-and gaze-driven facial animation of codec avatars. In Proceedings of the IEEE/CVF winter conference on applications of computer vision.

[14] Wenzhe Shi, Jose Caballero, Ferenc Huszár, Johannes Totz, Andrew P Aitken, Rob Bishop, Daniel Rueckert, and Zehan Wang. 2016. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network. In Proceedings of the IEEE conference on computer vision and pattern recognition.

[15] Jiale Tao, Biao Wang, Borun Xu, Tiezheng Ge, Yuning Jiang, Wen Li, and Lixin Duan. 2022. Structure-Aware Motion Transfer with Deformable Anchor Model. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.

[16] Shih-En Wei, Jason Saragih, Tomas Simon, Adam W Harley, Stephen Lombardi, Michal Perdoch, Alexander Hypes, Dawei Wang, Hernan Badino, and Yaser Sheikh. 2019. VR facial animation via multiview image translation. ACM Transactions on Graphics (TOG) (2019).

[17] Zili Yi, Qiang Tang, Vishnu Sanjay Ramiya Srinivasan, and Zhan Xu. 2020. Animating through warping: An efficient method for high-quality facial expression animation. In Proceedings of the 28th ACM international conference on multimedia.

[18] Egor Zakharov, Aliaksandra Shysheya, Egor Burkov, and Victor Lempitsky. 2019. Few-shot adversarial learning of realistic neural talking head models. In Proceedings of the IEEE/CVF international conference on computer vision.

[19] Ruiqi Zhao, Tianyi Wu, and Guodong Guo. 2021. Sparse to dense motion transfer for face image animation. In Proceedings of the IEEE/CVF International Conference on Computer Vision.
Few-shot adversarial learning of realistic neural talking head models. In Proceedings of the IEEE/CVF international conference on computer vision.

[19] Ruiqi Zhao, Tianyi Wu, and Guodong Guo. 2021. Sparse to dense motion transfer for face image animation. In Proceedings of the IEEE/CVF International Conference on Computer Vision.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/16156.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jmeter压力测试指标解释

目录 RT(response time) Throughput 吞吐量 并发用户数 QPS (query per seconds) TPS (transition per seconds) PV和UV 聚合报告: RT(response time) 什么是RT? RT就是指系统在接收到请求和做出相应这段时间跨度 但是值得一提的是RT的值越高,并不真的就能…

什么是云原生和 CNCF?

一、CNCF简介 CNCF:全称Cloud Native Computing Foundation(云原生计算基金会),成立于 2015 年 12 月 11 日,是一个开源软件基金会,它致力于云原生(Cloud Native)技术的普及和可持续…

Klipper seria.c 文件代码分析

一. 前言 Klipper 底层硬件的串口模块程序写的是否正确是决定下位机与上位机能否正常通信的前提,如果这个文件的驱动没写好,那上位机控制下位机就无从谈起,更无法通过上位机去验证下位机程序的正确性。 本篇博文将详细解析 Klipper src 文件夹…

809协议

809协议 目录概述需求: 设计思路实现思路分析1.809协议数据流——链路管理类 参考资料和推荐阅读 Survive by day and develop by night. talk for import biz , show your perfect code,full busy,skip hardness,make a better result,wait for change,…

在idea中添加try/catch的快捷键

在idea中添加try/catch的快捷键 在idea中添加try/catch的快捷键 ctrlaltt 选中想被try/catch包围的语句,同时按下ctrlaltt, 出现下图 选择try/catch即可。

Elasticsearch搜索引擎系统入门

目录 【认识Elasticsearch】 Elasticsearch主要应用场景 Elasticsearch的版本与升级 【Elastic Stack全家桶】 Logstash Kibana Beats Elasticsearch在日志场景的应用 Elasticsearch与数据库的集成 【安装Elasticsearch】 安装插件 安装Kibana 安装Logstash 【认…

C# 2的幂

231 2的幂 给你一个整数 n,请你判断该整数是否是 2 的幂次方。如果是,返回 true ;否则,返回 false 。 如果存在一个整数 x 使得 n 2x ,则认为 n 是 2 的幂次方。 示例 1: 输入:n 1 输出&a…

【图论】三种中心性 —— 特征向量、katz 和 PageRank

维基百科:在图论和网络分析中,中心性指标为图中相应网络位置的节点分配排名或数值。中心性这一概念最初起源于社交网络分析,因此很多衡量中心性的术语也反映了其社会学背景。 不同中心性指标对 “重要” 的衡量方式不同,因此适用于…

惊喜!1行Python代码,瞬间测你工作量,分享一个统计代码行数的神器

大家好,这里是程序员晚枫。 **你想不想知道一个项目中,自己写了多少行代码?**我用今天的工具统计了一下开源项目:python-office的代码行数,竟然有21w行! 我们一起看一下怎么用最简单的方法,统…

mac下安装vue cli脚手架并搭建一个简易项目

目录 1、确定本电脑下node和npm版本是否为项目所需版本。 2、下载vue脚手架 3、创建项目 1、下载node。 如果有node,打开终端,输入node -v和npm -v , 确保node和npm的版本,(这里可以根据自己的需求去选择,如果对最新版本的内容有…

IO进程线程day3(2023.7.31)

一、Xmind整理&#xff1a; 文件描述符概念&#xff1a; 二、课上练习&#xff1a; 练习1&#xff1a;用fread和fwrite实现文件拷贝 #include <stdio.h> #include <string.h> #include <stdlib.h> #include <head.h> int main(int argc, const char…

什么叫前后端分离?为什么需要前后端问题?解决了什么问题?

单体架构出现的问题 引出&#xff1a;来看一个单体项目架构的结构 通过上述可以看到单体架构主要存在以下几点问题&#xff1a; 开发人员同时负责前端和后端代码开发&#xff0c;分工不明确开发效率低前后端代码混合在一个工程中&#xff0c;不便于管理对开发人员要求高(既会前…

千元内合板和单板吉他怎么选?SAGA萨伽SF600和VEAZEN费森CLR300怎么样?哪一款更适合初学者入门使用!【吉他评测】

对于预算不多的朋友&#xff0c;在选购前翻阅查询很多资料&#xff0c;吉他材质、桶型和尺寸等等疑问&#xff0c;不知道怎么选&#xff0c;无从下手&#xff0c;还容易遇到烧火棍&#xff0c;在这里介绍这两款VEAZEN费森CLR300&#xff08;单板&#xff09;和SAGA萨伽SF600&am…

vuejs源码阅读之代码生成器

代码生成器是模版编译的最后以后&#xff0c;它的作用是将AST转换成渲染函数中的内容&#xff0c;这个内容可以称为代码字符串。 代码字符串可以被包装在函数中执行&#xff0c;这个函数就是我们通常说的渲染函数。 渲染函数被执行之后&#xff0c;可以生成一份VNode&#xf…

分治法 Divide and Conquer

1.分治法 分治法&#xff08;Divide and Conquer&#xff09;是一种常见的算法设计思想&#xff0c;它将一个大问题分解成若干个子问题&#xff0c;递归地解决每个子问题&#xff0c;最后将子问题的解合并起来得到整个问题的解。分治法通常包含三个步骤&#xff1a; 1. Divid…

【Python系列】Python基础语法轻松入门—从变量到循环

目录 写在前面 语法介绍 变量 数据类型 整数 浮点数 字符串 列表 元组 字典 运算符 算术运算符 比较运算符 逻辑运算符 条件语句 循环语句 图书推荐 图书介绍 参与方式 中奖名单 写在前面 Python 是一种高级、解释型的编程语言&#xff0c;具有简单易学…

华为数通HCIP-IGMP(网络组管理协议)

IGMP&#xff08;网络组管理协议&#xff09; 作用&#xff1a;维护、管理最后一跳路由器以及组播接收者之间的关系&#xff1b; 应用&#xff1a;最后一跳路由器以及组播接收者之间&#xff1b; 原理&#xff1a;当组播接收者需要接收某个组别的流量时&#xff0c;会向最后…

Yolov8新版本解读:优化点如何加入新版本,通过加入EMA注意力进行对比说明

本文目的: 最近yolov8进行了一次较大的更新,对一些优化点加在哪个位置上有些变动,因此本文主要通过具体案列进行对比和说明,以便在新版本上能够轻松上手。 老版本 ultralytics/nn 新版本更新为: modules文件夹下内容如下: 解读: 将modules.py拆分为 1.__init__.…

7.31--Day01实战单体项目苍穹外卖

总结 今天回来在高铁上构想了一下&#xff0c;感觉大二有很多的事情要做&#xff0c;这个暑假还有一个月不能浪费了&#xff0c;回来最重要的事情就是看病了&#xff0c;身体一定要调养好了&#xff0c;大二的规划&#xff0c;大二上继续做省大创&#xff0c;需要做的有软件开…

vue表单筛选

目录 筛选 HTML scss* filterComp 排序 表格 自定义数据样式 inner-table 分页 删除 default-modal 自定义元素的插槽-占位符 .search-wrap {height: 60px;display: flex;align-items: center;overflow: hidden;padding: 0 20px;.selected-options-wrap {flex: 1;.…