[CVPR-24] HUGS: Human Gaussian Splats

  • 本文提出一种新的数字人表征Human Gaussian Splats (HUGS),可以实现新姿态和新视角生成;
  • 本文提出一种新的前向形变模块(forward deformation module),在标定空间基于Gaussians表征数字人,并基于LBS学习如何驱动数字人;
  • HUGS从50-100帧单目视频中创建数字人,经过30分钟训练,可在高分辨率下实现60FPS渲染;
  • HUGS在NeuMan、ZJU-Mocap数据集上实现sota重建质量。

方法

Prelimiaries

  • SMPL是一种人体先验模型,可实现人体形状和姿态控制。
  • 形式上,SMPL定义了静止姿态(例如,T-Pose)下的人体网格(\bar{T}, F)。其中,\bar{T} \in \mathbb{R}^{n_v \times 3}n_v个顶点,F \in \mathbb{N}^{n_t \times 3}n_t个具有固定拓扑关系的三角面片。给定形状系数\beta \in \mathbb{R}^{|\beta|}和姿态系数\theta \in \mathbb{R}^{3n_k + 3},SMPL在静止姿态下将顶点转换为某种形状下的坐标:T_S(\beta, \theta) = \bar{T} + B_S(\beta) + B_P(\theta)。其中,T_S(\beta, \theta)表示某种形状下的顶点坐标,B_S(\beta) \in \mathbb{R}^{n_v \times 3}B_P(\theta) \in \mathbb{R}^{n_v \times 3}表示形状和姿态导致的位移偏差。
  • SMPL使用n_k个预定义关节点和对应Linear Blend Skinning (LBS),驱动人体网格到特定姿态。LBS系数W \in \mathbb{R}^{n_k \times n_v}由SMPL定义。给定静止姿态下的第i个顶点p_i \in \mathbb{R}^3和关节点配置(世界坐标下的旋转和位移矩阵)G=[G_1, ..., G_{n_k}],其中G_k \in SE(3),根据姿态形变后的顶点坐标为v_i = (\sum^{n_k}_{k=1} W_{k, i}G_k)p_i,其中W_{k, i} \in \mathbb{R}表示第k个关节点对第i个顶点的LBS权重。

Human Gaussian Splats

给定T张图片和对应的相机位姿,HUGS首先使用4DHumans估计SMPL的姿态系数\theta_1, ..., \theta_T和形状系数\beta。本文通过3D Gaussians表征人体,并使用学习到的LBS系数驱动Gaussians。通过训练,本文输出Gaussian的位置、旋转、缩放、颜色和LBS系数。整体框架如下图所示:

HUGS通过一个triplane F \in \mathbb{R}^{3 \times h \times w \times d}和三个MLPs构造标定空间下的人体。

渲染

  • 首先根据第i个Human Gaussians的中心点坐标\mu_i,从triplane中插值得到特征f^i
  • 使用外观MLP D_A预测RGB颜色和不透明度;
  • 使用几何MLP D_G预测中心位置残差\Delta {\mu_i},旋转矩阵R_i和缩放系数S_i
  • 使用形变MLP D_D预测LBS权重W_i \in \mathbb{R}^{n_k}
  • 最终,基于WG变化Human Gaussians,与Scene Gaussians一起渲染为图片。

优化

  • 优化参数包括Gaussians中心位置\mu,triplane和三个MLPs。
  • 渲染图像和GT计算\mathcal{L}_1损失,SSIM损失\mathcal{L}_{ssim}和感知损失\mathcal{L}_{vgg}。本文同时渲染仅有人像的图片,并同样适用上述损失做监督。
  • 对学习到的LBS权重施加约束,让LBS权重与SMPL的原始LBS权重尽可能保持接近。具体来说,对任意Gaussians,本文检索其最近的k=6个SMPL顶点,使用距离为权重的加权平均得到监督LBS系数\hat{W}。约束损失为\mathcal{L}_{LBS} = ||W-\hat{W}||^2_F
  • HUGS的整体损失为:

  • 其中\lambda_1=0.8, \lambda_2=0.2, \lambda_3=1.0, \lambda_4=1000。使用Adam优化器,学习率为10^{-3}和cosing lr schedule

初始化

  • Gaussians中心\mu初始化在静止姿态下的SMPL顶点;
  • 预训练feature triplane和MLPs,让他们输出RGB颜色为[0.5, 0.5, 0.5],不透明度o=0.1,位置偏移量\Delta\mu=0,让旋转矩阵对齐顶点向量,放缩系数是平均变长,LBS权重与SMPL顶点权重一致。预训练需要5000轮(在3090Ti GPU上仅需1分钟)。
  • HUGS将SMPL上采样得到n_v=110,210个顶点和n_t = 220, 416个面片。
  • 优化过程中,每600iter基于梯度和不透明度做clone, split和prune。完整优化为12K轮,在3090Ti GPU上大约30分钟。
  • 最终每个数字人平均由200K个Gaussians表征。

实验

  • 数据集:NeuMan Dataset、ZJU-MoCap Dataset;
  • 比较方法:定性分析(Vid2Avatar、NeuMan),定量分析(NeRF-T、HyperNeRF、NeuMan、Vid2Avatar)
  • 量化指标:PSNR、SSIM和LPIPS

定量与定性分析

消融实验

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/18801.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

秘钥托管技术简介

目录 前言 一、秘钥托管是什么? 二、秘钥托管技术简介 1. Skipjack算法 2. LEAF产生过程示意图 3. 对加密通信的法律实施存取过程 总结 前言 1993年4月,美国政府为了满足其电信安全、公众安全和国家安全,提出了托管加密标准EES (escro…

Aria2下载安装使用

目录 下载Aria2 配置创建 aria2.conf 文件创建 aria2.session 文件 Aria2的使用基础使用多源下载多线程下载后台下载配置文件启动 AriaNg下载安装AriaNg配置AriaNg使用 Tracker 列表 aria2 是一款免费开源跨平台且不限速的多线程下载软件,其优点是速度快、体积小、资…

慧尔智联携纷享销客启动CRM项目 推进客户经营升级与内外高效协作

智慧农业领军企业慧尔智联携手纷享销客,启动CRM客户经营管理系统项目。双方将深入合作,全面落实慧尔智联发展策略,持续提升数字化经营管理水平,实现内部团队信息化高效协作,以快速响应市场需求,提升客户满意…

开源集运wms系统

集运WMS系统是一种专为集运业务设计的仓库管理系统,它能够高效地处理来自多个来源的货物,优化存储和发货流程。 经过长时间的开发和测试,推出了我的集运WMS系统。它不仅具备传统WMS系统的所有功能,还针对集运业务的特点进行了特别…

HNU-计算机体系结构-小班讨论-GoogleTPU的发展历程与思考

因为对GPU比较感兴趣,故选择这个作为汇报课题。

JEPaaS 低代码平台 accessToTeanantInfo SQL注入漏洞复现

0x01 产品简介 JEPaaS低代码开发平台开源版 旨在帮助企业快速实现信息化和数字化转型。该平台基于可视化开发环境,让软件开发人员和业务用户通过直观的可视化界面来构建应用程序 ,而不是传统的编写代码方式。 用户可以在开发平台灵活各个图形化控件,以构建业务流程、逻辑和…

智能合约革命:Web3引领智能化商业的未来

随着区块链技术的日益成熟和普及,智能合约作为其重要应用之一,正在逐渐改变着商业世界的面貌。Web3作为下一代互联网的代表,以其去中心化、加密安全的特性,为智能合约的发展提供了无限可能,将智能合约应用于商业领域的…

使用控制台方式部署sentinel

1.下载控制台jar包 2.运行jar包 java -jar sentinel-dashboard-1.8.0.jar 也可以通过编写批处理文件指定端口、用户名、密码: 客户端添加依赖(后续整合springcloudalibaba时不需要此依赖) 如修改了sentinel端口,需要添加客户端运…

Springboot项目搭建 jdk1.8

1.idea创建项目 2.项目配置 maven 编辑项目编码 删除无用文件 修改配置文件后缀,设置数据库 spring:datasource:driver-class-name: com.mysql.cj.jdbc.Driverurl:jdbc:mysql://localhost:3306/honey2024?useSSLfalse&useUnicodetrue&characterEncodingUT…

AI绘画Stable Diffusion XL 可商用模型!写实艺术时尚摄影级真实感大模型推荐(附模型下载)

大家好,我是设计师阿威 大家在使用AI绘画的时候,是不是遇到这种问题:收藏的模型确实很多,可商用的没几个,而今天阿威将给大家带来的这款写实艺术时尚摄影级真实感大模型-墨幽人造人XL, 对于个人来讲完全是…

Springboot事务控制中A方法调用B方法@Transactional生效与不生效情况实战总结

介绍 本篇对Springboot事务控制中A方法调用B方法Transactional生效与不生效情况进行实战总结,让容易忘记或者困扰初学者甚至老鸟的开发者,只需要看这一篇文章即可立马找到解决方案,这就是干货的价值。喜欢的朋友别忘记来个一键三连哈&#x…

【wiki知识库】03.前后端的初步交互(展现所有的电子书)

📝个人主页:哈__ 期待您的关注 目录 一、🔥今日目标 二、📂前端配置文件补充 三、🌏前端Vue的改造 四、💡总结 一、🔥今日目标 在上一篇文章当中,我已带大家把后端的一些基本工…

【算法】重建二叉树并进行后序遍历的Java实现

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌…

服务器主机托管一站式托管服务有哪些?

服务器主机托管一站式托管服务,作为现代企业信息化建设的重要一环,为企业提供了一种高效、安全、可靠的服务器运行环境。下面,我们将从多个方面详细介绍这一服务的内容。 一、硬件与基础设施 服务器主机托管服务首先涵盖了服务器硬件和网络基…

论文解读之A General-Purpose Self-Supervised Model for Computational Pathology

一、前言 目前,有很多无知者认为计算机在疾病诊断上超过了人类,他们的理解是计算机在美丽国的某个什么医师测评上得分超过了人类。这比较可笑和无知。 笔者认为:病理图像的病症复杂、种类繁多,同时数据集很少并且标注极为困难。…

【JavaEE进阶】——Spring Web MVC (响应)

目录 🚩学习Spring MVC 🎈返回静态网页 🎈返回数据ResponseBody 🎈返回html代码片段 🎈返回JSON 🎈设置状态码 🎈设置Header 🚩学习Spring MVC 既然是 Web 框架, 那么当⽤⼾在…

剪画小程序:自媒体创作的第一步:如何将视频中的文案提取出来?

自媒体创作第一步,文案提取无疑是至关重要的一环。 做自媒体之所以要进行文案提取,有以下重要原因: 首先,提高效率。通过文案提取,可以快速获取关键信息,避免在无关紧要的内容上浪费时间,从而…

YOLOV10阅读总结

GitHub - THU-MIG/yolov10: YOLOv10: Real-Time End-to-End Object Detection YOLOv10 - Ultralytics YOLO Docs https://arxiv.org/pdf/2405.14458 论文地址 最近yolo又出了个yolov10了,不得不感慨CV是真卷,毕竟yolov9也才没多久。记录一下阅读笔记。…

第一站挺进巴中,茅仙酒带来“1+1”模式新玩法

执笔 | 尼 奥 编辑 | 扬 灵 今年春糖期间,以“盛世华章何以鉴 酱酒经典品茅仙”为主题的茅仙酒新品发布会给白酒行业留下深刻印象。这瓶传承历史、恪守匠心、创美奋进的佳酿在“茅台家族、集团出品”的品牌加持下,开启了全国化征程的新步伐。 近日&…

突破空间限制,这些远程控制软件为父母送上“手把手”的教导,解决异地办公难题,出差无忧

在现代社会,科技的飞速发展带来了诸多便利,但同时也给一些年长的父母们带来了困扰。 当父母们面对智能手机电脑等高科技产品时,他们往往感到无所适从,而子女们忙于工作、学习或其他原因,常常无法时刻陪伴在父母身边&a…