GHuNeRF: Generalizable Human NeRF from a Monocular Video

研究背景

  1. 研究问题:这篇文章要解决的问题是学习一个从单目视频中泛化的人类NeRF模型。尽管现有的泛化人类NeRF已经取得了令人印象深刻的成果,但它们需要多视图图像或视频,这在某些情况下可能不可用。此外,一些基于单目视频的人类自由视点渲染工作无法泛化到未见过的身份。
  2. 研究难点:该问题的研究难点包括:如何在大规模人体运动中建模、如何在单目视频中有效地聚合跨帧信息、如何在训练和推理过程中提高效率。
  3. 相关工作:该问题的研究相关工作有:传统的3D人体重建方法、神经场景表示与渲染、神经辐射场(NeRF)及其在人体建模中的应用、以及现有的泛化人类NeRF方法。这些方法在多视图设置下取得了显著成果,但在单目视频设置下仍存在泛化问题。

研究方法

这篇论文提出了GHuNeRF,用于从单目视频中学习泛化的人类NeRF模型。具体来说,

1、可见性感知特征聚合:首先,提出了一种可见性感知特征聚合方案,以计算顶点级别的特征。由于遮挡问题,一个顶点在视频的某些帧中可能是可见的。通过考虑可见性信息,能够跨不同时间步收集有用的信息,从而补偿多视图信息的缺失。公式如下:

其中,vgvg​ 表示目标SMPL上的一个顶点,{v1,v2,...,vT}{v1​,v2​,...,vT​} 表示观测帧中对应的SMPL顶点,bibi​ 表示顶点vivi​的可见性。

2、基于注意力机制的时间对齐特征增强:由于SMPL顶点的稀疏性和体积分辨率的限制,基于SMPL顶点的特征体积只能表示人体的整体几何形状,但精度不足。为了解决这个问题,提出了一种基于注意力机制的时间对齐点特征增强方法。通过学习从目标帧到观测帧的变换映射,将目标空间中的3D采样点映射到观测帧中。公式如下: 

其中,popo​ 是目标空间中的3D采样点,TT 是基于SMPL的姿态参数和关节位置的变换矩阵,wgwg​ 是混合权重。

3、表面引导的点采样:为了提高训练和推理的效率,采用了一种表面引导的点采样策略。与原始NeRF中的随机采样不同,表面引导采样只在SMPL表面区域附近采样点,从而减少空空间中的不必要点数,并隐式地规范3D几何形状。

4、体积渲染:使用体积渲染技术为每个像素渲染RGB值。公式如下:

其中,NkNk​ 表示沿每条光线上的采样点数量,δkδk​ 是相邻采样点之间的距离。

实验设计

  1. 数据集:在ZJU-MoCap数据集和People-Snapshot数据集上进行了评估。ZJU-MoCap数据集包含9个动态人体视频,每个主体由21个同步相机捕获的多摄像机系统拍摄。People-Snapshot数据集包含单目视频,捕捉表演者在保持A姿势时旋转。
  2. 评估指标:采用峰值信噪比(PSNR)和结构相似性指数(SSIM)作为评估指标。
  3. 训练细节:使用Adam优化器进行训练,学习率为1e−41e−4,批量大小为1。训练和推理均使用512×512512×512的图像大小。在每个RTX 3090Ti GPU上进行训练,共训练500个epoch,每个epoch迭代500次。

结果与分析

1、ZJU-MoCap数据集:在ZJU-MoCap数据集上的定量结果显示,GHuNeRF在单目视频输入下达到了与多视图输入方法相当的性能。对于已见身份,GHuNeRF的PSNR为27.32,SSIM为0.936;对于未见身份,GHuNeRF的PSNR为24.55,SSIM为0.911。

2、People-Snapshot数据集:在People-Snapshot数据集上的定量结果显示,GHuNeRF在单目视频输入下显著优于NHP。对于未见身份,GHuNeRF的PSNR为23.20,SSIM为0.889。 

3、交叉数据集泛化:将People-Snapshot数据集上训练的模型直接应用于ZJU-MoCap数据集,交叉数据集泛化的PSNR为23.20,与在ZJU-MoCap数据集上训练的模型相当。

4、定性结果:定性结果显示,GHuNeRF能够生成高保真度的图像,并且在某些情况下比NHP生成更多细节。3D重建结果也显示,GHuNeRF能够预测更真实的3D人体形状。

总体结论

本文提出了GHuNeRF,用于从单目视频中学习泛化的人类NeRF模型。通过引入可见性感知特征聚合、时间对齐特征增强和表面引导的点采样策略,GHuNeRF在单目视频输入下实现了与多视图输入方法相当的性能。实验结果表明,GHuNeRF在ZJU-MoCap和People-Snapshot数据集上均表现出色,具有较高的泛化能力和高质量的渲染结果。

优点与创新

  1. 首次尝试:本文首次提出了从单目视频中学习通用人类NeRF模型的任务。
  2. GHuNeRF方法:提出了GHuNeRF方法,包括可见性感知体积特征聚合和时间对齐的特征增强,以跨视频帧聚合信息,用于自由视点图像合成。
  3. 性能表现:在ZJU-MoCap数据集上实现了与现有多视图视频方法相当的性能,并且在仅使用单目视频的情况下,性能优于现有工作。
  4. 表面引导采样策略:引入了表面引导采样策略,提高了训练和推理的效率,并通过假设远处区域为空空间来隐式规范3D几何形状。
  5. 多视角和单目训练:在多视角(MVT)和单目(MoT)设置下均进行了实验,验证了方法的有效性。

不足与反思

  1. 泛化能力有限:当训练和测试数据显著不同时,泛化能力仍然有限。
  2. 失败案例:在补充材料中展示了一些失败案例,例如在People-Snapshot数据集上训练的模型在ZJU-MoCap数据集上的预测颜色不正确。主要原因是两个数据集的光照条件差异显著,且People-Snapshot数据集中从未见过黄色衬衫。

创新点

1、GHuNeRF利用SMPL模型来构建特征体积,从而处理大规模人体运动。具体来说,GHuNeRF首先使用SMPL模型将每个顶点的特征表示从2D图像空间投影到目标空间的3D空间。然后,通过SparseConvNet将顶点级别的特征扩散到附近的3D空间,形成一个特征体积。这个特征体积虽然能够表示人体的整体几何形状,但由于SMPL顶点的稀疏性和体积分辨率的限制,其精度不足。为了提高精度,GHuNeRF进一步通过注意力机制将时间对齐的点特征与体积特征融合,从而增强特征体积的表示能力。

2、GHuNeRF中的可见性感知特征聚合方案通过考虑顶点的可见性信息来计算顶点级别的特征。具体来说,对于目标SMPL上的每个顶点vgvg​,其特征表示是通过聚合观测帧中对应顶点的特征F(vi)F(vi​)得到的,其中bibi​表示顶点vivi​的可见性。

3、GHuNeRF采用了表面引导的点采样策略来提高训练和推理的效率。具体来说,与原始NeRF中的随机采样不同,表面引导采样只在SMPL表面区域附近采样点,从而减少空空间中的不必要点数,并隐式地规范3D几何形状。此外,GHuNeRF还通过使用ResNet18提取图像特征,并使用SparseConvNet进行特征扩散和注意力机制增强,进一步优化了网络结构和计算效率。实验结果表明,这些策略显著提高了GHuNeRF的训练和推理效率,同时在合成图像和3D人体重建的质量上也表现出色。

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/58910.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

为啥学习数据结构和算法

基础知识就像是一座大楼的地基,它决定了我们的技术高度。而要想快速做出点事情,前提条件一定是基础能力过硬,“内功”要到位。 想要通关大厂面试,千万别让数据结构和算法拖了后腿 我们学任何知识都是为了“用”的,是为…

离线安装Vue2开发环境

在外网进行Vue2开发后,需要转到内网开发,无法在线依赖库安装,需要迁移node_modules。 1.内外网开发电脑安装同样版本的nodejs 我本地安装的node-v16.17.1-x64.msi,所以在内网环境也要按照node-v16.17.1-x64.msi。 在外网环境使用…

初探Flink的序列化

Flink中的序列化应用场景 程序通常使用(至少)两种不同的数据表示形式[2]: 1. 在内存中,数据保存在对象、结构体、列表、数组、哈希表和树等结构中。 2. 将数据写入文件或通过网络发送时,必须将其序列化为字节序列。 从内存中的表示到字节序列…

【ESP32】ESP-IDF开发 | I2C控制器+I2C主从收发例程

1. 简介 I2C(Inter-Integrated Circuit),是由Philips公司在1980年代初开发的一种半双工的同步串行总线,它利用一根时钟线和一根数据线在连接总线的两个器件之间进行信息的传递,为设备之间数据交换提供了一种简单高效的…

提高交换网络可靠性之端口安全配置

转载请注明出处 此实验为配置交换机端口安全,当非法设备接入接口时自动触发安全措施 1.查看PC1和PC2的MAC地址👇 2.交换机改名为S1,同时启用端口安全 3.配置允许接入设备 4.设置违规处理方式:即违规则关闭端口 5.查看安全端口相关…

UE5 第三人称学习之动画 control rig

这个东西和建模软件里有的是一个东西,然后IK就是你动脚,他帮你算出小腿大腿该怎么动,FK就是你自己动了大腿,摆小腿,然后再摆脚 就是给每一根骨骼搞一个控制器,给他一个容易选中和操作更明显的图形作为控制…

宏处理将多个excel文件的指定sheet页合并到一个excel文件中

背景了解:有个同事问我:现在他要处理一千多个文件,每个excel文件都有3个sheet页签,想把所有的excel文件的第二个sheet页签复制一份放到一个新的excel文件中。如果是手动去操作一个个文件的复制,也没什么不可&#xff0…

Linux系列-进程的概念

🌈个人主页:羽晨同学 💫个人格言:“成为自己未来的主人~” 这篇文章,我们主要分析一下进程。 之前,我们讲过了冯诺依曼体系架构, 我们常见的计算机,像笔记本,或者不常见的计算机…

SQL优化经验大全(表设计优化,索引优化,索引创建规则、索引失效场景,sql语句优化,主从复制,分库分表)面试题

目录 1.表的设计优化 2.索引优化 2.1 索引创建的规则 2.2 索引失效的场景 3.SQL语句优化 4.主从复制、读写分离 5.分库分表 5.1.怎么判断项目是需要分库还是要分表? 5.2 分库分表有哪些拆分方案? 5.2.1 垂直分库 5.2.2 垂直分表 5.2.3 水平分…

css边框修饰

一、设置线条样式 通过 border-style 属性设置,可选择的一些属性如下: dotted:点线 dashed:虚线 solid:实线 double:双实线 效果如下: 二、设置边框线宽度 ① 通过 border-width 整体设置…

OpenGL入门002——顶点着色器和片段着色器

文章目录 一些概念坐标转换阶段顶点着色器片段着色器VBOVAO 实战简介main.cppCMakeLists.txt最终效果 一些概念 坐标转换阶段 概述: 模型空间、世界空间、视图空间和裁剪空间是对象在3D场景中经历的不同坐标变换阶段。每个空间对应渲染管道的一个步骤,…

LeetCode 684.冗余连接:拓扑排序+哈希表(O(n)) 或 并查集(O(nlog n)-O(nα(n)))

【LetMeFly】684.冗余连接:拓扑排序哈希表(O(n)) 或 并查集(O(nlog n)-O(nα(n))) 力扣题目链接:https://leetcode.cn/problems/redundant-connection/ 树可以看成是一个连通且 无环 的 无向 图。 给定往…

C语言指针与一维数组 Java动态初始化与常见问题(越界问题)

1./*int main(void) { int a[5] { 10,20,30,40,50 };//数组间的元素地址相连的 int* p; printf("a代表的地址:%d\n", a);//数组首个元素的地址 printf("a1代表的地址:%d\n", a 1);//偏移数组 printf("a2…

2023年SEO趋势分析与未来发展展望

内容概要 在2023年的数字营销环境中,搜索引擎优化(SEO)依然扮演着关键角色。随着技术的不断演进和用户需求的变化,SEO趋势也在不断变化。首先,核心算法的更新已开始影响网站排名,搜索引擎越来越注重网站内…

面试经典 150 题:189、383

189. 轮转数组 【参考代码】 class Solution { public:void rotate(vector<int>& nums, int k) {int size nums.size();if(1 size){return;}vector<int> temp(size);//k k % size;for(int i0; i<size; i){temp[(i k) % size] nums[i];}nums temp; }…

Linux云计算 |【第五阶段】CLOUD-DAY8

主要内容&#xff1a; 掌握DaemonSet控制器、污点策略&#xff08;NoSchedule、Noexecute&#xff09;、Job / CronJob资源对象、掌握Service服务、服务名解析CluterIP&#xff08;服务名自动发现&#xff09;、&#xff08;Nodeport、Headless&#xff09;、Ingress控制器 一…

智能网联汽车:人工智能与汽车行业的深度融合

内容概要 在这个快速发展的时代&#xff0c;智能网联汽车已经不再是科幻电影的专利&#xff0c;它正在悄然走进我们的日常生活。如今&#xff0c;人工智能&#xff08;AI&#xff09;技术与汽车行业的结合犹如一场科技盛宴&#xff0c;让我们看到了未来出行的新方向。通过自动…

Iceoryx2:高性能进程间通信框架(中间件)

文章目录 0. 引言1. 主要改进2. Iceoryx2 的架构3. C示例代码3.1 发布者示例&#xff08;publisher.cpp&#xff09;3.2 订阅者示例&#xff08;subscriber.cpp&#xff09; 4. 机制比较5. 架构比较6. Iceoryx vs Iceoryx2参考资料 0. 引言 Iceoryx2 是一个基于 Rust 实现的开…

NumPy安装

1.NumPy简介 NumPy(Numerical Python) 是 Python 语言的扩展程序库&#xff0c;支持大量维度数组与矩阵运算&#xff0c;此外也针对数组运算提供大量的数学函数库。 NumPy 的前身 Numeric 最早由 Jim Hugunin 与其它协作者共同开发&#xff0c;2005 年&#xff0c;Travis Oliph…

全自动一键批量创建站群网站插件 | Z-BlogPHP 堆词起站工具

在当今竞争激烈的数字营销世界&#xff0c;如何快速提升网站曝光率和流量&#xff1f;答案就是智能站群系统。 本文将结合实际效果&#xff0c;介绍一款功能强大的站群系统&#xff0c;重点讲述其堆词功能、泛目录管理、一键批量创建、内容转码、自定义标签和GPT内容生成与发布…