HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

HumanNeRF:单目视频中运动人物的自由视点绘制

引言。我们介绍了一种自由视点渲染方法- HumanNeRF -它适用于一个给定的单眼视频ofa人类执行复杂的身体运动,例如,从YouTube的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点或甚至针对该特定帧和身体姿势的完整360度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的照片级真实感细节,如从输入视频中可能不存在的各种摄像机角度看到的,以及合成诸如衣服褶皱和面部外观的精细细节。我们的方法优化了一个典型的T-姿势的人的体积表示,在演唱会的运动场,通过向后扭曲映射估计的规范表示到视频的每一帧。运动场被分解为由深度网络产生的骨架刚性运动和非刚性运动。我们显示了显着的性能改进比以前的工作,和令人信服的例子,从单目视频ofmoving人类在具有挑战性的不受控制的捕捉场景的自由视点渲染。

1 介绍

        给定人类执行活动的单个视频,例如,一个舞蹈演员的YouTube或TikTok视频,我们希望能够在任何帧暂停,并围绕表演者旋转360度,以便在那个时刻从任何角度观看他们(图1)。这个问题-移动主体的自由视点渲染-是一个长期的研究挑战,因为它涉及合成以前看不见的相机视图,同时考虑布料褶皱,头发运动和复杂的身体姿势[5,6,15,18,27,38,59,65]。这个问题是特别困难的情况下,“在野外”的视频用一个单一的摄像头(单目视频),我们在本文中地址的情况下。

图1.我们的方法将人类执行复杂运动的单目视频1作为输入,跳舞(左),并为序列中的任意帧创建自由视点渲染(右)。我们构建了一个规范的对象外观体积,以及一个从观察到规范空间的运动场映射,在视频上进行了训练。在测试时,我们只从源帧(红色正方形)中提取姿势,并合成所有输出视图,包括目标视图。请参阅项目第2页查看动画效果。 

        以前的神经渲染方法[3,33,36,37,50,66,75]通常假设多视图输入,仔细的实验室捕获,或者由于非刚体运动而对人类表现不佳。人类特定的方法通常假设SMPL模板[34]作为先验,这有助于约束运动空间,但也会引入服装中的伪影和SMPL模型无法捕获的复杂运动[49,50]。最近可变形NeRF方法[47,48,51,64]对于小变形表现良好,但对于大型全身运动(如跳舞)表现不佳。

        我们介绍了一种方法,称为HumanNeRF,它将一个移动的人的单个视频作为输入帧、现成的分割(具有一些手动清理)和自动3D姿态估计,优化了人类的规范的体积T姿态以及经由向后扭曲将估计的规范体积映射到每个视频帧的运动场。运动场将骨架刚性运动与非刚性运动相结合,每个运动都以体积表示。我们的解决方案是数据驱动的,规范的体积和运动场来自视频本身,并针对大型身体变形进行了优化,经过端到端训练,包括3D姿态优化,无需模板模型。在测试时,我们可以在视频中的任何帧处暂停,并以该帧中的姿势为条件,从任何视点渲染生成的体积表示。

        我们展示了各种示例的结果:现有的实验室数据集,我们在实验室外捕获的视频,以及从YouTube下载的(具有创建者权限)。我们的方法在数值上优于最先进的方法,并产生更高的视觉质量。请参阅项目页面以查看运动中的结果。

2 相关工作

        自由视点渲染的物理过程涉及几何和曲面属性建模,然后从新的相机视图进行渲染。然而,它仍然难以重建复杂的几何形状和微妙的照明效果。或者,基于图像的渲染[57,61]提供了基于图像域中的给定视图集渲染新视图,并在过去几十年中进行了大量研究[8,9,13,17,21,22,30,78]。

        人类特定渲染:Kanade等人的工作[27]是对人类自由视点渲染的最早研究之一。它引入了一个配备摄像头的圆顶来恢复深度图和网格,通过重新投影和混合不同的视图来渲染新的视图,以解决由于遮挡而导致的网格孔。后来,Matusik等人[38]从主体的轮廓重建了一个视觉船体,并通过仔细选择像素来渲染它,而无需辅助几何表示。Carranza等人[5]使用参数化的身体模型作为先验和组合的无标记运动捕捉和视图相关纹理[13]。后续工作介绍了非刚性变形[65],纹理扭曲[6,72]以及基于体积[12]或球体[59]的各种表示。Collet等人。[11]和Guo等人。[18]构建了一个系统和管道,可以生成高质量的可流式传输的[11]甚至是可重定向的[18]移动人物的自由视点视频。

        这些方法中的大多数依赖于多视图视频-通常是昂贵的工作室设置-而我们对简单的单目相机配置感兴趣。

        神经辐射场:NeRF [41]及其扩展[3,23,44,58,62,75,77]能够高质量地渲染静态场景的新视图。NeRF最近已扩展到动态场景[16,31,47,48,51,64,71],虽然这些方法通常假定运动很小。我们在结果部分将我们的方法与这些动态和可变形的NeRF作品进行了比较。

        人类特定的神经渲染:Liu等人的工作。[33]从预先捕获的身体模型开始,并学习对时间相关的动态纹理进行建模,并加强时间连贯性。Martin-Brualla等人。[36]训练UNet来改善体积捕获引入的伪影。Pandey等人的后续工作。[46]通过半参数学习将所需输入帧的数量减少到单个RGBD图像。Wu et al. [70]和Peng et al. [50]探索了嵌入点云(来自MVS [55])或静止网格顶点(来自SMPL [34])的学习结构化潜在代码的使用,并学习了一个附带的基于UNESCO NeRF的神经渲染器。Zhang等人。[26]将场景分解为背景和单个表演者,并用单独的NeRF表示它们,从而实现场景编辑。除了自由视点渲染之外,还有另一个相关的活跃研究领域,专注于2D [2,7,35,43,54,67,68]或3D [19,20,25,32,49,53,69,74]中的人体运动重定向。我们的方法和这些作品之间的主要区别是,我们作为输入单目视频,包含复杂的人体运动,并使高保真全3D渲染。

        此外,我们的骨骼运动公式从Weng等人提出的Vid2Actor中汲取灵感。[69],一种用于刚性动画角色的方法。相反,我们专注于自由视点应用程序和恢复姿势相关的非刚性变形,并在此应用程序中显着优于它们。

        并行工作:Xu等人。[73]共同学习隐式几何以及图像的外观。他们主要关注多视图设置,其中有一些关于单目视频的例子,其中人体运动很简单(A姿势)。Su等人。[60]使用过参数化的NeRF来严格转换NeRF特征,以优化身体姿势,从而最终渲染。非刚体运动没有明确建模,绘制质量不高。Noguchi等人也发现了类似的方法。[45]但仍然显示出有限的视觉质量。

3 将人类表示为神经场

        我们表示一个移动的人,其具有扭曲到观察到的姿势的规范外观体积Fc,以产生输出外观体积Fo:

        其中F_{c}:x →(c,σ)将位置x映射到颜色c和密度σ,并且T:(x_{o},p)→ x_{c}定义由观察到的姿势p =(J,Ω )引导的将点从观察到的空间映射回规范空间的运动场,其中J包括K个标准3D关节位置,并且Ω = {w_{i}}是表示为轴角向量w_{i}的局部关节旋转。

        我们通过将运动场分解为两个部分来处理具有复杂变形的复杂人体运动:

        其中,Tskel表示非线性驱动的变形,基本上是逆(体积)线性混合蒙皮,并且TNR从非线性驱动的变形开始并且产生到它的偏移量Δ x。实际上,Tskel提供由标准蒙皮驱动的粗略变形,并且TNR提供更非刚性的效果,例如,因为衣服变形。 

        对于“野外”图像,我们使用现成的3D身体+相机姿态估计器。由于姿态估计的不准确性,我们还求解了更好地解释观察结果的姿态校正函数P_{pose}(p),并将这种改进应用于光子驱动的变形,即,我们用T_{skel}(x,P_{pose}(p))替换等式2中的T_{skel}(x,p)

        图2给出了我们系统的组件的概述。在以下部分中,我们将详细描述这些组件。

       正则体积:我们将正则体积F_{c}表示为具有MLP的连续场,该MLP在给定点x的情况下输出颜色c和密度σ:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/878920.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

堆排序Java

思路 这个代码还不错 https://blog.csdn.net/weixin_51609435/article/details/122982075 就是从下往上进行调整 1. 如何将数组映射成树 对于下面这颗树,原来的数组是: 好,如果调整的话,我们第一个应该调整的是最下边&#x…

html记账本改写:数据重新布局,更好用了,没有localStorage保存版本

<!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><title>htm记账本</title><style>table {user-select: none;/* width: 100%; */border-collapse: collapse;}table,th,td {border: 1px solid …

探索EasyCVR与AI技术深度融合:视频汇聚平台的新增长点

随着5G、AI、边缘计算、物联网&#xff08;IoT&#xff09;、云计算等技术的快速发展&#xff0c;万物互联已经从概念逐渐转变为现实&#xff0c;AIoT&#xff08;物联网人工智能&#xff09;的新时代正在加速到来。在这一背景下&#xff0c;视频技术作为信息传输和交互的重要手…

SpringMVC使用:类型转换数据格式化数据验证

01-类型转换器 先在pom.xml里面导入依赖&#xff0c;一个是mvc框架的依赖&#xff0c;一个是junit依赖 然后在web.xml里面导入以下配置&#xff08;配置的详细说明和用法我在前面文章中有写到&#xff09; 创建此测试类的方法用于测试springmvc是具备自动类型转换功能的 user属…

Linux驱动.之字符设备驱动框架,新内核框架,设备树(二)

第一篇比较长&#xff0c;第二篇&#xff0c;继续写&#xff0c;内容有重复 一、字符设备驱动框架 在用户空间中调用open&#xff0c;打开一个字符设备&#xff0c;执行流程如下&#xff1a;最终会执行chrdev中的ops对应的open函数。

Kafka3.6.0 linux 安装,非zk模式

1.下载 到kafka官网下载 2.上传到服务器指定位置 3.解压到指定目录&#xff0c;这里我放到/opt下 tar -xzvf kafka_2.13-3.6.0.tgz -C /opt/ 4.修改配置 因为我们不使用zookeeper&#xff0c;所以来到kafka装根目录的下的/config/kraft/ cd /opt/kafka_2.13-3.6.0/config…

爆改YOLOv8|利用图像分割网络UNetV2改进yolov8主干-即插即用

1&#xff0c;本文介绍 U-Net v2 通过引入创新的跳跃连接设计来提升医学图像分割的精度。这一版本专注于更有效地融合不同层级的特征&#xff0c;包括高级特征中的语义信息和低级特征中的细节信息。通过这种优化&#xff0c;U-Net v2 能够在低级特征中注入丰富的语义&#xff…

AI 与大模型:物流行业的变革力量

一、物流行业的现状与挑战 物流行业在现代经济中扮演着至关重要的角色&#xff0c;但目前也面临着诸多挑战。 在效率方面&#xff0c;交通拥堵是一个突出问题。许多城市道路容量不足&#xff0c;无法满足日益增长的货物运输需求&#xff0c;导致运输时间延长。例如&#xff0…

使用3DUNet训练自己的数据集(pytorch)— 医疗影像分割

代码:lee-zq/3DUNet-Pytorch: 3DUNet implemented with pytorch (github.com) 文章<cicek16miccai.pdf (uni-freiburg.de)3D U-Net: Learning Dense Volumetric Segmentation

高清4K短视频素材网站有哪些?推荐8个高清4K短视频素材网站

是不是还在为找不到合适的4K高清素材而苦恼&#xff1f;别急&#xff01;今天我为大家精心挑选了8个超级优秀的4K高清短视频素材网站&#xff0c;不仅能让你的视频质量爆表&#xff0c;还能大大提高账号的互动率和曝光度&#xff01;每一个推荐都是精心筛选过的&#xff0c;每一…

[物理专题]经典浮力题目的Fh图像绘制

这段代码用于绘制物体在液体中受到的浮力变化的图像&#xff0c;它有多个好处&#xff1a; 直观展示数据&#xff1a;通过图形化展示&#xff0c;可以直观地看到物体在液体中浸入深度与受到的浮力之间的关系。 教育和学习工具&#xff1a;这种类型的图像常用于教育目的&#x…

基于canal的Redis缓存双写

canal地址&#xff1a;alibaba/canal: 阿里巴巴 MySQL binlog 增量订阅&消费组件 (github.com)https://github.com/alibaba/canal 1. 准备 1.1 MySQL 查看主机二进制日志 show master status 查看binlog是否开启 show variables like log_bin 授权canal连接MySQL账号 …

【OpenCV3】图像的翻转、图像的旋转、仿射变换之图像平移、仿射变换之获取变换矩阵、透视变换

1 图像的放大与缩小 2 图像的翻转 3 图像的旋转 4 仿射变换之图像平移 5 仿射变换之获取变换矩阵 6 透视变换 1 图像的放大与缩小 resize(src, dsize[, dst[, fx[, fy[, interpolation]]]]) src: 要缩放的图片dsize: 缩放之后的图片大小, 元组和列表表示均可.dst: 可选参数, 缩…

【无标题】XSS安全防护:responseBody (输入流可重复读) 配置

接上文:配置XSS过滤器 XXS 安全防护:拦截器+注解实现校验-CSDN博客XSS(跨站脚本)攻击是一种网络安全威胁,允许攻击者注入恶意脚本到看似安全的网站。当用户浏览这些被注入恶意代码的网页时,恶意脚本会在用户的浏览器环境中执行,这可能导致多种安全问题,如窃取敏感数据、…

将添加功能的抽屉剥离,在父组件调用思路

一、新建组件 新建AddRoleEditerDrawer.vue<template><div><el-drawer v-model"dialog" title"添加角色" :before-close"handleClose" direction"rtl" colse"cancelForm"class"demo-drawer" moda…

「数学::质数」试除法 / Luogu P5736(C++)

概述 在质数的第一节我们来讲解试除法。 质数是指在大于1的自然数中只能被1和它自己整除的数。 我们可以利用这一除法性质对质数进行判定。 Luogu P5736&#xff1a; 输入 n 个不大于 10^5 的正整数。要求全部储存在数组中&#xff0c;去除掉不是质数的数字&#xff0c;依…

LLM Attention and Rotary Position Embedding(旋转位置编码)

旋转位置编码&#xff08;Rotary Position Embedding&#xff0c;RoPE&#xff09;是一种能够将相对位置信息依赖集成Attention计算里的方法。就是在做词表映射的时候不是单一的进行一个embedding计算&#xff0c;还考虑位置信息。 一些资料 [1] https://arxiv.org/pdf/2104.0…

面对养老困局我心安若素

“2025年&#xff0c;我们需要注意什么&#xff1f;是复杂的国际环境么&#xff1f;明年对于我国70岁以上的老年人来说这可不是主要关心的问题。反而有这两件事情需要他们来关注&#xff0c;如果70岁老人不提前做好准备&#xff0c;可能会有非常严重的后果......”这是昨天发表…

鸿蒙轻内核M核源码分析系列十五 CPU使用率CPUP

往期知识点记录&#xff1a; 鸿蒙&#xff08;HarmonyOS&#xff09;应用层开发&#xff08;北向&#xff09;知识点汇总 轻内核M核源码分析系列一 数据结构-双向循环链表 轻内核M核源码分析系列二 数据结构-任务就绪队列 鸿蒙轻内核M核源码分析系列三 数据结构-任务排序链表 轻…

国产脑机全面超越马斯克Nearlink

&#x1f4a5;&#x1f4a5;&#x1f4a5;刚刚&#xff0c;世界首富马斯克同学已经是完全懵逼了&#xff0c;心态都崩了&#xff01;因为今天爆出来了一个轰动了全世界科技界的大新闻&#xff0c;国产脑机在多个维度上全面超越了马斯克的Nearlink&#xff01; &#x1f4a5;&am…