NeRF从入门到放弃3: EmerNeRF

https://github.com/NVlabs/EmerNeRF
该方法是Nvidia提出的,其亮点是不需要额外的2D、3Dbox先验,可以自动解耦动静field。
核心思想:
1. 动、静filed都用hash grid编码,动态filed比静态多了时间t,静态的hash编码输入是(x,y,z),动态是(x,y,z,t)。
2. 使用flow融合多帧的特征,预测当前时刻的点的前向和后向的flow,最后的动态Feature是0.25pre+0.5+0.25next
3. 用3个head分别预测正常物体、天空和阴影。

3.1 SCENE REPRESENTATIONS

1 Scene decomposition

为了实现高效的场景解耦,把4D场景分解为静态场和动态场,两者都分别由可学习的hash grid(instant NGP) Hs和hd表示。(注,下标s和d分别表示static和dynamic,下文所有表示都是此含义)
这种解耦为与时间无关的特征 hs = Hs(x) 和时变特征 hd = Hd(x, t) 提供了一种灵活紧凑的 4D 场景表示,其中 x = (x, y, z) 是查询点的 3D 位置,t 表示其时间步长。这些特征通过轻量级 MLP进一步转换为动态和静态的feature(gs和gd),和用于预测每个点的密度 (σs 和 σd)。
在这里插入图片描述
在这里插入图片描述

所以这一步得到每个3D点的feature和密度。

2 Multi-head prediction

用三个head分别预测 color sky 和shadow,动态和静态共享共一个color mlp。
该color head以 (gs, d) 和 (gd, d) 作为输入,并为每个点都输出一个静态和动态的颜色;由于天空的深度定义不明确,所以单独加一个head预测天空的深度;添加一个影子的head去表述动态物体的阴影,输出动态对象0-1的标量,调整静态场预测的颜色强度。

由此图可看出,MLP_color的输入分别是动态feature和朝向,shadow head的输入是动态feature,sky head的输入只是朝向(为什么要这么做,因为没有深度信息,不知道采样多少个点)。

在这里插入图片描述

3.2 EMERGENT SCENE FLOW

1 场景流估计(Scene flow estimation)

用flow的head对当前时刻的query点,预测前向和后向的流。最后的动态Feature是0.25pre+0.5+0.25next**

该特征聚合模块实现了三个目标:1)它将流场与场景重建损失(例如 RGB 损失)连接起来进行监督,2)它巩固特征、去噪时间属性以进行准确预测,以及 3)每个点通过其时间链接特征的共享梯度来丰富,通过共享知识提高单个点的质量

Hv和Hd应该是一样的。
在这里插入图片描述

flow部分代码:MLP的最后一层的输出是6维,前3维表示forward flow,后3维表示backwark flow。注意,最后一层mlp是没有激活函数的,以为要预测前后项的flow值,理论上有正负的,所以不能加激活函数。

# ======== Flow Field ======== #
self.flow_xyz_encoder = None
if self.cfg.enable_flow_branch:self.flow_xyz_encoder = HashEncoder(self.cfg.flow_xyz_encoder)self.flow_mlp = nn.Sequential(nn.Linear(self.flow_xyz_encoder.n_output_dims,self.cfg.base_mlp_layer_width,),nn.ReLU(),nn.Linear(self.cfg.base_mlp_layer_width, self.cfg.base_mlp_layer_width),nn.ReLU(),nn.Linear(self.cfg.base_mlp_layer_width, 6),  # 3 for forward, 3 for backward# no activation function for flow)

2 特征聚合模块(Multi-frame feature integration)

预测出forward 和backwark flow后,加到原本的位置,即得到上一阵和下一帧的位置,把上一阵和下一帧的位置都送到动态的mlp网络中。
在这里插入图片描述
上图公式中,gd是动态的mlp,Hd是hash编码,也就是说当前帧点的坐标加上前后相的光流偏移量(Δx,Δy,Δz)后,和上一帧的时间t,再次进行hash编码,然后都送到动态的mlp网络中得到上一帧和下一帧的动态feature,再和当前帧的feature加权平均。

把flow和场景重建的loss损失结合起来进行监督;增强了动态部分的特征,去噪时间属性以进行准确的预测;每个点通过其时间链接特征的共享梯度来丰富,通过共享知识提高单个点的质量。

没有用显式的监督,这种能力来自于时间聚合步骤,同时优化场景重建损失。我们的假设是,只有时间一致的特征受益于多帧特征集成,这种集成间接地将场景流场驱动到最优解——预测所有点的正确流。

3 消融实验

消融研究证实了这一点:当禁用时间聚合或停止这些附近特征的梯度时,flow无法学习有意义的结果,加入flow, psnr+1

实验细节

只用了3个相机,图片resize成640x960。25K迭代,8196。静态场景把flow和dynamic分支去掉。静态场景不加feature,加feature40分钟,动态场景不加feature2小时,加feature2.25小时。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/32363.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据虚拟化、Data Fabric(数据编织)的兴起,对数据管理有何帮助?

数字化时代,虚拟化(Virtualization)并不是一个很陌生的词汇,它是现代数据中心资源管理的核心技术之一,是对 IT 资源(如服务器、存储设备、网络设备等)的抽象,通过屏蔽 IT 资源的物理…

shell expr功能详解

expr命令可以实现数值运算、数值或字符串比较、字符串匹配、字符串提取、字符串长度计算等功能。它还具个特殊功能,判断变量或参数是否为整数、是否为空、是否为0等。 1.字符串表达式 ------------------------- expr支持模式匹配和字符串操作。字符串表达式的优先…

AttributeError: ‘AlexNet‘ object has no attribute ‘module‘

当你尝试执行 model model.module 并收到错误消息 AttributeError: AlexNet object has no attribute module,这意味着你正在操作的模型对象(在这个例子中是 AlexNet 类的一个实例)并没有 module 这个属性。这个错误通常发生在以下几种情况&…

长度单位对比(英制和通用制)

0 Preface/Forewod 1 单位换算 1.1 英制单位 常见的英制长度单位如下: inch,英尺foot,英寸mile ,英里 1.2 换算公式 1 inch 2.54 cm 1 yard 3 inch 1 foot 12 inch 12 * 2.54 cm 30.48 cm 1 foot 4 yard 1 mile …

Hutool工具简单用法

1、安装(POM) <dependency> <groupId>cn.hutool</groupId> <artifactId>hutool-all</artifactId> <version>5.8.16</version> </dependency> 2、使用 1、DateUtil //当前时间 Date date DateUtil.date(); //…

音乐管理系统

摘 要 现如今&#xff0c;在信息快速发展的时代&#xff0c;互联网已经成了人们在日常生活中进行信息交流的重要平台。看起来&#xff0c;听歌只是一种消遣和消遣&#xff0c;其实&#xff0c;只要你选对了曲子&#xff0c;就会产生许多不同的作用。音乐能舒缓身心&#xff0c…

你好,复变函数2.0

第一行&#xff1a;0 或 1 第二行&#xff1a;&#xff08;空格&#xff09;函数&#xff08;后缀&#xff09; #pragma warning(disable:4996) #include <easyx.h> #include <stdio.h> #include <math.h> #define PI 3.141592653589793 #define E 2.71828…

解决 执行 jar 命令 控制台乱码

Springboot项目&#xff0c;编码为utf8 打包后&#xff0c;为了在控制台运行时不乱码&#xff0c;需要在控制台中依次执行以下命令&#xff1a; 第一步&#xff1a; chcp 65001第二步&#xff1a; java -jar -Dfile.encodingutf-8 你的.jar

数字营销新玩法:拓新与裂变的完美结合

在当今这个飞速发展的数字化时代&#xff0c;数字营销已经成为了企业发展中至关重要的一环。拓新&#xff0c;简单来说就是不断去开拓新的客户群体&#xff0c;让更多的人了解并接触到我们的产品或服务。要做到这一点&#xff0c;那可得充分利用各种线上渠道。像热闹非凡的社交…

免费开源的地图解析工具【快速上手】

视频学习地址 这篇文章和【Nominatim】是相呼应的&#xff0c;在尝试了OSM数据一直有问题之后&#xff0c;通过别人的指点是不是可以换个思路&#xff0c;我的数据只需要精确到市级别&#xff0c;也可以不用OSM这样全的数据&#xff08;主要原因还是OSM太过庞大了&#xff09; …

软银CEO孙正义:10年内将出现比人类聪明1万倍的人工智能|TodayAI

2024年6月20日&#xff0c;软银集团公司&#xff08;SoftBank&#xff09;董事长兼首席执行官孙正义在日本东京举行的公司年度股东大会上发表讲话&#xff0c;表示比人类聪明1万倍的人工智能将在10年内出现。这是他近年来一次罕见的公开露面&#xff0c;在会上他质疑了自己的人…

连接和断开信号演示之二

代码; #include <gtk-2.0/gtk/gtk.h> #include <gtk-2.0/gdk/gdkkeysyms.h> #include <glib-2.0/glib.h> #include <stdio.h>void button_press(GtkEventBox *ebox,GdkEventButton *event,GtkLabel *label) {const char *citem;switch(event->type…

开发常用依赖

目录 代理对象 Swagger Web 单元测试 MybatisPlus Lombok Mysql SpringBoot Jdk SpringCloud 数据库驱动包 hutool工具 配置仓库 通用库 maven插件 nacos注册中心 OpenFeign Spring AMQP JSON转换器 Redis 邮箱验证 Redisson分布式锁 客户端 代理对象 &l…

银河麒麟V10 SP1.1操作系统 离线安装 nginx1.21.5、redis 服务

银河麒麟官网地址&#xff1a;国产操作系统、麒麟操作系统——麒麟软件官方网站 一、查看系统版本 命令&#xff1a;nkvers 我的是 release V10 (SP1)&#xff0c;根据这个版本去官网找对应的rpm包 银河麒麟操作系统的rpm包必须从官方找&#xff0c; 要是随便找个Centos的rp…

SpringBoot集成OpenPDF导出pdf

1、引入依赖&#xff08;最后一个支持java8的版本&#xff09; <dependency><groupId>com.github.librepdf</groupId><artifactId>openpdf</artifactId><version>1.3.34</version> </dependency> <dependency><grou…

云安全下的等级保护2.0解决方案

云安全解决方案 知识星球&#x1f517;除了包含技术干货&#xff1a;Java代码审计、web安全、应急响应等&#xff0c;还包含了安全中常见的售前护网案例、售前方案、ppt等&#xff0c;同时也有面向学生的网络安全面试、护网面试等。 ​

【Linux系统】多线程

本篇博客继上一篇《线程与线程控制》&#xff0c;又整理了多线程相关的线程安全问题、互斥与锁、同步与条件变量、生产消费模型、线程池等内容&#xff0c;旨在让读者更加深刻地理解线程和初步掌握多线程编程。&#xff08;欲知线程的相关概念、线程控制的相关接口等&#xff0…

DbConnectionStringParser

import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; public class DbConnectionStringParser { public static String parserDbConnection(String connectionString) { // 检查是否为 SQL Server if (conne…

开发指南032-调整日志级别

1) 显示SQL语句及其参数 nacos里配置 spring: jpa: show-sql: true logback-spring.xml里配置 <logger name"org.hibernate.type.descriptor.sql.BasicBinder" level"TRACE"/> 2&#xff09;feign显示调用过程 logging: level: org.qlm.feign: …

总结之LangChain(三)——模型IO缓存

一、聊天模型缓存 LangChain为聊天模型提供了一个可选的缓存层。这有两个好处&#xff1a; 如果您经常多次请求相同的完成结果&#xff0c;它可以通过减少您对LLM提供程序的API调用次数来帮您节省费用。 它可以通过减少您对LLM提供程序的API调用次数来加快您的应用程序速度。…