EN-SLAM:Implicit Event-RGBD Neural SLAM解读

论文路径:https://arxiv.org/pdf/2311.11013.pdf

目录

1 论文背景

2 论文概述

2.1 神经辐射场(NeRF)

2.2 事件相机(Event Camera)

2.3 事件时间聚合优化策略(ETA)

2.4 可微分的CRF渲染技术

3 EN-SLAM模型

3.1 统一的隐式场景表示

3.2 辐射场分解

3.3 可微分CRF渲染

3.4 追踪与捆绑调整

3.5 损失函数

4 数据集

5 实验

5.1对比实验

5.2 消融实验

5.3 全场景建图的对比

6 未来工作

6.1大规模室外场景

6.2 依赖深度信息

6.3 长距离轨迹


论文背景

       EN-SLAM出自今年CVPR的Highlight名单,由上海AI Lab等机构联合提出的首个事件-RGBD隐式神经SLAM框架。EN-SLAM通过共享可微的相机响应函数(CRF)渲染技术,基于事件和RGBD监督学习,进行相机位姿和地图的体渲染优化,有效解决运动模糊或光照变化等非理想场景中,SLAM算法产生的定位漂移、地图失真等问题。

论文概述

2.神经辐射场(NeRF

        论文中建立在NeRF-SLAM框架上,引入最新的场景重建技术NeRF,通过神经辐射场提高建图质量。相较于传统SLAM框架在单目深度估计中深度特征图的参数难以使用来恢复几何和光度优良的3D map,使用单目稠密SLAM来提供位姿,深度特征图和概率分布,而将NeRF框架用作建图工作,可以实时构建环境辐射场,利用NeRF中提出的基于不确定性的深度估计损失来实现良好的光线和几何恢复。

        下图来自于NeRF-SLAM的损失函数,在原有RGB传感器颜色损失基础上(L2范数),引入光照和几何参数。

λD:平衡颜色和深度监督参数

LD:计算深度图和不确定性深度图的损失(L2范数)

2.事件相机(Event Camera

        对于以往的SLAM框架,甚至是最新的NeRF-SLAM仍然没有解决的问题,大多数是为光线优良的情况场景而设计,在低光照条件,或受到运动模糊或光照变化等问题,往往容易导致收敛失败。主要原因在于单一的使用了RGB传感器。

        而本文中基于RGB和事件相机结合的NeRF结构进行重建。

        为什么引入了事件相机?事件相机较于RGB相机(传统快门相机)的优势?

        事件相机:使用了一种高动态范围(HDR)传感器,它不会捕捉整个图像帧,而是仅捕捉场景中发生变化的像素点。这些变化被称为“事件”,每个事件包含像素位置、时间戳和光强度变化的信息。

       相较于传统相机,事件相机的优势:

(1)高时间分辨率和低延迟:事件相机能够以微秒级的时间分辨率捕捉场景变化,响应速度非常快,适用于高速运动场景,大大改善运动模糊问题。

(2)高动态范围:事件相机能够捕捉高对比度场景中的细节信息,避免了过曝或欠曝的问题。

(3)鲁棒性:事件相机对光照变化和运动模糊等环境因素更加鲁棒,在恶劣环境下仍能保持良好的性能。

2.事件时间聚合优化策略(ETA

       对于传统使用事件相机的SLAM中,并没有很好的将事件数据与RGB数据高度融合,传统方法引入了基于特征的方法(如USLAM)、直接方法(如EDS),运动补偿方法(如InteriorNet)均存在一些问题。

基于特征的方法:存在运动模糊和光照变化的复杂环境中,缺乏足够的视觉特征,导致跟踪和重建性能下降。

直接方法:对于精确的相机姿态和细致的优化要求较高,难以与事件数据和RGB-D数据有效集成。

运动补偿方法:无法充分利用事件数据的时间差异特性,无法提供高效的连续差异约束,从而限制了性能的提升。

        相较于传统方法,本文EN-SLAM引入了事件时间聚合优化策略,有效利用了事件数据的时间差异特性,大幅提高了跟踪和重建的性能。

2.可微分的CRF渲染技术

        Differentiable CRF是EN-SLAM模型用于融合事件数据和RGB数据的一种技术,本文先建模RGB颜色场,并使用事件生成模型推导事件亮度场,并将统一的神经辐射场分解成的RGB场和事件亮度场两个可微分的色调映射过程,再依据这两个场利用CRF技术重新渲染最终的3D建图的亮度、深度、RGB。

        这一方法,也有效地解决了事件和RGB数据之间的差异,并在真实场景和黑暗场景下均可以渲染出HDR的亮度结果和更准确的网格结构,提高系统的鲁棒性和性能。

3 EN-SLAM模型

      EN-SLAM模型(the first event-RGBD implicit neural SLAM framework),该模型输入RGB图像、RGBD深度图像和事件数据,最终输出Depth、RGB、Luminance三个图,并根据这三个图计算损失函数反馈模型,优化参数。生成模型的输出为三个特征图的融合得到的高质量的三维重建结果以及相机姿态估计。

3.统一的隐式场景表示

        本文由于面临两个挑战(事件数据稀疏性和不同相机成像物理原理不同),EN-SLAM学习了一个共享的统一的隐式场景表示。首先使用多分辨率的几何特征和颜色网格特征描述辐射场,并利用Geometry Decoder将几何关系和颜色映射到几何隐藏向量、辐射场和TSDF(三维点阵距离场)中。

3.辐射场分解

        对于传统NeRF工作,简化了成像过程,而导致渲染图像与真实图像之间的偏差,而在本文工作同时使用RGB-D与事件数据多模态情况下偏差问题进一步放大,而造成视图不一致(即伪影产生),动态范围低(暗区和过曝区信息丢失,而造成跟踪漂移和映射失真)。

        另外由于事件数据捕获对数亮度变化,事件数据的预测无法很好的表示出差异性,本文建模了事件数据的亮度场、辐射、曝光的关系,并将神经辐射场分解为RGB和事件数据两个可微分方向用于后续的CRF渲染。

3.可微分CRF渲染

        根据上面得到的两个可微分的数据流沿着光线方向进行不同的积分操作,得到最终生成图像的颜色、光强、深度信息。

        并将第一步计算的TSDF通过钟形模型生成上式的权重wi。

3.追踪与捆绑调整

        利用事件相机的HDR和时间差异特性,针对追踪与全局BA问题提出ETA策略。

        针对追踪问题:

        使用自适应的事件前向窗口选择策略,即利用前向窗口进行邻域搜索,计算事件损失最小的帧为前向帧,来约束参与优化帧之间的局部稳定性。

        采用概率加权的采样策略,将RGB图像划分为若干patch,并从中随机采样若干射线来计算采样点损失,并将单一patch的平均损失投影到下采样的mini平面来引导事件相机的整体射线采样的反馈操作,最终通过最小化目标函数来调整位姿,这也有利于降低计算成本。

针对全局BA问题:

什么是全局BA

        捆绑调整(Bundle Adjustment)使用最小化重投影误差,可以进行多次迭代,使重构点足够拟合真实值,可以应用于欧式结构、仿射结构和透视结构多种情况,是一个恢复结构和运动的非线性方法。

        在本模型中计算RGBD摄像机与事件相机之间的最小重构化误差,使用固定的迭代次数,相较于传统方法在训练途中增加迭代次数的崩溃问题,这样做仍能在高帧率情况下,保持较高的跟踪精度和鲁棒性。

3.损失函数

损失函数包含五个损失的叠加,分别是Lev,Lrgb,Ld,Lsdf,Lfs。

Lev:事件重建损失,计算事件流域渲染亮度差异(对数亮度)的均方误差。

Lrgb:颜色渲染损失,表示渲染颜色与观测颜色之间的均方误差。

Ld:深度损失,表征渲染的深度与观测深度间的均方误差。

Lsdf:符号距离场(SDF)损失,表征采样点与SDF间的距离平方和。

Lfs:自由空间损失,表示采样点与相机射线之间的距离平方和。

数据集

        相较于以往的SLAM数据集没有令人强运动模糊和亮度变化的挑战,或者缺乏深度信息,本文提出新的数据集DEV-Reals和DEV-Indoors,来进行针对事件相机以及运动模糊与亮度问题场景的评估。

        DEV-Reals数据集:包含LiDAR、Realsense D435I RGBD相机和DAVIS346事件相机等多传感器数据,包含三个场景办公室、车库、宿舍,涵盖不同的照明条件与相机运动速度,这也包含了深度信息和事件相机带来的噪声,更适合评估鲁棒性。

        DEV-Indoors数据集:使用Blender合成的事件相机SLAM数据集,用于评估算法运动模糊和亮度变化下的性能。

5 实验

5.1对比实验

        基于BEV-Indoors数据集、Bev-Reals数据集针对不同的SLAM框架在重建和跟踪性能上进行了比较。由于针对光照影响和运动模糊数据集,在引入事件相机的EN-SLAM模型中高动态范围的提升优势还是相对明显的。

        另外,EN-SLAM相较于其他SLAM框架在运行时间、参数量方面进行了比较,在参数量近似的情况下,FPS提升最为明显达到了惊人的17FPS。

5.消融实验

        分别测试了RGB和事件相机的影响以及CRF和加权采样(PWS)的影响。通过事件相机得到了较低的跟踪误差,并获得了更精确的渲染细节。并证明了CRF渲染和PWS对于事件数据融合的HDR影响较为明显。

        另外,也做了关于ETA策略、迭代设置在多数据集上的消融实验。

5.3 全场景建图的对比

        下图为在不同SLAM框架中,基于BEV-Indoors数据集的不同场景下的不同运动模糊、光照情况下的场景建图。

6 未来工作

6.1大规模室外场景

        该模型目前主要针对室内场景,在大规模户外环境中可能会面临挑战。未来可以考虑扩展模型的适用范围,增强其在户外环境下的泛化能力。

6.2 依赖深度信息

        由于一些数据集中缺失深度信息,或者在某些场景中就难以获得深度信息,考虑未来可以不依赖深度的输入,或建立新的损失函数来反馈系统,并建立弱深度信息数据集来优化模型。

6.3 长距离轨迹

        在实验中我们看到在长距离轨迹问题下,虽然FPS有所提升,但误差整体高于ESLAM模型,考虑到优化运动模糊和光照变化性能而丧失了一部分长距离理解性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/42611.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络安全设备——防火墙

网络安全设备防火墙是一种用来加强网络之间访问控制的特殊网络互联设备。以下是对防火墙的详细解释: 一、定义与基本概念 定义:防火墙是指设置在不同网络(如可信任的企业内部网和不可信的公共网)或网络安全域之间的一系列部件的…

ts-01.泛型(函数和接口)

泛型 泛的意思是:漂浮, 比如泛舟; 泛型: 类型漂浮未定 > 动态类型. 用于: 函数 接口 类 T extends string | number 泛型约束 function a<T any, K> (: number, value: T) { // 泛型参数设置默认值anyconst arr Array<T>(l).fill(value) // [foo, foo, foo] }…

论文研读|AI生成图像检测发展历程及研究现状

前言&#xff1a;本篇博客系统性梳理AI生成图像检测的研究工作。 「人工智能生成图像检测」研究及发展现状介绍 参考资料 https://fdmas.github.io/AIGCDetect/针对AIGC检测的鲁棒性测试——常见攻击手段汇总论文研读&#xff5c;以真实图像为参考依据的AIGC检测论文研读&…

实验五 图像增强—空域滤波

一、实验目的 了解图像平滑滤波器&#xff08;均值滤波和中值滤波&#xff09;和图像锐化算子&#xff08;Sobel算子、Prewitt算子、Laplacian算子&#xff09;在工程领域中的应用&#xff1b;理解图像平滑滤波器和图像锐化算子的工程应用范围&#xff1b;掌握图像平滑滤波器和…

Netty学习(Netty入门)

概述 Netty是什么 Netty的地位 Netty的优势 HelloWorld public class HelloClient {public static void main(String[] args) throws InterruptedException {// 1. 启动类new Bootstrap()// 2. 添加 EventLoop.group(new NioEventLoopGroup())// 3. 选择客户端 channel 实现.…

如何恢复未保存的 Excel 文件

您是否曾经在处理 Excel 工作表时&#xff0c;电脑突然崩溃&#xff1f;您首先想到的是“进度保存了吗&#xff1f;”或“我是否按了 CtrlS 来保存文件&#xff1f;”这种压力是难以想象的&#xff0c;因为意外断电或电脑崩溃可能会让您所有的辛苦工作付诸东流。 无论对于学生…

前端技术(三)—— javasctipt 介绍:jQuery方法和点击事件介绍(补充)

6. 常用方法 ● addClass() 为jQuery对象添加一个或多个class <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0">&…

Educational Codeforces Round 167 (Rated for Div. 2)(A~C)题解

A. Catch the Coin 解题思路: 最终&#x1d465;一定会相等&#xff0c;我们考虑直接到下面接住他。 #include<bits/stdc.h> using namespace std; typedef long long ll; #define N 1000005 ll dp[N], w[N], v[N], h[N]; ll dis[1005][1005]; ll a, b, c, n, m, t; ll…

反编译kasada

继续研究反编译 这次的网站是 一个航司网站 他有 akamai和 kasada 两种防护 akamai 没啥好说的 结构分析 最开始有个长字符串 处理成 一个十几万的数组 通过 r.W[0] 走什么分支 还有数据的存取 M是一个98个函数组成的数组 代表不同的执行逻辑 这里给他转成了 switch case…

pygame 音乐粒子特效

代码 import pygame import numpy as np import pymunk from pymunk import Vec2d import random import librosa import pydub# 初始化pygame pygame.init()# 创建屏幕 screen pygame.display.set_mode((1920*2-10, 1080*2-10)) clock pygame.time.Clock()# 加载音乐文件 a…

RAID的实现

软RAID&#xff0c;在实际工作中使用较少&#xff0c;性能太次。 mdadm工具&#xff0c;主要在虚拟机上使用&#xff0c; 硬RAID 用一个单独的芯片&#xff0c;这个芯片的名字叫做RAID卡&#xff0c;数据在RAID中进行分散的时候&#xff0c;用的就是RAID卡。 模拟RAID-5工作…

麦蕊智数,,另外一个提供免费的股票数据API,可以通过其提供的接口获取实时和历史的股票数据。

麦蕊智数&#xff0c;&#xff0c;提供免费的股票数据API&#xff0c;可以通过其提供的接口获取实时和历史的股票数据。 API接口&#xff1a;http://api.mairui.club/hslt/new/您的licence 备用接口&#xff1a;http://api1.mairui.club/hslt/new/您的licence 请求频率&#x…

element-plus的文件上传组件el-upload

el-upload组件 支持多种风格&#xff0c;如文件列表&#xff0c;图片&#xff0c;图片卡片&#xff0c;支持多种事件&#xff0c;预览&#xff0c;删除&#xff0c;上传成功&#xff0c;上传中等钩子。 file-list&#xff1a;上传的文件集合&#xff0c;一定要用v-model:file-…

孟德尔随机化与痛风3

写在前面 检索检索&#xff0c;刚好发现一篇分区还挺高&#xff0c;但结果内容看上去还挺熟悉的文章&#xff0c;特记录一下。 文章 Exploring the mechanism underlying hyperuricemia using comprehensive research on multi-omics Sci Rep IF:3.8中科院分区:2区 综合性期…

【排序算法】—— 快速排序

快速排序的原理是交换排序&#xff0c;其中qsort函数用的排序原理就是快速排序&#xff0c;它是一种效率较高的不稳定函数&#xff0c;时间复杂度为O(N*longN)&#xff0c;接下来就来学习一下快速排序。 一、快速排序思路 1.整体思路 以升序排序为例&#xff1a; (1)、首先随…

web缓存代理服务器

一、web缓存代理 web代理的工作机制 代理服务器是一个位于客户端和原始&#xff08;资源&#xff09;服务器之间的服务器&#xff0c;为了从原始服务器取得内容&#xff0c;客户端向代理服务器发送一个请求&#xff0c;并指定目标原始服务器&#xff0c;然后代理服务器向原始…

2-27 基于matlab的一种混凝土骨料三维随机投放模型

基于matlab的一种混凝土骨料三维随机投放模型&#xff0c;为混凝土细观力学研究提供一种快捷的三维建模源代码。可设置骨料数量&#xff0c;边界距离、骨料大小等参数。程序已调通&#xff0c;可直接运行。 2-27 matlab 混凝土骨料三维随机投放模型 - 小红书 (xiaohongshu.com)…

CDNOW_master.txt数据分析实战

一、数据详情 该数据集是常见的销售数据集&#xff0c;数据展示的是美国1997后的商品销售数据。包含四个字段&#xff0c;分别是用户id,购买时间&#xff0c;销售量&#xff0c;与销售金额。 二、数据读取与数据清洗 导入必要的包 \s代表的许多空格作为分割&#xff0c;names重…

鸿蒙开发:Universal Keystore Kit(密钥管理服务)【明文导入密钥(C/C++)】

明文导入密钥(C/C) 以明文导入ECC密钥为例。具体的场景介绍及支持的算法规格 在CMake脚本中链接相关动态库 target_link_libraries(entry PUBLIC libhuks_ndk.z.so)开发步骤 指定密钥别名keyAlias。 密钥别名的最大长度为64字节。 封装密钥属性集和密钥材料。通过[OH_Huks_I…

Word文档中公式的常用操作

一、参考资料 二、常用操作 插入公式 Alt 多行公式 Shift Enter 多行公式对齐 WORD Tips: 多行公式编辑及对齐 word自带公式等号对齐&#xff08;可任意符号处对齐&#xff09; 多行公式按照 为基准对齐。 拖动鼠标选中整个公式点击右键&#xff0c;选择【对齐点(…