GS-SLAM Dense Visual SLAM with 3D Gaussian Splatt 论文阅读

项目主页

2024 CVPR (highlight)
https://gs-slam.github.io/
在这里插入图片描述

摘要

本文提出了一种基于3D Gaussian Splatting方法的视觉同步定位与地图构建方法。
与最近采用神经隐式表达的SLAM方法相比，本文的方法利用实时可微分泼溅渲染管道，显著加速了地图优化和RGB-D渲染。

贡献

本文提出了一种自适应扩展策略，添加新的或删除噪声 3D 高斯，以便有效地重建新观察到的场景几何形状并改进先前观察到的区域。
此外，在姿态跟踪过程中，设计了一种有效的从粗到精的技术来选择可靠的3D高斯表示来优化相机姿态，从而减少运行时间和鲁棒估计。

简介

传统SLAM方法

同步定位与建图 (SLAM) 已成为机器人 [6]、虚拟现实 [10] 和增强现实 [25, 39] 等领域的关键技术。
SLAM 的目标是构建未知环境的密集/稀疏地图，同时跟踪相机姿态。
传统的SLAM方法采用点/面元云[20,32,42,46]，网格表示[26]，体素散列[12,18,23]或体素网格[21]作为场景表示来构造稠密映射，并且已经在定位精度上取得了长足进步。

神经隐式表达方法

最近，神经辐射场 (NeRF) [19] 已被探索用于增强 SLAM 方法，并在生成低内存消耗的高质量、密集地图方面展现出优势 [35]。
iMAP [35] 使用单个多层感知器（MLP）来表示整个场景，该场景通过体积渲染 RGB-D 图像和地面实况观测之间的损失进行全局更新。
NICE-SLAM [55]利用分层神经隐式网格作为场景地图表示，以允许局部更新来重建大场景。
ESLAM[11]、CoSLAM[41]和EN-SLAM[24]利用轴对齐特征平面和联合坐标参数编码来提高场景表示能力，实现高效、高质量的表面地图重建。

最近的工作[13,17,47]使用3D高斯表示和基于图块的泼溅技术在高分辨率图像渲染的效率方面表现出了巨大的优越性。它用于合成静态物体的新视角 RGB 图像，以实时速度实现 1080p 分辨率的最先进的视觉质量。受此启发，本文将3D高斯场景表示和实时可微喷射渲染管道的渲染优势扩展到密集RGB-D SLAM任务，并共同提升基于NeRF的密集SLAM的速度和精度。

方法

3D 高斯场景表示

与3DGS论文中的方法一样，将场景建模为一组带有不透明度和球谐函数的3D 高斯函数。
每个 3D 高斯场景表示 $G_i$ 由位置 $X_i \in R^{3x3}$ 协方差矩阵 $\sum_i \in R^{3×3}$ 、不透明度 $Λ_i \in R$ 和每个颜色通道的 1 度球谐函数 (Y ) 定义， $Y_i \in R^{12}$ 总共有 12 个系数。

然后为了便于优化，将3D高斯协方差表达为一个尺度向量和旋转矩阵的公式。

这里的一系列操作和3DGS论文的处理是一样的。

自适应的3D高斯扩展映射

为了实现稳定的映射，只在给定的关键帧上进行优化和更新。
对于给定的关键帧和对应的估计姿势，首先应用自适应扩展策略从整个场景中添加3D高斯或删除噪声3D高斯，然后用现有的3D高斯渲染一张分辨率为 $H * W$ 的RGB-D图像，通过最小化几何深度 $L_d$ 到传感器观察深度D和光度颜色 $L_c$ 到传感器观察颜色的损失。
自适应的3D 高斯扩展策略
初始化：用RGB-D图像序列第一帧来初始化高斯场景。均匀采样图像分辨率一半的像素，将其分别反向映射到3D空间中对应的点。每一个点除了有位置信息之外还有初始化的3D高斯函数的参数。
剩下的一半像素用于进行高斯自适应密度控制。

添加高斯点步骤：
在每个关键帧，使用历史 3D 高斯添加第一个渲染的 RGB-D 图像，并计算每个像素的累积不透明度。如果这个不透明度低于一定阈值或者，这个像素的渲染深度和观察深度差距大于一定阈值，认为这个像素是不可靠像素，标记为" $x^{un}$ "。这些不可靠像素大多用来捕获新的观察区域。将这些不可靠像素反投影到3D空间的对应点 $P^{un}$ ，并初始化这个点的高斯函数参数。

删除高斯点步骤：
用前面设计的损失函数优化的高斯场景会有很多多余的高斯点。检查当前相机视椎体中所有可见3D高斯，降低位置不在场景表面附近的3D高斯的不透明度。
具体是这样操作的，对于每个可见的 3D 高斯，从相机原点 o 及其位置 $X_i = (x_i, y_i, z_i)$ 绘制一条射线 $r (t)$ ，即 $r(t) = o + t(X_i − o)$ 。然后，可以找到该射线与图像平面相交的坐标为 (u, v) 的像素以及相应的观测深度 D。相当于计算一个渲染深度和观测深度的差值，根据这个差值，计算对应高斯点的透明度。

跟踪和捆绑调整

首先采用常见的简单的恒定速度假设来初始化新的姿势。该假设基于倒数第二个姿势和最后一个姿势之间的相对变换来变换最后一个已知姿势。然后，通过最小化渲染颜色损失来优化准确的相机位姿 P。
可微的姿态估计
这里推导了相机位姿的解析式，简化了结果，便于进行对相机位姿进行优化。
由粗到细的相机追踪
不能用所有图像像素对相机姿势进行优化，因为图像中可能存在伪影（我理解是像素的颜色或者深度不准确）。本文首先用图像规律性仅渲染系数像素集并优化跟踪损失获得粗略的相机姿态，这样能减轻细节伪影的影响。然后用粗略的相机姿态和深度观察来选择可靠的3D高斯，通过进一步优化新渲染像素上的跟踪损失来细化粗略的相机姿态。
捆绑调整
在捆绑调整（BA）阶段，联合优化相机位姿 P 和 3D 高斯场景表示 S。本文从关键帧数据库中随机选择K个关键帧进行优化，使用与映射部分类似的损失函数。为了姿势优化稳定性，仅在迭代的前半部分优化场景表示 S。在迭代的另一半中，同时优化地图和姿势。然后，通过最小化渲染颜色损失来优化准确的相机位姿P。
在这里插入图片描述

实验部分

数据集
用得是Replica和TUM-RGBD
基线
将本文的方法与现有的基于 SOTA NeRF 的密集视觉 SLAM：NICE-SLAM [55]、VoxFusion [48]、CoSLAM [41]、ESLAM [11] 和 PointSLAM [27] 进行比较。
CoSLAM [41]和ESLAM [11]的渲染性能是根据[27]文章中具有相同配置的开源代码进行的。
指标
网格重建：
2D Depth L1
Precision 精确度
Recall 召回率
F-score F分数以 1 厘米为阈值来测量场景几何形状。
对于定位：
absolute trajectory (ATE, cm) error [33] 绝对轨迹误差
对于渲染性能：
peak signal-to-noise ratio (PSNR) 峰值信噪比
SSIM 结构衡量指标
LPIPS 可学习感知图像块相似度
实验结果和细节
参考论文即可，不再赘述