本文对比四篇论文:
[1] Gaussian Splatting SLAM
[2] SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM
[3] Gaussian-SLAM: Photo-realistic Dense SLAM with Gaussian Splatting
[4] GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting
文章目录
- 一、文章概括
- [1] Gaussian Splatting SLAM
- 1. 相机追踪(Tracking)
- 2. 关键帧选取(Keyframing)
- 3. Gaussian的新增和删除
- 4. 三维重建
- [2] SplaTAM
- 1. 初始化(Initialization)
- 2. 相机追踪(Tracking)
- 3. 高斯致密化(Gaussian Densification)
- 4. 高斯场景更新(Gaussian Map Updating)
- [3] Gaussian-SLAM
- 1. 子场景(Sub-map)
- 2. 形状和颜色编码(Geometry and Color Encoding)
- 3. 相机追踪(Tracking)
- [4] GS-SLAM
- 1. 自适应3D高斯扩张重建(Adaptive 3D Gaussian Expanding Mapping)
- 2. 相机追踪(Tracking)
- 3. 关键帧选取
- 4. Bundle Adjustment
- 二、方法的异同
- 共同点
- 不同点
一、文章概括
[1] Gaussian Splatting SLAM
这篇论文主要解决的是一个RGB-D单目相机的三维重建问题。
1. 相机追踪(Tracking)
在估计相机外参时,该方法最小化以下目标函数:
其中 λ p h o \lambda_{pho} λpho是权重超参数,,。
I ( G , T C W ) I(\mathcal{G},\boldsymbol{T}_{CW}) I(G,TCW)表示从外参为 T C W \boldsymbol{T}_{CW} TCW的相机渲染高斯集合 G \mathcal{G} G所得的图片, I ˉ \bar{I} Iˉ是真实图片; E p h o E_{pho} Epho为图片误差。
E g e o E_{geo} Egeo为深度误差,仅在深度信息可用时引入, D ( G , T C W ) D(\mathcal{G},\boldsymbol{T}_{CW}) D(G,TCW)是渲染出来的深度(渲染方式和RGB值类似), D ˉ \bar{D} Dˉ是深度数据。
2. 关键帧选取(Keyframing)
该方法选取关键帧窗口 W k \mathcal{W}_k Wk,选取依据是两帧之间共同可见Gaussians的比例(判断Gaussian是否可见的方法就是判断到该Gaussian的透光率是否达到0.5)。定义共同可见度(covisibility)为当前帧 i i i与上一个关键帧 j j j之间可见Gaussians集合的IoU。若共同可见度低于某个阈值,或相对平移 t i j t_{ij} tij相对于深度中位数较大,则帧 i i i被视为关键帧。
同时,当当前帧 i i i被加入关键帧窗口时,也要移除 W k \mathcal{W}_k Wk中已经陈旧的关键帧。当帧 j ∈ W k j\in\mathcal{W}_k j∈Wk与帧 i i i可见Gaussians的重叠系数(OC, Overlapping Coefficient)小于某个阈值时,就将其移除。OC的定义如下:
3. Gaussian的新增和删除
每个关键帧都会添加新Gaussians。该方法用关键帧中每个像素点的深度 D D D(在单目相机的情形该方法会渲染深度)作为新增Gaussians的参考位置。由于 D D D不一定准确,新Gaussians的深度服从一个均值为 D D D、方差较小的正态分布;对于没有深度估计的像素,新Gaussians的深度服从均值为渲染图像深度中位数、方差较大的正态分布。在一开始还没有Gaussian时,新增Gaussian的位置是随机的。
当关键帧窗口 W k \mathcal{W}_k Wk已满,该方法执行删除操作。如果最近三个关键帧内新增的Gaussians没有在其他至少三帧内观察到,那就将它们移除。不透明度小于 0.7 0.7 0.7的Gaussians也会被移除。
4. 三维重建
这部分的目的是维持一个协调的3D结构并优化新插入的Gaussians。参与优化的帧为 W = W k ∪ W r \mathcal{W}=\mathcal{W}_k\cup \mathcal{W}_r W=Wk∪Wr,其中 W r \mathcal{W}_r Wr是随机选取的两个以往的帧。3D Gaussians的渲染过程没有对沿光线方向的Gaussian进行约束,这可能会导致SLAM过程中出现。因此,该方法惩罚了“拉得太长”的Gaussians,方法是引入各向同性约束(isotropic regularization):
其中 s i \mathbf{s}_i si是第 i i i个Gaussian的缩放参数, s ~ i \tilde{\mathbf{s}}_i s~i是其在各个方向的均值。
对于三维重建部分,该方法求解以下最优化问题: min T C W k ∈ S E ( 3 ) ∀ x ∈ W , G ∑ ∀ k ∈ W E p h o k + λ i s o E i s o \min\limits_{\underset{\forall x\in\mathcal{W}}{\boldsymbol{T}_{CW}^k\in\mathbf{SE}(3)},\mathcal{G}} \sum\limits_{\forall k\in\mathcal{W}}E_{pho}^k+\lambda_{iso}E_{iso} ∀x∈WTCWk∈SE(3),Gmin∀k∈W∑Ephok+λisoEiso其中上标中的 k k k代表第 k k k帧, λ i s o \lambda_{iso} λiso为 E i s o E_{iso} Eiso的系数(是一个超参数)。
[2] SplaTAM
这篇论文处理的对象也是“single unposed RGB-D camera”,即深度单目相机。
该方法引入了“silhouette image”(一种灰度图?)的概念,其计算公式如下:
其中 f i ( p ) f_i(\mathbf{p}) fi(p)代表Gaussian i i i对应于像素 p \mathbf p p的不透明度。令 α i = f i ( p ) \alpha_i=f_i(\mathbf{p}) αi=fi(p)。注意到 1 − S ( p ) = 1 − ∑ i = 1 n α i ∏ j = 1 i − 1 [ 1 − α j ] = 1 − α 1 − ( 1 − α 1 ) α 2 − ( 1 − α 1 ) ( 1 − α 2 ) α 3 − ( 1 − α 1 ) ( 1 − α 2 ) ⋯ ( 1 − α n − 1 ) α n = ( 1 − α 1 ) [ 1 − α 2 − ( 1 − α 2 ) α 3 − ⋯ − ( 1 − α 2 ) ⋯ ( 1 − α n − 1 ) α n ] = ( 1 − α 1 ) ( 1 − α 2 ) [ 1 − α 3 − ⋯ − ( 1 − α 3 ) ⋯ ( 1 − α n − 1 ) α n ] = ⋯ = ( 1 − α 1 ) ( 1 − α 2 ) ⋯ ( 1 − α n ) \begin{aligned} 1-S(\mathbf{p})&=1-\sum\limits_{i=1}^n \alpha_i\prod\limits_{j=1}^{i-1}[1-\alpha_j]\\ &=1-\alpha_1-(1-\alpha_1)\alpha_2-(1-\alpha_1)(1-\alpha_2)\alpha_3 - (1-\alpha_1)(1-\alpha_2)\cdots(1-\alpha_{n-1})\alpha_n\\ &=(1-\alpha_1)[1-\alpha_2-(1-\alpha_2)\alpha_3-\cdots-(1-\alpha_2)\cdots(1-\alpha_{n-1})\alpha_n]\\ &=(1-\alpha_1)(1-\alpha_2)[1-\alpha_3-\cdots-(1-\alpha_3)\cdots(1-\alpha_{n-1})\alpha_n]\\ &=\cdots\\ &=(1-\alpha_1)(1-\alpha_2)\cdots(1-\alpha_n) \end{aligned} 1−S(p)=1−i=1∑nαij=1∏i−1[1−αj]=1−α1−(1−α1)α2−(1−α1)(1−α2)α3−(1−α1)(1−α2)⋯(1−αn−1)αn=(1−α1)[1−α2−(1−α2)α3−⋯−(1−α2)⋯(1−αn−1)αn]=(1−α1)(1−α2)[1−α3−⋯−(1−α3)⋯(1−αn−1)αn]=⋯=(1−α1)(1−α2)⋯(1−αn)这就是光线穿过所有Gaussians后的透光率,所以 S ( p ) S(\mathbf p) S(p)也就是所有Gaussians(叠加)的不透光率。显然 S ( p ) < 1 S(\mathbf p)<1 S(p)<1。当 S ( p ) ≠ 1 S(\mathbf p)\ne 1 S(p)=1时,背景颜色将会对像素颜色有贡献。但是一个完全重建的场景不应该体现出背景颜色,故 S ( p ) S(\mathbf p) S(p)是否接近 1 1 1可以判断该像素点所对光线上的Gaussian重建程度,进而反映置信度。
1. 初始化(Initialization)
第一帧不进行相机追踪,把RT矩阵设置为单位阵。第一帧的所有像素都用来初始化Gaussians。对于每个像素,新增一个颜色为该像素颜色、不透明度为 0.5 0.5 0.5、中心深度为该像素的深度值、半径满足投影到图像上半径为一像素的Gaussian。换言之,半径等于 r = D f r=\frac{D}{f} r=fD,其中 D D D、 f f f分别为深度和焦距。
2. 相机追踪(Tracking)
第 t + 1 t+1 t+1帧,相机的位姿被初始化为第 t t t帧的位姿+一个恒定的速度,例如 E t + 1 = E t + ( E t − E t − 1 ) E_{t+1}=E_t+(E_t-E_{t-1}) Et+1=Et+(Et−Et−1)其中 E t E_t Et是第 t t t帧相机的位置坐标和旋转四元数。然后相机的位姿会经过梯度下降优化,目标函数为 L t = ∑ ∀ pixel p [ S ( p ) > 0.99 ] [ L 1 ( D ( p ) ) + 0.5 L 1 ( C ( p ) ) ] L_t=\sum\limits_{\forall\text{pixel }\mathbf p} [S(\mathbf p)>0.99] [L_1(D(\mathbf p))+0.5L_1(C(\mathbf p))] Lt=∀pixel p∑[S(p)>0.99][L1(D(p))+0.5L1(C(p))]其中 L 1 L_1 L1代表 L 1 loss L_1\text{ loss} L1 loss, D ( p ) D(\mathbf p) D(p)和 C ( p ) C(\mathbf p) C(p)分别代表像素 p \mathbf p p的深度和颜色。 0.5 0.5 0.5是颜色误差的权重(类似于论文[1]中的 λ p h o \lambda_{pho} λpho)。一个很重要的点是loss只计算 S ( p ) S(\mathbf p) S(p)较高的像素,因为这部分的重建已经是较完善的了。如果某一点的深度信息不存在,则 L 1 loss L_1\text{ loss} L1 loss返回 0 0 0。
3. 高斯致密化(Gaussian Densification)
每一帧都会在重建不完全的地方插入新的Gaussians。该方法定义了以下“致密化掩码”来确定应该在哪里插入新Gaussians:
也就是说会在两种情况下新增Gaussian:像素 p \mathbf p p处的 S S S值太小(后面的背景都露出来了),或者此处由Gaussians给出的预测深度 D D D小于真实深度 D G T D_{\mathrm{GT}} DGT且 L 1 L_1 L1误差大于 λ \lambda λ(设为 50 50 50)乘以深度中位数误差(Median Depth Error, MDE)。对每个像素,如果该掩码为真,则以与初始化相同的方式插入新Gaussian。
4. 高斯场景更新(Gaussian Map Updating)
该方法从最新重建结果开始优化。每 n n n帧选取一帧作为关键帧。该方法选取 k k k帧指导优化,包括当前帧,上一帧和 k − 2 k-2 k−2个与当前帧有高度重叠的以前的帧。重叠的判别方式是取当前帧深度图的点云并检查多少个点在每一个关键帧的视锥中。
这部分优化的loss与相机追踪阶段类似,只不过该方法不用 S ( p ) S(\mathbf p) S(p)(silouette mask)了,因为他想对所有像素进行优化。此外,该方法还为RGB渲染添加了一个SSIM loss,并移除不透明度接近 0 0 0或者体积太大的Gaussians,就像Gaussian Splatting原论文所做的那样。
GS原论文中的loss公式:
[3] Gaussian-SLAM
该论文处理的对象依然是真实世界单个相机拍摄的RGBD视频。该方法对好的深度数据有较高要求(见14页Limitations and Future Work)。
1. 子场景(Sub-map)
为了避免灾难性遗忘、过拟合和计算复杂度过高,该方法将输入分块处理,对应不同的子场景。当前的子场景被称为活动子场景(active sub-map)。当当前帧相对于活动子场景首帧的平移超过阈值 d t h r e d_{\rm thre} dthre或欧拉角超过阈值 θ t h r e \theta_{\rm thre} θthre时,就新建一个子场景作为活动子场景。任何时候,算法都只会处理活动子场景。
每5帧取一帧作为关键帧(见Experiments的Implementation Details)。每个关键帧都可能会添加新Gaussians。对于每个子场景的第一帧,算法在帧中颜色梯度较高的区域均匀地选取 M c M_c Mc个点。在随后的关键帧中,算法在渲染的 α \alpha α值低于一个阈值 α n \alpha_n αn的区域随机选取 M k M_k Mk个点。新Gaussian的中心位置是随机选取的点,但还要满足以下要求:在当前子场景、半径为 ρ \rho ρ的邻域内没有其他Gaussian。新Gaussian是各向异性的(即不是球体),它们的缩放参数取当前子场景内离它最近的Gaussian的距离。
算法不会复制或删除Gaussian。算法会渲染一个子场景内的所有关键帧来进行优化,并将40%的迭代次数用在新的关键帧上。
2. 形状和颜色编码(Geometry and Color Encoding)
该论文与[2]一样使用 L 1 L_1 L1范数定义深度误差 L d e p t h L_{\mathrm{depth}} Ldepth和颜色误差 L c o l o r L_{\mathrm{color}} Lcolor,并且也加入了SSIM loss(颜色的 L 1 L_1 L1误差与SSIM之间的权重比例为 5 : 1 5:1 5:1)。同时,该论文也与[1]类似使用了各向同性正则化来惩罚拉得太长的Gaussians: L r e g = ∑ k ∈ K ∣ s k − s ˉ k ∣ 1 ∣ K ∣ L_{\mathrm{reg}} = \cfrac{\sum\limits_{k\in K}|s_k-\bar s_k|_1}{|K|} Lreg=∣K∣k∈K∑∣sk−sˉk∣1其中 s k s_k sk是Gaussian的缩放参数, s ˉ k \bar s_k sˉk是子场景中所有Gaussian缩放参数的均值(这一点与论文[1]不同,[1]中 s ˉ k \bar s_k sˉk是单个Gaussian缩放的均值), k k k是该子场景中Gaussian的ID, ∣ K ∣ |K| ∣K∣是子场景中Gaussian的个数。
该方法以下面的式子作为目标函数优化当前子场景的Gaussians:
3. 相机追踪(Tracking)
这部分优化的是第 i i i帧相机相对于第 i − 1 i-1 i−1帧的相对位姿(relative camera pose)。相机外参的初始值也遵循[2]中的“恒定速度假设”,即当前帧、上一帧和上上一帧的外参呈等差数列(就平移向量和旋转四元数而言)。在优化这部分时,Gaussians的参数是冻结的。这部分的目标函数是
其中 M i n l i e r M_{\mathrm{inlier}} Minlier是两一个布尔掩码,用于排除一些重建不完全的像素,这些像素的深度误差大于当前重渲染深度图中深度误差中位数的 50 50 50倍; M a l p h a = α 3 M_{\mathrm{alpha}}=\alpha^3 Malpha=α3(称为soft alpha mask,其中 α \alpha α是渲染出来的 α \alpha α值,相当于[2]中的 S ( p ) S(\mathbf p) S(p)),用于排除对于光线透明度较高的像素。
[4] GS-SLAM
这篇论文是最早的(2023年11月),其核心是“RGB-D re-rendering”(虽然没说是不是单目相机)。论文提出的方法也依赖高质量的深度数据。
1. 自适应3D高斯扩张重建(Adaptive 3D Gaussian Expanding Mapping)
对于每个关键帧,算法更新并优化3D高斯场景。优化的目标是最小化深度和颜色的 L 1 L_1 L1误差。
自适应3D高斯扩张策略:对于RGB-D序列的第一帧,算法从分辨率为 H × W H\times W H×W的图片中随机选取一半像素并利用深度数据将像素点反投影(back-projecting)到三维空间去,并以这些3D位置初始化Gaussians的中心坐标,此时Gaussians的球谐度数设置为0,颜色(直流分量)设置为像素点的颜色。在第一帧,场景通过重投影误差进行优化。另一半的像素用于将大Gaussians分解成小Gaussians并且从不同方向复制它们,从而弥补缺失的细节。
增加Gaussians:在每个关键帧,新的Gaussians会在不可靠的像素的反投影上创建。判断像素点是否可靠的方法是:检查其累积不透明度 T T T(等于[2]中的 S p S_\mathbf p Sp)是否小于阈值 τ T \tau_T τT或重渲染深度 D ^ \hat D D^的误差 ∣ D − D ^ ∣ |D-\hat D| ∣D−D^∣是否大于 τ D \tau_D τD。这些不可靠的像素点主要就是新观察到的区域。
删除Gaussians:由于自适应方法是不稳定的,有的时候会出现浮游的Gaussians。为了解决这个问题,算法在新增Gaussians后会检查当前相机视锥内的所有可见Gaussians并大幅度地减小位置不在场景表面的Gaussians的不透明度。准确的说,算法检查每个Gaussian中心投影到像平面后对应像素点的真实深度,并比较Gaussian深度与真实深度:二者之差大于阈值 γ \gamma γ,则该Gaussian的不透明度乘以 η \eta η( η < < 1 \eta<<1 η<<1)。
2. 相机追踪(Tracking)
该论文依然遵循[2]中的“恒定速度假设”对相机位姿进行初始化。相机位姿优化的目标函数是颜色误差(注意这里没有用到深度误差)。
由粗到细的相机追踪:为了解决重投影时伪影影响相机位姿估计的问题,论文提出了Coarse-to-Fine Camera Tracking。首先渲染一个长宽各为原来一半的粗粒度图像(像素点是随机选取的),并迭代优化相机位姿 T c T_c Tc次。再用目前得到的相机位姿进行全分辨率的细粒度重投影,并像删除Gaussians的方法一样排除深度不对劲的Gaussians的影响。最后用细粒度图像迭代优化位姿 T f T_f Tf次。注意算法只投影以前观察到的区域。
3. 关键帧选取
选取的标准有两个:
- 图像可靠部分与总大小的比例;
- 当前帧与最近关键帧的差异是否达到阈值 μ k \mu_k μk。
4. Bundle Adjustment
这一阶段算法共同优化相机位姿和3D Gaussians的参数。在关键帧数据库中随机选取 K K K个关键帧用于优化,目标函数和三维重建阶段类似。前一半迭代只优化3D Gaussians,后一半同时优化Gaussians和相机位姿。目标函数如下:
二、方法的异同
共同点
- 均简化了球谐(spherical harmonics)的表示(目的是提升速度)。[1][2][3]直接省略了球谐,用RGB值表示Gaussian的颜色。[4]用最大度数为 1 1 1的球谐,使得表示颜色的系数共有 12 12 12个。
- 深度和颜色误差均采用 L 1 L_1 L1范数。
不同点
未完待续~