NeRF从入门到放弃3: EmerNeRF

https://github.com/NVlabs/EmerNeRF
该方法是Nvidia提出的，其亮点是不需要额外的2D、3Dbox先验，可以自动解耦动静field。
核心思想：
1. 动、静filed都用hash grid编码，动态filed比静态多了时间t，静态的hash编码输入是(x,y,z)，动态是(x,y,z,t)。
2. 使用flow融合多帧的特征，预测当前时刻的点的前向和后向的flow，最后的动态Feature是0.25pre+0.5+0.25next
3. 用3个head分别预测正常物体、天空和阴影。

3.1 SCENE REPRESENTATIONS

1 Scene decomposition

为了实现高效的场景解耦，把4D场景分解为静态场和动态场，两者都分别由可学习的hash grid(instant NGP) Hs和hd表示。（注，下标s和d分别表示static和dynamic，下文所有表示都是此含义）
这种解耦为与时间无关的特征 hs = Hs(x) 和时变特征 hd = Hd(x, t) 提供了一种灵活紧凑的 4D 场景表示，其中 x = (x, y, z) 是查询点的 3D 位置，t 表示其时间步长。这些特征通过轻量级 MLP进一步转换为动态和静态的feature(gs和gd)，和用于预测每个点的密度 (σs 和 σd)。
在这里插入图片描述

所以这一步得到每个3D点的feature和密度。

2 Multi-head prediction

用三个head分别预测 color sky 和shadow，动态和静态共享共一个color mlp。
该color head以 (gs, d) 和 (gd, d) 作为输入，并为每个点都输出一个静态和动态的颜色；由于天空的深度定义不明确，所以单独加一个head预测天空的深度；添加一个影子的head去表述动态物体的阴影，输出动态对象0-1的标量，调整静态场预测的颜色强度。

由此图可看出，MLP_color的输入分别是动态feature和朝向，shadow head的输入是动态feature，sky head的输入只是朝向（为什么要这么做，因为没有深度信息，不知道采样多少个点）。

在这里插入图片描述

3.2 EMERGENT SCENE FLOW

1 场景流估计（Scene flow estimation）

用flow的head对当前时刻的query点，预测前向和后向的流。最后的动态Feature是0.25pre+0.5+0.25next**

该特征聚合模块实现了三个目标：1）它将流场与场景重建损失（例如 RGB 损失）连接起来进行监督，2）它巩固特征、去噪时间属性以进行准确预测，以及 3）每个点通过其时间链接特征的共享梯度来丰富，通过共享知识提高单个点的质量

Hv和Hd应该是一样的。
在这里插入图片描述

flow部分代码：MLP的最后一层的输出是6维，前3维表示forward flow，后3维表示backwark flow。注意，最后一层mlp是没有激活函数的，以为要预测前后项的flow值，理论上有正负的，所以不能加激活函数。

# ======== Flow Field ======== #
self.flow_xyz_encoder = None
if self.cfg.enable_flow_branch:self.flow_xyz_encoder = HashEncoder(self.cfg.flow_xyz_encoder)self.flow_mlp = nn.Sequential(nn.Linear(self.flow_xyz_encoder.n_output_dims,self.cfg.base_mlp_layer_width,),nn.ReLU(),nn.Linear(self.cfg.base_mlp_layer_width, self.cfg.base_mlp_layer_width),nn.ReLU(),nn.Linear(self.cfg.base_mlp_layer_width, 6),  # 3 for forward, 3 for backward# no activation function for flow)

2 特征聚合模块(Multi-frame feature integration)

预测出forward 和backwark flow后，加到原本的位置，即得到上一阵和下一帧的位置，把上一阵和下一帧的位置都送到动态的mlp网络中。
在这里插入图片描述
上图公式中，gd是动态的mlp，Hd是hash编码，也就是说当前帧点的坐标加上前后相的光流偏移量(Δx,Δy,Δz)后，和上一帧的时间t，再次进行hash编码，然后都送到动态的mlp网络中得到上一帧和下一帧的动态feature，再和当前帧的feature加权平均。