NERF论文笔记(1/2)

NeRF:Representing Scene as Neural Radiance Fields for View Synthesis 笔记

摘要

实现了一个任意视角视图生成算法：输入稀疏的场景图像，通过优化连续的Volumetric场景函数实现；用全连接深度网络表达场景，输入是一个连续的5维坐标，3D坐标+2D角度（航向、俯仰角），输出Volume density和依赖于视图的emitted radiance，查询5维坐标并用经典的Volume Rendering把输出的颜色与强度投影到图像。

介绍

a. march camera rays，我理解为从焦点投射射线到场景，获取3D坐标点。
b. 用3D点 $\bold{x}$ 与对应的2D角度(用单位向量 $\bold{d}$ )输入，输出颜色 $\bold{c}$ 和强度 $\sigma$ 。
c. 合成图像。

Neural Radiance Field场景表达

$F_{\theta}:(\bold{x},\bold{d})\rarr(\bold{c},\sigma)$
输出 $\sigma$ 只与输入位置坐标 $\bold{x}$ 有关， $\bold{c}$ 则与 $\bold{x}$ 、 $\bold{d}$ 有关。

网络结构，输入 $\bold{x}$ 的8层全连接层，均为256通道，各层带ReLU激活，输出 $\sigma$ 、256维特征，此特征再与 $\bold{d}$ 聚合，输入一层带ReLU的全连接层，输出 $\bold{c}$ 。

Volume Rendering

位置坐标 $\bold{x}$ 表达为相机射线 $\bold{r}$ ， $\bold{r}(t)=\bold{o}+t\bold{d}$ ，t是从焦点 $o$ 出发的长度，积分上下界是远端、近端。
$C(\bold{r})=\int_{t_{n}}^{t_{f}} T(t)\sigma(\bold{r}(t))\bold{c}(\bold{r},d)dt\\T(t)=exp(-\int_{t_{n}}^t\sigma(\bold{r}(s))ds)$

$T (t)$ 的含义从 $t_n$ 到 $t$ 累积的transmittance，“the accumulated transmittance along the ray”，是射线从 $t_n$ 到 $t$ 未遇到其他粒子的概率。
求该积分的数值方法，Deterministic quadrature，笔者初步理解是一种数值计算方法，离散化近似：将区间分为N段，从每一段随机取样。
$t_i\sim U[t_n+\frac{i-1}{N}(t_f-t_n),t_n+\frac{i}{N}(t_f-t_n)]$
参考Volume Rendering综述，
$\hat C(\bold{r})=\sum_{i=1}^NT_i(1-exp(-\sigma_i\delta_i))\bold{c}_i\\ T_i=exp(-\sum_{j=1}^{i-1}\sigma_j\delta_j)\\ \delta_j=t_{j+1}-t_j$

两项技术改进

只有上述设计不能达到SOTA，为此添加了两项重要改进，其中第二项是为了高效地实现第一项。

位置编码

直接输入上述5维做渲染，在场景中颜色和几何的高频变化的条件下表现较差，有参考证明深度网络偏向于学习低频函数，并发现在输入网络前用高频函数将数据映射到更高维，网络能更好拟合含有高频变化的数据。5维输入的各个元素 $p$ 被映射为长为2L的向量
$\gamma(p)=(sin(2^0{\pi}p),cos(2^0{\pi}p),...,sin(2^{L-1}{\pi}p),cos(2^{L-1}{\pi}p))$
其中，位置元素L=10，方向元素L=4；各维元素均归一化到 $[- 1, 1]$ 。
Transformer有相似处理，但它的目的是给序列提供位置标签，因为Transformer结构不能标记顺序；NERF中的位置编码则是为了将输入升维以使得它的MLP能拟合更高频函数；从投影重建蛋白质3D结构的模型方法也使用了该思路。
多层采样
采用两个网络，一个粗略，一个精细。首先用第一个网络生成颜色，每条射线输入 $N_c$ 个位置，然后用其结果引导重新采样，使得 $N_f$ 个采样点集中到体元附近，提高有效信息位置的样本权重，使用两次的采样来渲染。