A. Implementation Details
3D Distillation.
我们基于PyTorch实现。为了提取,我们使用Adam[26]作为优化器,初始学习率为1e−4,并训练100个epochs。对于MinkowskiNet,我们对ScanNet和Matterport3D实验使用2cm的体素大小,对nuScenes使用5cm的体素尺寸。对于室内数据集,我们将场景的所有点输入到3D主干以具有完整的上下文,但对于蒸馏损失(Eq.2),由于内存限制,在本文中,我们在每次迭代时仅使用20K均匀采样的点特征进行监督。对于nuScenes,我们输入半秒片段内的所有激光雷达点,并且仅使用最后一个时间戳处的点特征进行训练。我们为ScanNet和Matterport3D使用了一个batch size为8的NVIDIA A100(40G)。对于nuScenes,我们使用16的batch size和4个A100 GPU。训练大约需要24小时,推理需要0.1秒。此外,对于所有数据集,我们在蒸馏过程中只将3D点位置作为MinkowskiNet的输入。
More Details of Feature Fusion.
对于Matterport3D和nuScenes,我们使用每个场景的所有图像进行融合,而对于ScanNet,我们对每20个视频帧中的1个