VoxelNext
- 通用检测器 vs VoxelNext
- 一、3D稀疏卷积模块
- 1.1、额外的两次下采样
- 消融实验结果
- 代码
- 1.2、稀疏体素删减
- 消融实验:
- 代码
- 二、稀疏体素高度压缩
- 代码
- 三、稀疏预测head
通用检测器 vs VoxelNext

一、3D稀疏卷积模块
1.1、额外的两次下采样
使用通用的3D sparse conv,包含4个stage,每个stage穿插常规稀疏卷积和子流形稀疏卷积,得到的特征分别为F1、F2、F3、F4。


消融实验结果


代码

1.2、稀疏体素删减
在backbone的第2个stage开头会有一个下采样,Voxelnext在下采样的时候计算体素的重要性,根据比例删掉不重要的体素。


消融实验:


代码

二、稀疏体素高度压缩
进入检测head前,直接将F4、F5、F6体素压缩合并。



代码

三、稀疏预测head
与常规的3D目标检测head不同,Voxelnext直接使用稀疏的体素进行预测,训练的时候,靠近GT中心点的体素作为正样本,使用focal loss监督,可视化和统计发现,用来预测box的voxel不一定在box中心点,如下图


推理时使用sparse max pooling 代替NMS,具体过程是先对稀疏的Voxel预测一个score,再使用稀疏卷积的操作做max pooling,只保留max pool kernel里得分最高的voxel。

