作者:Tom Hardy
Date:2020-02-01
来源:MSFNet:多重空间融合网络进行实时语义分割(北航和旷视联合提出)
原文链接:https://arxiv.org/abs/1911.07217
主要内容
实时语义分割是一项具有挑战性的任务,因为需要同时考虑效率和性能,其在自动驾驶、机器人等工业应用中发挥着重要的作用。针对这一复杂的任务,论文提出了一种高效的卷积网络结构:多重空间融合网络(MSFNet)来完成快速和准确的感知。MSFNet在多特征融合模块的基础上,利用类边界监督来处理相关的边界信息,从而获得空间信息,扩大接收范围。网络最后对原始图像1/8大小的特征图进行上采样,在保持较高速度的同时,可以获得良好的分割结果。网络在Cityscapes和CAMVID数据集上的实验表明,与现有方法相比,所提出的方法具有明显的优势。更为具体地,对于1024×2048输入图像,它以41 FPS的速度在Cityscapes测试数据集上达到77.1%的mean IOU,而在Camvid测试数据集上以91 FPS的速度达到75.4%的mean IOU。
创新和改进点
1、论文提出了一种新的多特征融合模块(MFM),利用精心设计的空间感知池(SAP),在保持较小计算开销的同时,扩大接收范围,恢复空间信息的丢失
2、为了解决边缘相关空间信息的丢失问题,论文提出了一种新的类边界监控方法。
3、现有的分割方法主要集中在提高精度上,但是低延时实现实时性能是实际应用中最关键的问题,MSFNet主要针对速度进行改进。
4、在两个基准数据集上的实验表明,论文提出的方法在精度和推理时间上都优于大多数state-of-the-art方法。
网络结构
先前的大多数网络结构通过降低输入分辨率来加快推理速度,但这会严重丢失空间信息,尤其是和边缘相关的信息;还有一些方法通过减少通道来降低计算成本,但这会导致网络的精度急剧下降;除此之外,还有一些轻量级的浅层网络,但这些网络有明显的缺陷,因为它们通常太浅而无法获得足够的感受野。基于上述的种种缺陷,MSFNet在结构上做了相关改进和优化。
MSFNet网络结构
MSFNet的这种结构扩大了感受野并重新弥补空间信息损失,同时保持较小的计算成本。MSFNet中的两个核心:MFM(多特征融合)和SAP(空间感知池化)。
针对SAP:
1、多分支pooling进行处理,论文分支数设为5个pooling和1个unpooling。
2、输出多尺度feature map
针对MFM:
1、将SAP模块中具有相同分辨率的特征图进行聚合输出,最后一个32x down经过SAP处理后,产生6个尺度的feature map,其中,第3~5个feature map分别和前面4x down、8x down、16x down经过SAP处理后与之对应相同分辨率的feature map进行concat。
2、使用3x3的深度可分离卷积进行特征融合,由于聚合后通道数量很多,使用深度可分离卷积可以显著降低成本。
类别边缘信息监督模块:
为了恢复边缘空间信息,进一步提高分割效果,论文提出了两个独立的上采样分支。在上采样过程中,两个上采样分支不相互传递信息。在类别边缘方面,利用Ground Truth边界来监督分割任务,使得网络更加关注边缘类别信息,降低像素级别的错分率。
最后将类别边缘监督信息和上分支feature map进行concat,然后使用深度可分离卷积进行特征融合,输出最终分割结果。
网络损失函数:
这里一共两类损失函数,一个是基于边缘信息的,一个是基于整体输出的,两类损失构成最终的loss,并用一个超参数λ来平衡:
实验结果
论文给出的实验结果,综合考虑速度和mIoU,MSFNet效果最佳!
上述内容,如有侵犯版权,请联系作者,会自行删文。
重磅!3DCVer-学术交流群已成立
欢迎加入我们公众号读者群一起和同行交流,目前有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。