北航、旷视联合,打造最强实时语义分割网络

来源:AI科技评论

编辑:Camel

导语:MSFNet在Cityscapes测试集上达到77.1%mIoU/41FPS(注意是1024*2048),在Camvid测试集上达到75.4 mIoU/97FPS,是目前最强的实时语义分割网络。

下面要介绍的论文由北航、旷视、鹏城实验室发于2019年12月,题为「Real-Time Semantic Segmentation via Multiply Spatial Fusion Network」。

论文地址:https://arxiv.org//abs/1911.07217

实时语义分割在许多工业应用如自动驾驶,机器人等发挥了重要的作用。这是一项有挑战性的任务,需要同时考虑到速度和精度。为了解决这个复杂任务,这篇论文提出了一个有效的多空间融合网络(MSFNet)以实现快速和准确的分割。MSFNet 基于本文提出的多特征融合模块,并使用类边界监督来处理相关的边界信息,该模块可以获取空间信息并扩大感受野。

因此,对最后尺寸为原始图像尺寸 1/8 的特征图进行上采样就可以在保持高速的同时获得很好的精度。在 Cityscapes 和 Camvid 数据集上进行的实验表明,此方法具有绝对的优势。具体来说,MSFNet 在 Cityscapes 测试集上 77.1%mIoU/41FPS(注意是 1024*2048),在 Camvid 测试集上 75.4 mIoU/97FPS。

1、研究背景

语义分割旨在为每个像素分配一个类别,这是计算机视觉的一个重要任务。已经有大量的语义分割技术被提出以支持不同的应用如自动驾驶,视频监控和增强现实等。现有的方法主要集中在提高精度上,但是低延时实现实时性能是实际应用中最关键的问题,因此最近越来越多的研究关注到实时语义分割。

一些方法通过降低输入分辨率来加快推理速度,但这会严重丢失空间信息,尤其是和边缘相关的信息。其他一些方法通过通道缩减以降低计算成本,但这会导致网络的精度急剧下降。

另外一种常见的思路是使用轻量级的浅层网络,但这些网络有明显的缺陷,因为它们通常太浅而无法获得足够的感受野。这些缺陷使得网络难以保存目标的空间信息并严重导致性能下降。此外,缩减通道数也会减弱网络的特征表达能力。上面所有的因素都会限制现有网络的实时语义分割性能。为了解决实时语义分割的难题,已经有多种网络结构被提出,如Figure2所示:

空间金字塔(SPP)是一种广泛使用的结构,可以扩大感受野,但它也会严重增加计算成本,且无法弥补空间信息的损失。U性结构可以在一定程度上缓解上述问题,但仍然需要大量的计算成本。此外,仅仅通过合并特征图很难获得足够的感受野并完美弥补空间信息的损失。

另外一个特征重用的代表性结构有益于特征提取和扩大感受野,它的优点是参数更少,速度更快。但是,它和SPP类似无法弥补因下采样导致的空间信息丢失。通过分析现有的网络架构,论文发现关键是如何扩大感受野并重新弥补空间信息损失,同时保持较小的计算成本。

基于此,论文提出了多层空间融合网络(MSFNet)可以解决上面的问题。MSFNet的核心组件是多特征融合模块(MFM),如Figure2所示。它使用所有不同尺度的特征图和更大的融合从而扩大了感受野并恢复了更多的空间信息。基于此模块,最终的特征图(原始图像尺寸的1/8)将包含足够的空间信息,并显著降低计算成本。此外,论文还提出了类边界监督以避免边缘相关空间信息的损失。 

2、方法

在这一节,将详细介绍本文的MSFNet。这里首先介绍具有空间感知池化的多特征融合模块。然后在多特征融合模块的基础上,介绍两个上采样分支并强调边界监督。整个网络的结构如Figure3所示。

2.1 多特征融合模块

现有的实时语义分割网络通常使用下采样来获取高级语义信息并降低计算成本。但是,在多次下采样之后高级语义层中的空间信息将严重丢失。高层特征图中目标分辨率较小,无法准确保留其形状。为了解决此问题,某些方法使用空间金字塔池化(SPP)或者Atrous空间金字塔池化(ASPP)来扩大感受野。但是这些特殊结构通常用于丰富高层语义信息,而不是低层空间信息。

空间感知池化 基于上述分析,本文提出了一个称为空间感知池化(SAP)的新结构,该结构接在主干网络的每个残差块之后。为了提取丰富的特征,使用了多个步长为s并且核大小k为2s+1的池化层。对于高分辨率(1024x2048)图像,分别在5个残差块上下采样了5次。

更正式地,每个残差块的输出被表示为:  ,其中H和W是输入长宽,C是通道数,  是滑动步长。池化操作被定义为  ,其中步长  且核尺寸为  (这个公式原论文有错,我已经找论文的作者确认了),设置  。空间感知池化模块的输出被定义为:

其中  是第 i 个残差模块的空间感知池化模块的第j个输出。特别地, 不用于上采样,因为该特征图尺寸为原图的1/4,而本文的网络是直接从原图分辨率1/8的特征图上采样得到输出。大的感受野和空间信息的恢复对于语义分割都是非常重要的。通过本文设计的结构可以弥补空间信息的丢失,并可以一定程度上扩大感受野。并且,此方法在每个感受野层次都具有更好的空间信息恢复能力,并且在不增加计算成本的情况下极大的提高了性能。

特征融合 本文将输出和SAP模块中具有相同分辨率的特征图进行聚合输出,然后使用3x3的深度可分离卷积进行特征融合,由于聚合后通道数量很多,因此使用深度可分离卷积可以显著降低成本。这样不仅可以合并主干网络中不同层提取的特征增加信息的流动性,而且可以增强语义层对空间信息的敏感性。

边界监督 许多方法使用边界监督来提高分割网络的准确性。这些网络大多数都是将边界分类为一类,并在损失函数中使用边界监督,这意味着它们仅将边界用于辅助监督。和这些方法不同,本文使用从主干网络中提取得特征来实现特定类别的边界监督。

2.2 边界监督

许多现有的方法将输出特征图上采样到原图大小的1/4,然后使用双线性插值处理为原始图像尺寸。本文发现,原始图像大小的1/4是1/8的4倍,是1/16的16倍。这意味着在通道数相同的情况下,和使用1/8大小特征图相比,使用1/4大小特征图需要4倍计算成本。基于本文提出的多特征融合模块,上采样分支可以通过从原始图像尺寸的1/8大小的特征图进行上采样来执行分割。注意到,编码器中的浅层具有丰富的空间信息。

但是,由于最终特征图的尺寸较小,它们无法完全恢复与边缘相关的信息。为了克服上述问题造成的精度损失,本文提出了一种独特的多任务上采样解码器,以实现类边界监督。多特征融合模块在每个阶段都丰富了高质量的特征,这使我们能通过快速的上采样分支实现令人满意的精细分割结果。

为了恢复边缘空间信息并进一步改善结果,本文提出使用两个独立的上采样分支。在上采样过程中,两个上采样分支不将信息传递给彼此。对于边界,本文提出使用真实边界来监督分割任务,这更加关注边缘轮廓。每个上采样阶段都有不同的分辨率。它有两个输入,一个是前一阶段的双线性上采样特征图,另一个是具有与该特征图相同分辨率的特征融合模块的输出特征图。最后,当分辨率为原始图像尺寸的1/8时,可以通过使用深度可分离卷积来融合两个上采样分支,以获得最终的输出。

2.3 网络结构

首先,多特征融合模块考虑了感受野和空间信息对语义分割网络进行了改进。并且修改后的网络并没有增加额外的计算成本。MSFNet是一个密集的网络框架,效率更高,它和U型结构的网络完全不同。其次,本文使用了一个独立的分支进行边缘相关的信息提取,可以有效地实现类边界监督并纠正最终的分割结果。总之,MSFNet是一种典型的编解码网络结构。同时为了进行实时推理,必须选择轻量级的主干网络来提取特征。另外,类边界监督是一个独立的模块,也可以轻松地应用于其他不同的网络结构。

Backbone 本文使用的主干网络是轻量级的ResNet-18,该模型在ImageNet进行了预训练。如何有效地捕获上下文语义信息对于语义分割仍然是一个有挑战性的问题。同样,多特征融合模块也需要丰富的上下文信息。ResNet-18有4个不同的残差块,每个残差块由2个3x3卷积和一个跳跃连接组成。这种网络设计可以更好地支持本文的多功能融合模块对上下文语义信息的需求。ResNet-18可以实现实时性能并保证高质量的特征提取。

损失函数 此网络中,使用辅助损失函数来监督提取和边缘空间信息相关的上采样分支。此外,使用主干损失函数来监督整个网络的输出。所有的损失函数都是公式2中展示的标准交叉熵损失。

此外,还引入了一个参数  来平衡两个损失以更好的提升分割网络的性能,如公式3所示,其中y表示网络的预测结果,y’代表真实标注信息。

3、实验

因为MSFNet被设计为对高分辨率图像进行高效的分割,因此本文在Cityscapes和Camvid上进行了性能评估。这里首先介绍一下两个数据集和代码实现细节。然后分析本文提出的网络及组成部分的效果。最后,给出了相对于已经存在的实时语义分割网络MSFNet的性能对比结果。

3.1 数据集

Cityscapes Cityscapes收集了来自50个不同城市的大型城市街道场景数据。它包含5000个带有精细注释的图像和19998个分辨率高达1024x2048的带有粗略注释的图像。根据Cityscapes的标准设置,将带有注释的2975张图像进行训练,500张进行验证,其余1525张进行测试。此外,它包含30个类别,但仅考虑19个类别进行训练和评价。本文的实验仅使用带有注释的图像。

Camvid Camvid是从视频序列中提取的一个著名街景数据集。它包含701个带注释的图像,按照一般方法,用于训练的图像是367个,用于验证的图像是101个,用于测试的的图像为233个。该数据集包含11个分辨率最高为720x960的类别。

3.2 实现细节

论文使用Adam优化器训练模型。更具体地,批量大小为12,权重衰减为  。初始学习率设为0.0001并使用余弦衰减策略,学习率最低衰减到0.000001。在Cityscapes上训练了350个epoch,在Camvid上训练了700个epoch。对于数据增强,论文使用了随机水平翻转和减均值。另外,使用[0.5,2]中的随机值作为图像尺度进行缩放。接着,在Cityscapes上随机将图片裁剪到1024x1024大小,而在Camvid上则裁剪到768x1024大小。

3.3 网络结构分析

这一部分实验中,论文使用Cityscapes验证集进行评估。为了公平起见,不使用任何测试增强策略如多尺度预测或者多模型融合。同时,为了更准确的分析实验,这里使用mIOU作为评价标准。

多特征融合模块 先来讨论一下多特征融合模块,它为上采样分支中的每个阶段提供了必要的特征信息。如Table1所示,随着主干网络中每个阶段的池化操作次数从0增加到2,分割的准确率从72.2%提高到了75.3%。注意池化次数为0表示普通的U型结构。当池化的次数从4增加到5时,准确率大大提高,并且mIOU高达77.2%。

论文指出5次池化的性能大大提升时因为此时的特征图非常小,模型可以融合全局信息促进梯度信息的传播并促进模型更好的提取不同层次的特征。论文还尝试将主干网络每个阶段的特征图聚合到最小的特征图上,但是和在主干网络中每个阶段池化5次相比结果更差了,分割的准确率从77.2%下降到了75.3%。性能下降的原因是主干网络中的浅层会带来一些噪声。同样,浅层特征图中的语义信息也不丰富,这可能不利于高层全局语义信息的提取。

池化核的尺寸是  ,这将提升模型的鲁棒性。这样的参数设置方式会让特征图中的每个像素可以至少被四个窗口捕获,从而提高了特征融合的性能。预料之中,论文使用膨胀卷积代替池化的时候效果更差。虽然膨胀卷积可以在增加感受野的同时保留空间信息,但本文的多特征融合模块并不需要维持原始的空间分辨率。如Table 5所示,当池化核大小等于步长时可以获得76.2%的mIOU值,而当使用3x3膨胀卷积时,则只有74.8%的结果。

分类边界监督 为了解决边缘空间信息的损失,本文提出了基于两个完全独立上采样分支的类边界监督(CBS),其中一个被强制监督以提取边缘空间信息。在这里,主要来探讨一下类边界监督中真实边界的宽度以及边界损失计算。首先定义一个  表示边界的宽度。一个像素是边界像素当且仅当在  距离内至少有一个像素和当前像素不属于同一类别时,像素才是边界像素。论文使用两种方法来计算边界损失。第一种是使用双线性插值将1/8的特征图上采样到原图大小,而另一种方法是直接在1/8特征图中计算损失。

如Table4所示,将1/8特征图上采样到原图大小会导致性能下降。原因是因为双线性上采样会导致边界不连续,这会干扰主分支的分割性能,从而引起波动。但是当在1/8特征图中计算损失的时候,可以避免这种不连续空间特征引起的较大波动。从Table4可以看出当边界宽度为1时,可以获得最高的分割精度。

为了更好的比较,论文进行了Table3所示的不同边界监督实验。

将边界像素的类别设成1,其它设成0,可以看到这种策略导致分割精度从77.2%降低到76.3%。对于0/1边界监督方法,它对提高分割性能具有一定的效果。但是,由于本文的边界监督是在网络的最后阶段进行的,所以它无法更好的识别类别。最后对带有多特征融合模块的网络的上采样分支个数和融合方法进行了消融实验。

可以看到,当使用一个上采样分支时不论怎么融合性能都比较差。这是因为这个网络的上采样分支是一个简单的解码器,无法同时学习多任务并且多任务带来的噪声会影响语义分割性能。当使用两个分支消除噪声后,语义分割的性能大大提高,即使不融合也可以获得76.0%的mIOU。

整个模型 最后,来看一下MSFNet的最终表现结果。如Table7所示,基于“U-shape-8s”,它也从原始图像1/8的特征图执行了最终的上采样,本文的多特征融合模块可以实现巨大的提升,将其准确率从71.1%提升到76.0%。为了解决边界丢失的问题,本文提出的基于两个上采样分支的类边界监督可以进一步提高模型的分割性能,从76.0%提升到77.2%。

3.4 速度和精度对比

Table6展示了MSFNet的准确性和速度的对比。

本文使用500个1024x2048分辨率的测试图像报告结果,实验环境是虚拟机上的单个GTX 2080 Ti GPU。与Swiftnet类似,本文在推理时将BN层排除在外,因为BN可以和卷积融合。MSFNet的一些可视化结果如Figure4所示,

使用此网络可以在Cityscapes上实现高性能的语义分割。

3.5 在其它数据上的结果

为了验证本文方法的通用性,还在Camvid数据集上进行了实验。该数据集的分辨率为720x960。为了更好的适应本文的模型,将原图大小调整为768x1024进行训练和测试。同时空间感知池化里面的5次下采样这里改为3次以更好的适应这种图像分辨率。另外为了进一步证明这种方法的通用性,本文将原图的分辨率改为512x768进行了同样的训练和测试。最终的测试结果如Table8所示,

可以看到在mIOU达到最高的情况本文的MSFNet的速度也是SOTA。

4、结论

本文提出了一种基于空间感知池化的新型多特征融合模块,极大的提高了实习语义分割的性能。并在此基础上提出了类边界监督技术,以弥补边缘相关的空间信息损失。最后,本文在Cityscapes和Camvid数据集上验证了本方法的有效性。结果表明,MSFNet在速度和准确性都比现有的SOTA方法提升大很多。

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/488774.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

oracle text类型_数据库的一些注入技巧Oracle

默认数据库SYSTEMSYSAUX注释--SELECT * FROM Users WHERE username OR11 -- AND password ;查询版本信息SELECT banner FROM v$version WHERE banner LIKE Oracle%;SELECT banner FROM v$version WHERE banner LIKE TNS%;SELECT version FROM v$instance;数据库凭证SELECT u…

Java 装箱和拆箱

转载于:https://www.cnblogs.com/jiangxifanzhouyudu/p/6629165.html

中科院计算所关于“木兰”语言问题处理情况说明

来源:中国科学院计算技术研究所 近日,网上出现质疑“木兰”语言的信息。我所获知这一情况后高度重视。经所科研道德委员会初步调查,“木兰”语言系我所员工刘雷创办的中科智芯公司研发的面向青少年编程教育的集成化产品,该产品的开…

用python表白代码_如何用Python代码向心爱的姑娘花式表白?

刚好之前用turtle 写过一个https://www.zhihu.com/video/1058809172984004608 这是我当时自学python第二天写的一个,书上讲到了一个turtle模块,可以用来画一些简单的图,自己突发奇想就在纸上大概设计了一下图形,算了算长度后&…

CSS3 Flex布局(伸缩布局盒模型)学习

CSS3 Flex布局(伸缩布局盒模型)学习 转自:http://www.xifengxx.com/web-front-end/1408.html CSS2定义了四种布局:块布局、行内布局、表格布局盒定位布局。 CSS3引入了一种新的布局模式——Flexbox布局,即伸缩布局盒&a…

qtablewidget添加item不显示_企业微信聊天工具栏可以添加哪些应用?企业微信聊天工具栏不显示是什么原因?...

使用企业微信营销的朋友们应该都知道,企业微信有聊天侧边栏,我们可以在里面添加常用应用,提升运营效率,但是有很多用户反映,自己的企业微信中没有聊天工具栏,这是什么原因呢?这时可能有以下两种…

5G将如何推动未来十年智能城市的发展

来源: IEEE电气电子工程师过去十年的结束标志着部署5G的技术军备竞赛。移动运营商竞相安装网络基础设施,在澳大利亚、中国、韩国、瑞士和美国等数十个国家提供每秒超过1千兆的无线连接。但是,为什么这么匆忙?在2019年的IEEE GLOBE…

接口自动化- 基于 Python

准备工作 这部分其实在谷歌或者百度上搜索下就可以完成的,可是我就是想再啰嗦一遍,说不定有比我更懒的同学呢哈哈~ 第一步 Python的安装配置 打开官网: https://www.python.org/downloads/ 目前官网上已经更新到3.6.1啦(这更新速度我是服的&…

vscode c++ 快捷键_[工具篇]提高开发幸福度的VSCode配置[更新中...]

工欲善其事,必先利其器。基于上文把keil与外部编辑器vscode结合一起,达到keil作为编译与调试工具,而vscode作为编辑工具,如今其插件之丰富能与vim媲美,所以现在本文主要介绍本人对VSCode的一些个性配置,以便…

【平行驾驶】王飞跃 | 人工智能与智能汽车:在CPSS中驶向第三轴心时代

来源:车百智库【导读】1月10-12日,2020中国电动汽车百人会论坛在钓鱼台国宾馆隆重召开。青岛智能产业技术研究院院长王飞跃教授受邀出席并作精彩报告,讲述了平行驾驶理论及其当前的矿山无人化应用。王飞跃教授表示,平行驾驶是一种…

poj 3485 区间选点

题目链接:http://poj.org/problem?id3485 题意:X轴上公路从0到L,X轴上下有一些点给出坐标代表村庄,问在公路上最少建几个出口才能使每个村庄到出口的距离不超过D。 以村庄为圆心,半径为 d 画圆,与公路相交…

python return函数_Python函数(一)-return返回值

定义一个函数可以在最后加上return返回值,方便查看函数是否运行完成和返回函数的值 # -*- coding:utf-8 -*- __author__ "MuT6 Sch01aR" def test(): print(test) def test1(): print(test1) return 8 def test2(): print("test2") return 4,t…

吉林大学计算机英语成绩,吉林大学复试出结果,初试分差84分,复试成绩却相差无几!...

原标题:吉林大学复试出结果,初试分差84分,复试成绩却相差无几!2021届考研的同学有不少同学已经完成复试,但也有一部分同学还正在忙着准备复试科目,各大高校近期也纷纷发布出了2021年研究生复试的相关工作安…

势如破竹!169 篇论文带你看 BERT 在 NLP 中的 2019 年!

来源: AI科技评论 编译 | JocelynWang编辑 | 丛末2019 年,可谓是 NLP 发展历程中具有里程碑意义的一年,而其背后的最大功臣当属 BERT !2018 年底才发布,BERT 仅用 2019 年一年的时间,便以「势如破竹」的姿…

linux运行nodejs一般路径_NodeJS和命令行程序

奇技指南本文来自奇舞周刊公众号,转载请注明出处。作者:刘观宇,360 奇舞团高级前端工程师、技术经理,W3C CSS 工作组成员。源 起植根于Unix系统环境下的程序,很多都把贯彻Unix系统设计的哲学作为一种追求。Unix系统管道…

计算机怎么允许用户安装文件,如何禁止安装某个软件?电脑不允许安装软件的方法...

如何禁止安装某个软件?想要禁止安装软件,可以在组策略中直接启用软件安装规则,但如果只是想要禁用某个软件的安装,则需要用户将该软件的证书进行一个限制,证书不通过,自然无法安装,下面是操作步…

Docker日志收集最佳实践

传统日志处理 说到日志,我们以前处理日志的方式如下: 日志写到本机磁盘上 通常仅用于排查线上问题,很少用于数据分析 需要时登录到机器上,用grep、awk等工具分析 那么,这种方式有什么缺点呢? 第一&#x…

2020年10个诱人的技术里程碑

来源:IEEE电气电子工程师心理控制仿生四肢将首次亮相波士顿马拉松麻省理工学院的研究人员已经开发出一种只用思想控制仿生肢体的方法。2016年首次在人类身上试验。2020年,当在阿富汗失去腿的老兵Brandon Korona用他的新仿生肢参加波士顿马拉松比赛时&…

耶鲁大学计算机科学录取,耶鲁大学计算机科学研究生Offer及录取要求

对于打算去耶鲁大学读研究生的学生来讲,耶鲁大学研究生申请要求及耶鲁大学研究生专业介绍是学生最关心的问题。本文香港介绍耶鲁大学研究生申请要求及耶鲁大学研究生的专业介绍,帮助更多的学生更好的了解耶鲁大学。耶鲁大学研究生申请要求及专业介绍耶鲁…

什么是智能仓储?一文带你彻底搞懂!

来源:机器人网什么是智能仓储?智能仓储是仓库自动化的产物。与智能家居类似,智能仓储可通过多种自动化和互联技术实现。这些技术协同工作以提高仓库的生产率和效率,最大限度地减少人工数量,同时减少错误。在手动仓库中…