Facebook人工智能实验室提出「全景分割」,实现实例分割和语义分割的统一

原文来源arxiv

作者:Alexander Kirillov、Kaiming He1、Ross Girshick、Carsten Rother、Piotr Dollar

「雷克世界」编译:嗯~阿童木呀、KABUDA


现如今,我们提出并研究了一种新的“全景分割”(Panoramic segmentation,PS)任务。可以这样说,全景分割将传统意义上相互独立的实例分割(检测和分割每个目标实例)和语义分割(为每个像素分配一个类标签)任务统一起来了。这种统一是自然的,并在一种孤立的研究状态中呈现出一种既不存在于实例中,也不存在于语义分割中的全新的挑战。为了衡量任务执行的性能表现,我们引入了一种全景质量(panoptic quality ,PQ)度量标准,并表明它非常简单且具有可解释性。在使用PQ的情况下,我们在三个现有数据集上研究了人类性能表现,其中,这些数据集要有必要的PS注释,这将有助于我们对任务和度量标准进行更好的理解。我们还提出了一种基本的算法方法,将实例和语义分割的输出结合到全景输出中,并将其与人类的性能表现进行比较。可以这样说,在分割和视觉识别方面,PS可以作为其未来挑战的基础。我们的目标是通过邀请社区探索所提出的全景分割任务从而推动在全新方向的研究。

 

对于给定的(a)图像,我们展示了以下任务的参照标准:(b)语义分割(每个像素具有类标签),(c)实例分割(每个目标具有掩码和类标签),以及(d)提出的全景分割(PS)任务(每个像素具有类+实例标签)。全景分割泛化了语义和实例分割,并要求识别和描绘图像中的每个可见的目标和区域。我们希望这个统一的分割任务能够提出新的挑战,并创造新的方法。


在计算机视觉发展的早期,things(事物)——诸如人、动物、工具等可以计数的物体,得到了占据主导地位的关注。在质疑这种趋势是否存在智慧性时,Adelson提高了研究系统的重要性,而这种系统能够识别出stuff(材料)——诸如草、天空、道路等类似质地或原料的非晶区域。事物和材料之间的这种二分法一直沿用至今,既反映在视觉识别任务的划分上,也体现在针对事物和材料任务开发的专用算法中。


学习材料的任务通常被看作是一项称之为语义分割的任务,见图1b。由于材料是无定形的、不可数的,这个任务被定义为简单地为图像中的每个像素分配一个类别标签(注意,语义分割将事物类别视为材料)。相比之下,研究事物的任务通常被表述为目标检测或实例分割任务,其目的是检测出每个目标,并用边界框或分割掩码对其进行描述,参见图1c。虽然这两个视觉识别任务看似相关,但是在数据集、细节和度量标准上有很大的不同。

 

分割瑕疵。图像被缩放和裁剪。顶部行(Vistas图像):两个注释器都将目标识别为一辆汽车,然而,人将一辆汽车分成了两辆车。底行(Cityscapes图像):分割是非常模糊的。


语义和实例分割之间的分裂导致了这些任务方法中出现了平行分裂。材料分类器通常建立在具有扩张的完全卷积网络上,而目标检测器通常使用的是目标提案(object proposals),且是基于区域的。在过去的十年中,这些任务的总体算法进展是不可思议的,然而,如果将这些任务孤立起来看,就可能会忽略一些重要的内容。


在这项研究中,我们会问:things和stuff之间是否可以和解?是否存在这样一个简单的问题表述,能够优雅地将这两个任务涵盖在内?一个统一的视觉识别系统会是什么样子的呢?

 

分类瑕疵。图像被缩放和裁剪。顶部行(ADE20k图片):简单的错误分类。底行(Cityscapes图像):现场是非常困难进行分类的的,有轨电车是正确的分类。其中许多错误难以解决。


考虑到这些问题,我们提出一个既包含things又包含stuff的新任务。我们将所得到的任务称为全景分割(PS)。全景的定义是“一个视图中可见的一切”,在我们的上下文中,全景视图指的是分割的统一的全局视图。PS的任务表达看似简单:图像的每个像素都必须分配一个语义标签和一个实例ID。具有相同标签和ID的像素属于同一个目标,而对于材料标签而言,实例ID被忽略。参照标准和机器预测都必须有这种形式。见图1d的可视化。


全景分割是语义分割和实例分割的泛化,但引入了新的算法挑战。与语义分割不同,全景分割需要区分单个目标实例; 这对完全卷积网络提出了挑战。与实例分割不同的是,在全景分割中目标分割中必须是非重叠的,这对独立于操作每个目标的基于区域的方法提出了挑战。 而且,这项任务需要同时识别出things和stuff。为全景分割设计一个干净的、端到端的系统是一个开放的问题,需要探索创新的算法思想。

 

Cityscapes(左二)和ADE20k(右三)的全景分割结果。预测是基于最先进的实例和语义分割算法的合并输出进行的。匹配部分的颜色(IoU> 0.5)(交叉阴影图案表示不匹配的区域,黑色表示未标记的区域)。最呈现的是最好的颜色和变焦。


我们新的全景分割任务需要一个新的度量标准。我们努力使我们的度量标准完整、可解释、简单。或许,令人惊讶的是,对于我们这看起来复杂的任务,存在一个满足这些性质的自然度量标准。我们定义了全景质量(PQ)度量标准,并且表明了它可以被分解为两个可解释的术语:分割质量(SQ)和检测质量(DQ),而且还可以进一步细分精度。


由于全景分割的参照标准(ground truth)和算法输出都必须采用相同的形式,因此我们可以在全景分割上对人类性能(human performance)进行详细的研究。这使我们能够更详细的了解全景质量度量标准,包括检测与分割的详细分析,以及材料与事物(stuff 和things)的性能对比。并且,测量人体PQ有助于我们理解机器的性能。这点非常重要,因为它可以让我们监测全景分割中各种数据集上的性能饱和度。


最后,我们对全景分割的机器性能进行初步研究。为此,我们确定了一个简单但可能不是最优的启发式算法,该算法通过一系列后处理步骤(post-processing steps)(实际上是一种非最大抑制的复杂形式)将两个独立系统的输出结合起来进行语义和实例分割。我们的启发式算法为全景分割建立了一个基线,并为我们提供了有关它所呈现出的主要算法挑战(main algorithmic challenges)的见解。


我们在三个通用分割数据集上研究了人和机器的性能,这三个数据集都包含材料与事物(stuff 和 things)注释。这些数据集分别是Cityscapes、ADE20k和Mapillary Vistas。对于每个数据集,我们都直接从挑战组织者那里获得了最先进方法的结果。在未来,我们将把分析工作扩展到COCO(在COCO中材料(stuff)被注释)上。我们将这些数据集合在一起,为研究人类和机器在全景分割上的表现奠定了坚实的基础。


我们的目标是通过邀请社区以探索新的全景分割任务从而推动新方向的研究。我们认为,拟定的任务会导致预期之内和预期之外的创新。最后,我们来探讨一下这些可能性以及我们未来的计划。


出于简单化的目的,本文中提出的PS“算法”是基于最优执行实例和语义分割系统中输出的启发式组合。这个方法是基本性的第一步,但我们希望引入更多有趣的算法。具体而言,我们希望看到全景分割至少在两个方面的创新:(1)深度集成的端到端模型可同时解决全景分割的双重性质。许多实例分割方法都被设计为用于产生不重叠的实例预测,并可以作为此系统的基础。(2)由于全景分割不能有重叠的部分,因此某种形式的高层次“推理”可能是有益的,例如,将基于可学习的NMS扩展到全景分割中。我们希望全景分割任务能够推动这些领域的研究,进而带来令人眼前一亮的新突破。


原文链接:https://arxiv.org/pdf/1801.00868.pdf


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497657.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

art.dialog弹出框后再根据其内部iframe的大小调整大小

1、主页面,用来弹出弹出页面 //查看错误小练习$.exerciseClick function(rowId ){$.event.get().preventDefault();var tdScore $("#" rowId).find("[aria-describedbyhomeworkStudentListGrid_score]");if( parseInt(tdScore.html()) 100 …

句子录音打分代码参考

1、页面名称:sentenceReadRecordDialogAnyone.jsp 2、页面效果 3、页面源码 <% page language"java" pageEncoding"UTF-8" contentType"text/html;charsetUTF-8"%> <% include file"/common/taglibs.jsp"%><script la…

工具用途_见微知著,小工具大用途!

为什么同一个饮品&#xff0c;店家做的尝起来如此美味。拿到配方后自己做的不是甜了就是酸了呢&#xff1f;相信很多朋友都有这种疑惑。但真相往往就会在不经意间被忽视&#xff0c;很多初学者并没有老师傅那样的熟练手感&#xff0c;可以做到信手拈来的程度。当没有那些量勺&a…

带暂停功能的音频播放代码参考

1、页面来源&#xff1a;sentenceExercise07.jsp 2、页面效果 3、源代码 <% page language"java" pageEncoding"UTF-8" contentType"text/html;charsetUTF-8"%> <% include file"/common/taglibs.jsp"%> <% include f…

Yann LeCun 怒喷 Sophia:这就是彻头彻尾的骗局

来源&#xff1a;雷锋网&#xff08;leiphone-sz&#xff09;作者&#xff1a;杨晓凡在各种机器学习方法火热、神经网络加速芯片和生成式模型火热、研究人员们常常为优秀论文拍案叫绝的 2017 年中&#xff0c;普通大众视野中的热门人工智能成果除了 AlphaGo&#xff0c;还有一件…

ad16自动布线设置规则_AD16快捷方式和常规设置

1.快捷方式:快速修改丝印位置。选中元件 按快捷键A然后按P。Ti &#xff1a;差分等长TR &#xff1a;蛇形走线MG &#xff1a;修改铜皮多根走线(选中要走的几根线 按快捷键TTM 几根可以同时走线。PM)调整元件坐标移动(选中元件 按一下M 选择通过X、Y移动选择。)shiftG&#xff…

麦肯锡报告:传统车企正面临出行的数字化颠覆

来源&#xff1a;车云未来的个人出行情景将迎来一个巨大转变&#xff0c;更加倾向于颠覆性科技和其创新商业模式。毫无疑问&#xff0c;汽车产业正在面临颠覆。消费者行为上的巨大变化正在改变汽车行业的现状&#xff0c;尤其是因为人们更加注重了所有的车内体验&#xff0c;而…

win10触屏输入法_触摸屏笔记本Win10电脑的校准技巧

Microsoft的Surface系列设备旨在优化Windows 10触摸和笔输入功能。 但是&#xff0c;经过一段时间后&#xff0c;输入精度会下降。 此外&#xff0c;还有许多其他触摸式二合一笔记本电脑和来自其他厂商的混合设备。 并不是所有这些都在出厂时具有最佳的触摸输入精度校准。 这导…

大牛预测2018年深度学习走向:大批AI硬件初创将失败

来源&#xff1a;智东西导语&#xff1a;本文作者Carlos E. Perez是Intuition Machine公司的创始人&#xff0c;曾经编写《人工直觉与深度学习手册》&#xff08; Artificial Intuition and the Deep Learning Playbook&#xff09;&#xff0c;他将会在2018年3月1日至2日在阿姆…

QueryPage使用示例

1、通过关联的表的某字段查询和排序 表的关系 代码 /*** * <p>Description&#xff1a;查找作业记录</p>* <p>Paramenter&#xff1a;</p>* <p>Return&#xff1a;</p>* <p>Exception&#xff1a;</p>* <p>Modified Hi…

alientek 3.5寸tftlcd模块资料_电冰箱触摸屏提高设备档次,深圳3.5寸人机界面厂家...

随着互联网的发展加上触摸屏显示器的贴合在一块&#xff0c;现在我们家电越来越智能化&#xff0c;比如现在比较流行的家电冰箱触摸屏&#xff0c;可以在手机上通过触摸屏来对冰箱进行选项设置。电脑冰箱控制系统包括金玺触摸屏、显示控制板、电磁阀、温度传感器以及导线。主控…

推荐|5种商业AI产品的技术架构设计!

来源&#xff1a; 达观数据概要&#xff1a;今天我们就特别推荐达观数据的几个商业产品设计技术架构&#xff0c;希望对于广大技术有帮助。做任何一个商业产品设计&#xff0c;技术架构都是首先要考虑的&#xff0c;特别是面对海量数据的AI商业项目更是如此。今天我们就特别推荐…

多个iframe同时加载并动态调整大小

动态调整iframe高度的函数 function dyniframesize(ifm) {var pTar null; if (document.getElementById){ pTar document.getElementById(ifm); }else{ eval(pTar ifm ;); }$(pTar).parent().css("visibility", "hidden");if (pTar && pTar.…

没有数据也能翻译?一文读懂「无监督」机器翻译

原文来源&#xff1a;buZZrobot作者&#xff1a;Harshvardhan Gupta「雷克世界」编译&#xff1a;KABUDA、嗯~阿童木呀深度学习正在被广泛地运用于各项日常任务当中&#xff0c;尤其是涉及到一定程度“ 人性化”的领域&#xff0c;例如&#xff0c;图像识别。与其他机器学习算法…

可输入过滤和直接选择的select控件

代码&#xff1a; <% page language"java" pageEncoding"UTF-8" contentType"text/html;charsetUTF-8"%> <% include file"/common/taglibs.jsp"%><script language"javascript" type"text/javascript&…

2017世界科技发展回顾(信息技术/先进制造)

来源&#xff1a;科技日报信息技术美国&#xff1a;量子计算机最耀眼&#xff0c;芯片研究成果再现2017年量子霸权的争夺趋热&#xff0c;谷歌和IBM展开“老大”地位之争。已推出9量子位计算机的谷歌4月宣布将在年底推出49量子位处理器&#xff1b;IBM则后发先至&#xff0c;继…

产生和防御对抗样本的新方法 | 分享总结

来源&#xff1a;AI研习社作者&#xff1a;杨文在线上公开课上&#xff0c;来自清华大学的在读博士生廖方舟分享了他们团队在 NIPS 2017 上一个对抗样本攻防大赛中提到的两个新方法&#xff0c;这两个方法在大赛中分别获得了攻击方和防守方的第一名。在此可看视频回放&#xff…

36小时,造一个亚马逊无人商店 | 实战教程+代码

夏乙 问耕 编译整理量子位 出品 | 公众号 QbitAIclass"video_iframe" data-vidtype"2" allowfullscreen"" frameborder"0" data-ratio"1.7666666666666666" data-w"848" scrolling"no" data-src"h…

穷查理宝典--人类误判心理学思维导图

穷查理宝典--人类误判心理学思维导图 分享地址&#xff1a;https://www.processon.com/view/link/5d6e0976e4b09176f3092aa6

深度学习将眼睛变成健康“指示器”

来源&#xff1a;科学网概要&#xff1a;科学家正利用该方法寻找基因组中的突变&#xff0c;并且预测单个细胞布局的变化。眼膜图象可使计算机预测一个人是否会马上心脏病发作。人们常说&#xff0c;眼睛是心灵的窗户。但谷歌公司的研究人员将其视为个人健康的“指示器”。这个…