扩散模型再发力!图灵奖得主Hinton团队提出:图像和视频全景分割新框架

8d5f863d19b3a7a5dc5ea6985d1ccb52.jpeg

来源:机器之心

作者:Ting Chen 等   

编辑:赵阳

本文的创新点一方面在于能够在大型全景掩码上训练扩散模型,一方面在于可以同时适配图片和流媒体场景。

全景分割是一项基本的视觉任务,该任务旨在为图像的每个像素指定语义标签和实例标签。语义标签描述每个像素的类别(例如天空、竖直物体等),实例标签为图像中的每个实例提供唯一的 ID(以区分同一类别的不同实例)。该任务结合了语义分割和实例分割,提供了关于场景的丰富语义信息。

虽然语义标签的类别是先验固定的,但分配给图像中对象的实例 ID 是可以互相交换同时不影响识别的。例如,交换两辆车的实例 ID 不会影响结果。因此,经过训练以预测实例 ID 的神经网络应该能够学习从单个图像到多个实例 ID 分配的一对多映射。一对多映射的学习具有挑战性,传统方法通常利用多个阶段的管道,包括对象检测、分割、合并多个预测 。最近,基于可微二分图匹配,一些学者提出了端到端方法,能够有效地将一对多映射转换为基于识别匹配的一对一映射。然而,这些方法仍然需要定制的架构和专门的损失函数,以及用于全景分割任务的内置归纳偏置。

最近的通用视觉模型,例如 Pix2Seq、OFA、UViM 和 Unified I/O,提倡通用的、不限制任务的框架来实现泛化任务,同时还能比以前的模型简单得多。例如,Pix2Seq 根据图像生成一系列具有语义意义的序列,来完成一些核心的视觉任务,并且这些模型基于 Transformers 来训练自回归模型。

在一篇新的论文中,谷歌大脑的 Ting Chen、Geoffrey Hinton 等研究者遵循相同的理念, 从条件离散数据生成的角度理解全景分割任务问题。

3b4d22b4f8e26b037a04942fb8929f21.jpeg

A Generalist Framework for Panoptic Segmentation of Images and Videos

论文链接 https://arxiv.org/abs/2210.06366

如图 1 所示,研究者为全景掩码设计了一个生成模型,并为输入到模型的每一张图片都生成一组离散 token。使用者只需将过去帧的预测作为附加条件信号,就可以将此模型应用于视频数据(在线数据 / 流媒体)。这样一来,模型就可以自动地学习跟踪和分割对象。

bf3e5ab1da2565eacbbeff56c65f064c.jpeg

全景分割的生成式建模非常具有挑战性,因为全景掩码是离散的,或者说是有类别的,并且模型可能非常大。例如,要生成 512×1024 的全景掩码,模型必须生成超过 1M 的离散标记(语义标签和实例标签)。这对于自回归模型来说开销还是比较昂贵的,因为 token 本质上是顺序的,很难随着输入数据的规模变化而变化。扩散模型更擅长处理高维数据,但它们最常应用于连续域而不是离散域。通过用模拟位表示离散数据,本文作者表明可以直接在大型全景掩码上训练扩散模型,而无需学习潜在空间。

通过广泛的实验,研究者们证明了他们的通用法可以在类似环境中与最先进的专家方法一较高下。

模型架构

扩散模型采样是迭代进行的,因此在推理过程中必须多次运行网络的前向传播。因此,如图 2 所示,研究者有意将网络分成两个组件:1)图像编码器;2) 掩码解码器。前者将原始像素数据映射到高级表示向量,然后掩码解码器迭代地读出全景掩码。

6ae43efb8cf20c45d55b50f7d045fdca.jpeg

像素 / 图像编码器

编码器是将原始图像8408591e9f5b6dfaaccd2c15883c512c.jpeg映射到b806f37c7c3dee37abd592e8e986bf06.jpeg中的特征图的网络,其中 H’和 w’是全景遮罩的高度和宽度。全景遮罩可以与原始图像的大小相同或小一点。在这项工作中,研究者们使用 ResNet 作为骨干网络,然后使用 Transformer 的编码器层作为特征提取器。为了确保输出的特征图具有足够的分辨率,并包含不同尺度的特征,受 U-Net 和特征金字塔网络的启发,研究者使用具有双边连接和上采样操作的卷积从不同的分辨率来合并特征。虽然可以使用更复杂的编码器,这样可以使用一些架构设计方面的最新进展,但这不是网络模型的主要关注点,所以研究者只是使用较为简单的特征提取器来说明其在模型中的作用。

掩码解码器

解码器在模型推理过程中基于图像特征,迭代地细化全景掩码。具体来说,研究者使用的掩码解码器是 TransUNet。该网络将来自编码器的图像特征图和噪声掩码(随机初始化或迭代地来自编码过程)的连接作为输入,并输出对掩码的精确预测。解码器与用于图像生成和图像到图像转换的标准 U-Net 架构之间的一个区别是,在上采样之前,本文使用的 U-Net 顶部使用了带有交叉注意力层的 transformer 解码器层来合并编码的图像特征。

在视频模态下的应用

研究者将图像条件下的全景遮罩建模为:p(m|x)。基于给定视频的三维掩码(有一个额外的时间维度),本文的模型就可以直接适用于视频全景分割。为了适应在线 / 流媒体的视频设置,可以改用 p(m_t|x_t,m_(t-1),m_(t-k))建模,从而基于当前的图像和上一时刻的掩码生成新的全景掩码。如图 5 所示,这一变化可以通过将过去的全景掩码 (m_(t-1),m_(t-k)) 与现有的噪声掩码连接起来来实现。除了这个微小的变化之外,其他方面都与视频基础模型(p(m|x))相同。这个模型很简单,对图像全景模型进行微调就可以应用到视频场景里。

879bc8c9c598a1e9c9548a62a18c6d04.jpeg

实验结果

本文与两个系列的最先进的方法进行了比较,即专家方法和通用方法。表 1 总结了在 MS-COCO 数据集上的结果。Pix2Seq-D 在基于 ResNet-50 的主干上的泛化质量(PQ)与最先进的方法相比有一定的竞争力。与最近的其他通用模型如 UViM 相比,本文的模型表现明显更好,同时效率更高。

ab47c1417d3b0774a67ff360fe5cae5d.jpeg

表 2 将 Pix2Seq-D 与无监督视频物体分割最先进的方法在 DAVIS 数据集上进行了比较,指标使用的是标准的 J&F。值得注意的是基线不包括其他通用模型,因为它们不能直接适用于该任务。本文的方法在没有专门设计的情况下取得了与最先进的方法相同的结果。

6979bedb4f6c9fb370b76a7da4247af0.jpeg

图 8、9 和 10 显示了 Pix2Seq-D 在 MS-COCO、Cityscape 和 DAVIS 上的示例结果。

fc6bd5c873779eb88fc5b8b660fefd03.jpeg

762c77886abeb6bb5e8570cf1c9d20e3.jpeg

c29a860048d67d7b1fa0cb01f70e03a5.jpeg

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

e03d2374e31efbeafb2dc0570f7ac86c.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481220.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

经典的K-means聚类算法

原理部分主要来自大牛zouxy09和trnadomeet两个人的博客;后面的代码详细讲解为自己精心编写 一、概述 非监督学习的一般流程是:先从一组无标签数据中学习特征,然后用学习到的特征提取函数去提取有标签数据特征,然后再进行分类器的训…

《Cell》发现免疫系统的“武器研发实验室”

来源:生物通如果B细胞是免疫系统的兵工厂,制造抗体来中和有害的病原体,那么被称为生发中心的微小生物结构就是它的武器开发设施。.淋巴结的生发中心簇充满了成熟的B细胞(红色),点缀着进化程度较低的B细胞(绿色)。 如果B细胞是免…

机器学习从理论到工程的第一步-编程语言篇

前言在文章《机器学习从业者如何兼顾理论与工程》中,小夕对编程语言的选择进行了小小建议。鉴于有些同学对小夕建议的“主python,辅C,备用matlab和java”疑问较大,小夕在此详细解释一下,也欢迎大家补充新观点哦。为什么…

聚类算法当中的K-means算法如何去做天猫淘宝的推广任务

5 人赞同了该回答figure data-size"normal">data-size"normal">这个入口是全网人气新品池,我们今天所获取到的数据都是来源于这里。无论是C店还是B店,统统都有机会进来。这个平台最有价值的数据,就是可以告诉我们自…

通过双重众包预测 RNA 降解的深度学习模型

编辑 | 萝卜皮基于信使 RNA (mRNA) 的药物具有巨大的潜力,正如它们作为 COVID-19 疫苗的快速部署所证明的那样。然而,mRNA 分子的全球分布受到其热稳定性的限制,这从根本上受限于 RNA 分子对称为在线水解的化学降解反应的固有不稳定性。预测 …

线性代数应该这样讲(一)

前言小夕为什么要讲线性代数呢?因为有人已经做了机器学习一段时间了,竟然认为矩阵就是用来存储数据的。小夕表示非常震惊。而深刻透彻的理解核函数、PCA、LSI、谱聚类等以空间映射为理论核心的机器学习理论时,靠大学里教的那一套线性代数&…

震惊!丧心病狂的夕小瑶推出新一轮写作计划!

时至今日,距离小夕发布的第一篇正式文章已经过去整三个月啦。今天又回头看了一下自己写的第一篇文章,不禁有点感慨“文风”变了这么多,甚至有点受不了第一篇文章中的萌气了\(//∇//)\然后文章还写的不怎么样。。。虽然第一篇文章写的好差&…

LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA...

来源:机器之心编辑:nhyilin人类似乎对不同的学习模式有着相似的认知,机器也应该如此!>>>>自监督学习能在各种任务中学习到分层特征,并以现实生活中可使用的海量数据作为资源,因此是走向更通用人…

史上最清楚的BP算法详解

前馈神经网络 在文章《逻辑回归到神经网络》(以下简写《LR到NN》)中,小夕为大家描述了一个从逻辑回归延伸到神经网络的过程。在《一般化机器学习与神经网络》中,小夕阐述了神经网络的一般性。这一篇会完全进入神经网络的状态&…

基于主动学习算法减少人工标注量,提升文本标注效率的方案探究

基于主动学习算法减少人工标注量,提升文本标注效率的方案探究阅读 451收藏 232018-06-26原文链接:yq.aliyun.comOPPO技术开放日第三期,未来的探索 AI&AR的实践应用juejin.im项目地址: https://github.com/crownpku/Chinese-Annotator 自…

具有生物启发训练方法的物理深度学习:物理硬件的无梯度方法

编辑 | 绿萝对人工智能不断增长的需求推动了对基于物理设备的非常规计算的研究。虽然此类计算设备模仿了大脑启发的模拟信息处理,但学习过程仍然依赖于为数字处理优化的方法,例如反向传播,这不适合物理实现。在这里,来自日本 NTT …

BP算法是从天上掉下来的吗?

第二个标题:一般而特殊的前馈神经网络前馈神经网络在文章《逻辑回归到神经网络》(以下简写《LR到NN》)中,小夕为大家描述了一个从逻辑回归延伸到神经网络的过程。在《一般化机器学习与神经网络》中,小夕阐述了神经网络…

深度学习如何应用在广告、推荐及搜索业务?阿里妈妈实践案例解读

</span></ul><div class"markdown-body"><div id"meta_content" class"rich_media_meta_list"> </div>阿里妹导读&#xff1a;靖世&#xff0c;阿里妈妈精准展示技术研究员。2011 年&#xff0c;刚进阿里的他提出…

AI for Science的上半场:人工智能如何重新定义科学研究新范式?

AI发展七十余年&#xff0c;每一技术性突破都将给人类未来开辟新一种可能性。而它与科学研究的深度融合&#xff0c;则会裂变出无数或无穷种可能性。来源 :36氪万众瞩目下&#xff0c;今年10月&#xff0c;有着诺贝尔奖“嫡传”之称的诺贝尔化学奖终于揭晓&#xff0c;授予了对…

从前,小夕种了一棵树

从前&#xff0c;小夕种了一棵树&#xff0c;种在了小夕的小屋后面~为什么要种这棵树呢&#xff1f;因为呀&#xff0c;它可以帮小夕总结历史经验&#xff0c;然后帮小夕对当前的局势做出决策~这样小夕就可以安心给大家写文章啦~这棵树是这样的。一开始&#xff0c;小夕买了一颗…

用于化学动力学模拟的原子神经网络表示

编辑 | 白菜叶机器学习技术已广泛应用于化学、物理、生物学和材料科学的许多领域。最富有成果的应用之一是从离散量子化学数据中学习势能或相关电子特性的复杂多维函数。特别是&#xff0c;大量努力致力于开发各种原子神经网络 (AtNN) 表示&#xff0c;这些表示是指将目标物理量…

自然语言生成任务,如文本摘要和图像标题的生成。seq2seq的模型原理

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/Irving_zhang/article/details/78889364 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck_htmledit…

史上最简单的决策树模型讲解

从前 从前&#xff0c;小夕种了一棵树&#xff0c;种在了小夕的小屋后面~ 为什么要种这棵树呢&#xff1f;因为呀&#xff0c;它可以帮小夕总结历史经验&#xff0c;然后帮小夕对当前的局势做出决策~这样小夕就可以安心给大家写文章啦~ 这棵树是这样的。 一开始&#xff0c;小夕…

听觉器官是高阶元分类“革命性证据”

来源&#xff1a;中国科学报反刍类的内耳几何形态学分析及系统发育示图。Laura Dziomber/绘化石研究的第一步是通过形态特征鉴定身份&#xff0c;厘清物种的亲缘关系&#xff0c;但这种方法并不完美。那些长相相似的也许“八竿子打不着”&#xff0c;而毫无共同特征的却是“亲属…

机器学习从理论到工程的第二步-开发环境与工具篇

在《第一步-编程语言篇》中&#xff0c;小夕为大家较为详细的介绍了做机器学习&#xff08;及其相关应用方向&#xff09;的编程语言的选择问题&#xff0c;这一篇便是小夕为大家推荐的各个编程语言的开发环境/工具。习惯性扫盲开篇。鉴于可能有部分同学的软件开发经验稍有欠缺…