向人类再进一步|MIT×UMich探索可以理解物体空间关系的人工智能

cc3df4ab98ae777862657e85b27cb560.png

研究人员开发的框架可以根据物体空间关系的文本描述生成场景图像。

来源:AI科技评论

作者:莓酊

编辑:青暮

人类在描述场景时,经常描述物体之间的空间关系。生物视觉识别涉及自上而下通路和自下而上通路的交互,而深度神经网络只模拟了第二种通路。自上而下的视觉通路涉及生物视觉感知的全局性、拓扑性、多解性等特点,尤其是理解图像时会面临数学上的无穷解问题。而这些特点或许就是深度神经网络下一步的改进方向。

“视觉场景理解包括检测和识别物体,推理被检测物体之间的视觉关系以及使用语句描述图像区域。”依据《我们赖以生存的隐喻》的观点,物体关系相比于语义关系是更加基本的,因为语义关系背后都包含着物体关系的假设。

cc44256680adb427db9b3f36aafb89ea.png

就如下图中,两只猫猫在「互殴」,另一只猫猫在旁边不嫌事大地看热闹。通过这个例子,人类可以非常清晰直接地观察并捕捉到猫咪的位置、行为和关联。但许多深度学习模型却无法以相同的方式理解复杂实况,捕获全部信息并进行解析,因为它们不明白单个物体之间的「纠缠」关系。

ea8bf9ea975d4bb0bb7807c39776098b.gif

那么问题来了,如果「捋不清」这些关系,像被设计用于厨房的机器人就很难执行「拿起菜板左边的柜子下面的炉灶上的铁锅炖大鹅」此类指令。

d60d2f2fe82a5eb19de366469a340805.png

为了让机器人能够精准完成这些任务,来自麻省理工学院的Shuang Li、Yilun Du和伊利诺伊大学香槟分校的Nan Liu等人合作提出一款可以理解场景中物体之间空间关系的模型。该模型具有很好的泛化能力,能够通过组合多个物体的空间关系从而生成或者编辑复杂的图片。论文已作为Spotlight展示被NeurIPS 2021接收。

78048078f0b89faf9c3376277833cda0.png

论文链接:https://arxiv.org/abs/2111.09297

总的来说,研究主要有三个主要贡献:

1. 提出了一个框架来分解和组合物体之间的关系,该框架能够生成和编辑图像根据通过组合物体之间空间关系描述,并且明显优于基线方法。

2. 能够推断出潜在物体之间的场景描述,并能够很好的理解物体之间的语义等效。语义等效是同样的场景但是不同的表述方式,例如苹果在香蕉左边和香蕉在苹果右边。

3. 最重要的这个方法通过组合物体关系的描述可以推广到以前未见过的更复杂关系描述中。

这种泛化可以应用于工业机器人执行复杂多步骤的操纵任务,比如在仓库中堆放物品或组装电器。让机器能进一步“仿生”人类从环境中学习、互动,并且通过不断学习分解,组合从而很快适应新的环境和学习新的任务。

共同一作Yilun Du说道:“当我们看到一张桌子时,不会用空间坐标系的XYZ三轴来表达物体位置, 因为人类大脑不是这样工作的。我们对周围环境的洞悉是基于物体之间的关系。通过构建能够理解物体关系的系统,更有效地操纵机械从而改变周围场景。”

单次单个关系

研究人员所提框架的亮点就在于,「它能以人类的方式“解读”场景中物体之间的关系」。

比如输入一段文本——木桌在蓝色沙发的右侧,木桌在木柜的前面。

系统首先将句子拆分为「木桌在蓝色沙发的右侧」和「木桌在木柜的前面」两部分,再逐一描述单独部分之间的空间关系,然后对每个关系概率分布建模,通过优化过程将这些分离的“结构”汇合,最终生成一个完整、准确的场景图像。

908ff7da77f2ce93f896a1fa1ad3ad01.png

基于能量的模型(Energy-Based Model)

研究人员使用机器学习中「基于能量的模型」编码每一对物体直接的空间关系,然后像乐高积木一样将它们组合起来从而描述整个场景。

共同一作Shuang Li解释道:“系统通过重新组合物体之间的描述,从而产生很好泛化能力,可以生成或者编辑以前没有见过的场景。”

2218f474c812a793d0dd445d2786434f.png

Yilun Du也表示:“其他系统是从整体上考虑场景中物体之间的关系,再根据文本描述中一次性生成场景图像。一旦包含更复杂的场景描述时,这些模型就无法真正的理解并且生产想要的场景图像。我们将这些单独的、较小的模型集成起来,实现对更多的关系进行建模,从而可以生产新颖的组合。

这个模型也可以逆向操作。给定一张图像和不同的描述文本,它能准确找到场景结构中与物体关系相匹配的描述文本。

理解复杂场景 

9949f5037166054dcf2592cbe62750e2.png

每种情况下,Nan Liu等人提出的模型都优于基线。

“我们的模型在训练过程中只见过一个物体关系描述,但是在测试中,当物体关系描述增加到两个、三个甚至四个的时候,我们的模型依然效果良好,其他机器学习方法则失败了。”

如图所示,图像编辑(Image Editing) 列出了不同方法在 CLEVR 和 iGibson 数据集上的分类结果。文中方法都大大优于基线—— StyleGAN2和StyleGAN2 (CLIP)。在 2R 和 3R 测试子集上的模型亦有优秀表现,所提方法对训练分布之外的关系场景描述具有良好的泛化能力。 

9ffaf2fac0ba1c554984c09a24201837.png

研究人员还请实验参与者评估生成图像和场景描述的匹配度。在描述包含三个物体关系的最复杂示例中,91% 的人认为该模型比其他基线的性能更好。

在模型代码网页上Interactive Demo的展示中,可以清晰看到新模型在多层物体位置中依然可以按照指令准确生成我们想要的图像。

OpenAI训练的神经网络模型「DALL·E」,也是可以根据文本标题为自然语言的各种概念创建图像。DALL·E 虽然可以很好的理解物体,但是不能够准确的理解物体之间的关系。

可以说Nan Liu等人提出的新模型鲁棒性十分优越,特别是在处理从未遇到的场景描述时,其他算法只能望其项背

73291f59c5bcc6612f9f1042ba0045d3.png

虽然早期实验效果甚佳,但研究人员希望模型能够进一步在更复杂的真实世界场景中(比如具有嘈杂的背景和相互阻挡的物体时)执行任务。更进一步让机器人能够通过视频推断物体空间关系,然后应用这些知识来和周边环境中的物体交互。”

捷克技术大学捷克信息学、机器人和控制论研究所的杰出研究员 Josef Sivic 说:“开发出可以理解事物关系并且通过不断组合认识新的事物是计算机视觉领域至关重要的开放问题之一。他们的实验结果着实令人惊叹。”

作者介绍

7c8cdf7cfff6402ccabf1a2d4b06832d.png

Nan Liu, 伊利诺伊大学厄巴纳香槟分校硕士。2021 年毕业于密歇根大学安娜堡分校,获得计算机科学学士学位。目前从事研究计算机视觉和机器学习。

41238bb203798d77778ecebb0ca46b95.png

Shuang Li, MIT CSAIL博士,师从Antonio Torralba。主要研究使用语言作为交流和计算工具以及构建可以持续学习并与周围世界互动的智能体。

3926142a1653af8d4c3ea4e4a02be02c.png

Yilun Du,MIT CSAIL博士生,受 Leslie Kaelbling 教授、Tomas Lozano-Perez 教授和 Josh Tenenbaum 教授指导。他对构建可以像人类一样感知理解世界的智能体和对构建模块化系统感兴趣。曾在国际生物学奥林匹克竞赛中获得了金牌。

203c16d52dbd6637b0fba5864de056e2.png

Joshua B. Tenenbaum,MIT脑认知科学系教授、CSAIL研究员。1993 年获得耶鲁大学物理学学士学位,1999 年获得麻省理工学院博士学位。Tenenbaum因对数学心理学和贝叶斯认知科学的贡献而闻名,他是最早开发并将概率和统计建模应用于人类学习、推理和感知研究的人之一。2018 年,R&D 杂志将 Tenenbaum 评为“年度创新者”。麦克阿瑟基金会于 2019 年授予他麦克阿瑟研究员称号。

d99f6b836671e667c34c04f3a7b60207.png

Antonio Torralba,MIT电气工程与计算机科学系 (EECS) 人工智能与决策系主任、CSAIL的首席研究员、MIT-IBM Watson AI Lab负责人、2021 AAAI Fellow。1994年获得西班牙电信BCN的电信工程学位,并于2000年获得法国格勒诺布尔国立理工学院的信号,图像和语音处理博士学位。他是“计算机视觉国际期刊”的副主编,并在2015年担任计算机视觉和模式识别会议的计划主席。2008年国家科学基金会职业奖,2009年IEEE计算机视觉和模式识别会议上获得最佳学生论文奖,2010年获JK国际模式识别协会颁发的Aggarwal奖。2017年Frank Quick Faculty研究创新奖学金和Louis D. Smullin优秀教学奖。

参考链接:

https://news.mit.edu/2021/ai-object-relationships-image-generation-1129

https://openai.com/blog/dall-e/

https://composevisualrelations.github.io/

https://arxiv.org/abs/2111.09297

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

9d4c6fdaa01aaa465e845be5e5b28fbb.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482931.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

​人工智能和机器学习中数据集的 3 个大问题

来源:ScienceAI编辑:绿萝数据集为 AI 模型提供燃料,例如汽油(或电力)为汽车提供燃料。无论他们的任务是生成文本、识别对象还是预测公司的股价,人工智能系统都通过筛选无数示例来识别数据中的模式来「学习」…

操作系统学习笔记-2.1. 2进程的状态与转换

操作系统学习笔记-2019 王道考研 操作系统-2.1. 2进程的状态与转换 文章目录2进程的状态与转换2.1知识概览2.2进程的状态-三种基本状态2.3进程的状态-另外两种状态2.4进程状态的转换2.5思维导图2进程的状态与转换 2.1知识概览 2.2进程的状态-三种基本状态 2.3进程的状态-另外两…

热力学第二定律中的悖论 | 集智百科

来源 :集智百科目录一、起源二、时间之箭三、动力系统四、波动定理五、大爆炸六、编者推荐七、百科项目志愿者招募洛斯密特悖论,也被称为可逆性悖论,不可逆性悖论,或者说是一种反对意见,它认为不可能从时间对称的动力学中推导出一…

操作系统学习笔记-2.1.3进程控制

操作系统学习笔记-2019 王道考研 操作系统-2.1.3进程控制 文章目录3.进程控制3.1知识概览3.2 基本概念3.2.1什么是进程控制?3.2.2如何实现进程控制?3.3进程控制相关的原语3.4思维导图3.进程控制 3.1知识概览 3.2 基本概念 3.2.1什么是进程控制&#xf…

消息队列---消息模型及使用场景

消息队列 消息对列是一个存放消息的容器,当我们需要消息的时候就从消息队列中取出消息使用。消息队列是分布式系统中重要的组件,使用消息队列的目的是为了通过异步处理提高系统的性能和削峰值,降低系统的耦合性。目前使用较多的消息队列有Act…

谷歌机器智能大牛:AI模型要真正理解人类语言,关键是「序列学习」

来源:新智元编辑:David如果计算机给了你所有正确的答案,是否意味着它和你一样了解世界?这是人工智能科学家几十年来一直争论不休的谜题。随着深度神经网络在与语言相关的任务中取得了令人瞩目的进步,关于理解、意识和真…

操作系统学习笔记-2.1.4进程通信

操作系统学习笔记-2019 王道考研 操作系统-2.1.4进程通信 文章目录4进程通信4.1知识总览4.2前置知识:什么是进程通信?4.3共享存储4.4 管道通信4.5消息传递4.6小结4进程通信 4.1知识总览 4.2前置知识:什么是进程通信? 4.3共享存储…

滴水课后作业(1-5)

滴水2015-01-12 1、231 成立吗?说明理由。 解题:上面式子由 3个符号组成,那么起码得用3进制以上的进制表示 三进制:2(0),3(1),1(2)   012不成立…

李德毅院士《探索新一代人工智能产业发展》

来源:AI城市智库中国工程院院士、CAAI名誉理事长、主线科技首席科学家李德毅作为大会嘉宾登台发表重磅演讲:《探索新一代人工智能产业发展》,就新一代人工智能的发展历史、产业现状、突破核心以及智能时代的中国方案发表了精彩观点。以下为李…

操作系统学习笔记-2.1.5线程概念和多线程模型

操作系统学习笔记-2019 王道考研 操作系统-2.1.5线程概念和多线程模型 文章目录5线程概念和多线程模型5.1知识概览5.2 什么是线程?为什么要引入线程?5.3引入线程及之后,有什么变化?5.4线程的属性5.5线程的实现方式5.6多线程模型5.…

函数式编程让你忘记设计模式

本文是一篇《Java 8实战》的阅读笔记,阅读大约需要5分钟。 有点标题党,但是这确实是我最近使用Lambda表达式的感受。设计模式是过去的一些好的经验和套路的总结,但是好的语言特性可以让开发者不去考虑这些设计模式。面向对象常见的设计模式有…

25年,100亿美元!人类「第二只眼」韦伯望远镜升空,寻找宇宙开天辟地那束光...

来源:新智元编辑:桃子 小咸鱼昨晚,历时25年研发,100亿美金打造的詹姆斯韦伯太空望远镜终于升空!它将成为人类的「第二只眼」,奔向离地球150万公里外的地方,不仅为了仰望星空,更是为了…

计算机网络学习笔记-1.2.2OSI参考模型(1)

计算机网络-2019 王道考研 计算机网络-1.2.2OSI参考模型(1) 文章目录2.OSI参考模型(1)2.1OSI参考模型(1)2.2ISO/OSI参考模型2.3ISO/OSI参考模型解释通信过程2.OSI参考模型(1) 2.1OS…

计算机网络学习笔记-1.2.3OSI参考模型(2)

计算机网络-[2019 王道考研 计算机网络-1.2.3OSI参考模型(2)(https://www.bilibili.com/video/av70228743?t6&p7) 文章目录3.OSI参考模型(2)3.1应用层3.2表示层3.3会话层3.4传输层3.5网络层3.6数据链路层3.7物理层3.8思维导图…

科技城|从专利布局看人工智能领域全球竞争与中国面临的挑战

来源:澎湃新闻作者:杜灵君(来自中国电子信息产业发展研究院)近年来,随着人工智能技术的突破,人工智能产业爆发式增长。全球各个国家为了抢占产业发展和技术变革主导权,争相出台政策、资本、核心…

计算机网络学习笔记-1.2.4TCP,IP参考模型和五层参考模型

计算机网络-2019 王道考研 计算机网络-1.2.4TCP,IP参考模型和五层参考模型 文章目录4.TCP,IP参考模型和五层参考模型4.1OSI参考模型与TCP/IP参考模型4.2OSI参考模型与TCP/IP参考模型的相同点4.3OSI参考模型与TCP/IP参考模型的不同点4.4五层参考协议4.4五…

从城市大脑到世界数字大脑 构建人类协同发展的超级智能平台

作者:远望智库数字大脑研究院院长,中国科学院虚拟经济与数据科学研究中心研究组成员,南京财经大学教授 刘锋(本文2021年12月发表于中国建设信息化)一.世界数字大脑产生的背景世界数字大脑与城市大脑的产生…

计算机网络学习笔记-1.2.3第一章总结

计算机网络-2019 王道考研 计算机网络-1.3第一章总结 文章目录3第一章总结3第一章总结

Science长文综述:通过空间斑图形成避免复杂系统崩溃

来源: 集智俱乐部作者:Max Rietkerk et al.译者:吕丽莎、胡一冰、李明章、郭瑞东、张澳审校:张澳、梁金编辑:邓一雪导语今天的地球处于人类世,人类活动对整个地球生态系统具有深刻影响。由于干旱和过度放牧…

计算机网络学习笔记-目录(更新日期:2020.4.8)

导语:文章合为时而著,歌诗合为事而作,我们学习,也自然需要知道我们为什么学这玩意儿~ 对于计算机网络这门课呢,大家如果是计算机专业的学生,那就是必上的一门科目啦,但是为什么要上呢?对于不同的…