MIT博士用概率编程让AI和人类一样看三维|NeurIPS 2021

29976d8b987af9a4925e667a2f2d5ab0.png

来源:机器学习研究组订阅

人与AI之间最大的区别就是对常识的利用!

无论各种AI模型在各大排行榜以何种性能超越了人类,它们在常识的利用上仍然远远不及人类,而这也正是目前AI研究中需要面临的一个巨大的挑战。

对于自然语言处理的研究来说,我们可以向模型中添加各种知识图谱、实体等信息来增强模型对于常识的感知能力,但对于计算机视觉来说就没有那么容易了。

a5d3bebd59496c4fdce8ff19b056327b.png

视觉的常识不仅要考虑各个物体之间在现实中的空间关系,还要考虑物体位置的合理性。

如果有物理世界的常识能够注入到视觉系统中,那就不会识别出悬空的盘子、藏在碗后面的叉子若隐若现等等「育碧」特色建模。

931700bfa733e82efad21d0dde86c218.png

更严重一点的说,当不完善的、没有常识的视觉系统应用到自动驾驶系统时,导致无法识别出行人、急救车等,或者错误理解了空间位置关系,那后果将不堪设想。

79dd69ca0abde763365b74a3c25de587.png

人类的视觉和AI视觉略有不同,人类的眼睛实际上是三维的,能够对不同视角、不同光照、遮挡和杂乱的场景进行视觉概括。

所以为了给计算机一个三维场景感知的能力,MIT的研究人员最近在NeurIPS 2021上发表了一篇论文,提出了一个基于概率推理的3D场景感知的生成模型3DP3。

7324219ce0bc14ee48ca37cf37f89c61.png

模型有了3D感知能力以后,除了可以提高自动驾驶汽车的安全性之外,还可以让清洁机器人感知杂乱场景下物体间的相互关系。

e38ace8531cb088c0cda17cffd068835.png

3DP3的核心就是一个生成式的建模框架,使用离散的物体及其三维形状和一个称为场景图(scene graph)的层次结构来表示场景,其中场景图的层次结构与物体的位置和朝向有关。

研究人员使用概率编程来建立框架,让系统能够从输入图像中检测到物体。通过概率推理(probabilistic inference)的方式也可以让系统推断出场景和物体的不匹配是由噪声还是预测错误导致的,增加了可解释性,也有利于下一步处理中的纠正。

例如给定一副RGB图像和对应的深度图,3DP3就可以推断出一个层次的3D场景图。

1924f8779c556ff16d519b707b8a5077.png

并且因为模型懂常识,一个物体经常是平放(lay flat)在另一个物体上,所以从深度图中实际上已经可以知道各个物体的位置和朝向了。

除此之外,文中提出的算法还可以推断什么时候这些常识是有用的(紫色节点的夹子和盒子是相关的,因为夹子放在了盒子上),哪些物体用不上(红色节点的四个物体表示一个整体,没有放置在其他物体上)。

但从这幅图上看,瞅着这「四合一」的红色节点还是放置在这个盒子上的,但是文章作者对此没有进一步说明。

并且3DP3使用概率编程(probabilistic program)的形式来表示三维场景的结构化生成模型。

模型使用了两个先验概率,1)从数据中学习到的概率作为物体形状的先验,2)图形上的概率分布作为场景结构的先验。然后从世界节点(world node)开始对场景图进行遍历来计算物体的位置、方向和深度图的似然模型。

875c671fbcc86c01cdb7a1d11297bce4.png

世界节点的意思就是所有没有平放在其他物体上的节点的父节点,例如图中的盒子(灰色节点)和四合一物体(红色节点)的父节点就是世界节点。图中为了简化没有画出世界节点。

d3117d5fd9ae4334eff4fcb178b19708.png

可以看到,3DP3主要以这种物体之间的接触关系的常识和概率来进行场景图的建模,而这种常识恰恰可以保证系统能够检测和纠正计算机视觉中深度学习模型常犯的错误。并且概率推断也能够更准确地推断出物体的正确相对位置。

文章的作者Nishad Gothoskar也认为这和人类的推断过程是相同的:如果你知道了接触关系,那么你肯定会知道一个物体永远不可能漂浮在桌子上,也就是说,在桌子和物体之间必定还存在一个物体,这对于深度学习的黑盒模型来说是一个强有力的解释操作。

并且3DP3不要求对物体形状进行硬编码,而是提出了一个基于体素(voxel)的物体形状学习方法。研究人员使用概率推理来学习三维物体形状的非参数模型,考虑到了由于self-occlusion而产生的不确定性。

f6106993c15d92579312178a752ff0fc.png

文中主要研究了如何从包含已知类型的单一孤立物体的场景中学习到物体的形状,并没有考虑对更通用的形状学习和对形状不确定性的处理。

有了上面提到的基于接触关系的生成式模型后,就可以搭建一个完整的场景图推理算法了。

由于图像是通过实时图形和点云上的似然概率来建模的,所以研究人员把三维场景的理解作为这种生成模型的近似概率推理。

推理算法将数据驱动的Metropolis-Hastings核与物体姿势、场景图结构的MCMC核、物体形状的不确定性的积分以及现有的深度学习物体检测器和姿势估计器结合起来共同预测。

此外,这种架构能够利用生成模型中的推理来提供常识性的约束,从而修复神经网络检测器所产生的错误。

在实验部分,研究人员使用一个标准的机器人数据集YCB-Video来训练和评估3D感知能力。

首先对每个物体类型选取5张合成图像来学习图形先验,然后使用一个神经6DoF姿势估计模型DenseFusion对模型的推理算法进行初始化。

为了衡量姿势(物体的位置和朝向)预测的准确性,研究人员使用ADD-S来估计物体模型上的点与预测物体姿态之间的平均最近点距离。

63eb43e367682cc611af3ab23e7a12bc.png

实验结果可以看到,3DP3几乎能够准确预测所有形状的物体,并且在消融实验中可以看到,3DP3比固定结构且没有接触关系的3DP3*更精确。

这也表明了基于渲染和结构推断都有助于3DP3更准确地估计6DoF姿态。

参考资料:

https://arxiv.org/pdf/2111.00312

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

0fc9fd9a09a2377964d7cebfe5a48e84.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482998.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity Shader 2D水流效果

水流的模拟主要运用了顶点变换和纹理动画的结合; 顶点变换中,利用正弦函数模拟河流的大致形态,例如波长,振幅等。 纹理动画中,将纹理坐标朝某一方向持续滚动以形成流动的效果。 脚本如下: 1 Shader "M…

2022年智能家居十大预测新鲜出炉:全屋智能驶入快车道?健身镜成新宠……

来源:物联网智库 2021年接近尾声,这一年,新冠病毒仍旧没有离开地球,而在疫情常态化、工作与生活回归正轨之余,人们对于网络与虚拟世界的依赖度也陡然骤增。这一转变无疑将极大拉动消费端的数字化产业发展,除…

数据结构与算法——动态规划

文章目录1.内容概述2.爬楼梯2.1 题目描述2.算法思想2.3 代码实现3.打家劫舍3.1 题目描述3.2 算法思路3.3 代码实现4.最大子序和4.1 题目描述4.2 算法思路4.3 代码思路5. 零钱兑换5.1 题目描述5.2 算法思路5.3 代码实现6.三角形最小路径和6.1 题目描述6.2 算法思路6.3 代码实现7…

vue学习笔记-01-前端的发展历史(从后端到前端,再到前后端分离,再到全栈)

vue学习笔记-01-前端的发展历史(从后端到前端,再到前后端分离,再到全栈) 这篇文章是博主在看vue-前端发展简史的时候做的笔记,以供后续学习复习 文章目录vue学习笔记-01-前端的发展历史(从后端到前端&#…

黑客帝国「缸中之脑」有眉目了?培养皿中百万人脑细胞学会打乒乓球,仅用了5分钟...

来源:机器之心编辑:张倩、杜伟既然生物神经元如此高效,为什么不拿来用呢?最新版本的《黑客帝国》还有两天才会上映,但最近的一些科技进展总让我们觉得,导演描述的世界似乎离我们越来越近了。其中一个进展来…

面试题——面经题目(1)

文章目录1. 进程调度算法2.操作系统在调度线程时会做哪些事情3.页面置换算法4.32位系统,64位的系统内存是多大5.CPU的GHz是什么意思1. 进程调度算法 进程调度规定了CPU执行就绪队列中的多个进程的顺序。 1.先来先服务 (FCFS,first come first served&…

去掉input密码框自动补全功能

<input name"password" autocomplete"off" hidden> <input type"password" autocomplete"off"> //不能加id 转载于:https://www.cnblogs.com/yuyedaocao/p/11124653.html

《Science》基因组比对的革命性技术

来源&#xff1a;生物通加州大学圣克鲁斯基因组研究所(UC Santa Cruz Genomics Institute)的研究人员推出了一种名为“长颈鹿”(Giraffe)的新工具&#xff0c;可以有效地将新的基因组序列绘制到代表多种不同人类基因组序列的“泛基因组”(pangenome)上。使用泛基因组学方法而不…

vue学习笔记-02-前端的发展历史浅谈mmvm设计理念

vue学习笔记-02-前端的发展历史浅谈mmvm设计理念 文章目录1. MVVM模式的实现者2.第一个vue程序3.什么是mvvm&#xff1f;4.为什么要用mvvm&#xff1f;5.mvvm的组成部分7.MVVM 模式的实现者8.为什么要使用 Vue.js1. MVVM模式的实现者 Model:模型层&#xff0c;在这里表示JavaSc…

linux——select、poll、epoll

文章目录1.多路I/O转接服务器2.select3.select代码4.poll5.epoll5.1 基础API5.3 epoll代码5.4 边沿触发和水平触发5.4.1 水平出发LT5.4.2 边缘触发5.4.3 服务器的边缘触发和水平触发5.4 边缘触发但是能一次读完6.epoll反应堆模型6.1 反应堆模型6.2 epoll反应堆代码7.心跳包8.线…

年终盘点:2021年中国科技的重大突破

来源&#xff1a;科技日报2021年已经步入尾声&#xff0c;过去的一年是科技界屡创新高、收获满仓的一年。这一年&#xff0c;恰逢中国共产党百年华诞&#xff0c;我国科技界更是取得多项重要突破。量子计算获得重大进展&#xff0c;使我国成为唯一在两个物理体系中实现量子计算…

vue学习笔记-03-浅谈组件-概念,入门,如何用props给组件传值?

vue学习笔记-03-浅谈组件-概念&#xff0c;入门&#xff0c;如何用props给组件传值&#xff1f; 文章目录vue学习笔记-03-浅谈组件-概念&#xff0c;入门&#xff0c;如何用props给组件传值&#xff1f;什么是组件&#xff1f;为什么要使用组件&#xff1f;如何使用组件呢&…

iscsi-分区类型

iSCSI简介(Internet SCSI)&#xff1a; iSCSI 小型计算机系统接口&#xff0c;IBM公司研发&#xff0c;用于在IP网络上运行SCSI协议&#xff1b;解决了 SCSI需要直连存储设备的局限性&#xff1b;可以不停机扩展存储容量&#xff0c;iSCSI 将 SCSI 接口与 Ethernet 技术结合&am…

设计模式1——设计模式的原则

1.从面向对象说起 ~~~~~~变化是代码复用的天敌&#xff0c;面向对象的设计语言的优势就是抵御变化&#xff01;这里的所谓抵御变化&#xff0c;不是说采用面向对象的设计语言&#xff0c;就没有变化&#xff0c;而是将变化的范围降到最小。 ~~~~~~之前我们所认识的面向对象的语…

盘点:2021年度物理学十大突破|《物理世界》

来源&#xff1a;物理世界作者&#xff1a;哈米什约翰斯顿&#xff08;Hamish Johnston&#xff09;译者&#xff1a;王晓涛、乔琦2021年12月14日&#xff0c;《物理世界》&#xff08;Physics World&#xff09;编辑从其网站发表的近600项研究进展中评选出了年度物理学领域十大…

操作系统学习笔记-01-1.1课程概述

此课程来自于b站操作系统_清华大学(向勇、陈渝)&#xff0c;博客作为博主手打&#xff0c;当作参考笔记&#xff0c;回头复习223 1.1课程概述 课程简介 什么是操作系统 为什么学习以及如何学习操作系统 操作系统的实例&#xff0c;历史和结构介绍 基本概念及原理 操作系统…

Python实现二叉树的遍历

二叉树是有限个元素的集合&#xff0c;该集合或者为空、或者有一个称为根节点&#xff08;root&#xff09;的元素及两个互不相交的、分别被称为左子树和右子树的二叉树组成。 二叉树的每个结点至多只有二棵子树(不存在度大于2的结点)&#xff0c;二叉树的子树有左右之分&#…

tdms打开闪退问题

问题&#xff1a;tdms打开闪退 解决方法如下&#xff0c;打开excel&#xff0c;在菜单栏中点【文件】 左下方进入【选项】&#xff0c;然后在excel选项中点击【加载项】 然后在下方的管理&#xff0c;选择【COM加载项】&#xff0c;点击【转到】 将NI的TDMS【Add-in】的打勾&a…

操作系统学习笔记-02-1.2-什么是操作系统

1.2什么是操作系统 没有一个完整&#xff0c;精确&#xff0c;公认的定义从功能和特点上来介绍操作系统 用户角度上&#xff0c;操作系统是一个控制软件管理应用程序为应用程序提供服务杀死应用程序 资源管理管理外设&#xff0c;分配资源 操作系统架构层次 硬件之上应用程序之…

大脑活动与认知: 热力学与信息论的联系

来源&#xff1a;集智俱乐部作者&#xff1a;Guillem Collell、Jordi Fauquet译者:张澳审校&#xff1a;刘培源编辑&#xff1a;邓一雪导语信息和能量之间的关系已经在物理学、化学和生物学中得到了广泛的研究。然而&#xff0c;这种联系并没有在神经科学领域形式化。2015年&am…