Retrospectives on the Embodied AI Workshop(嵌入式人工智能研讨会回顾) 论文阅读

论文信息

题目:Retrospectives on the Embodied AI Workshop
作者:Matt Deitke, Dhruv Batra, Yonatan Bisk
来源:arXiv
论文地址:https://arxiv.org/pdf/2210.06849

Abstract

我们的分析重点关注 CVPR Embodied AI Workshop 上提出的 13 个挑战。这些挑战分为三个主题:(1) visual navigation
(2) re-arrangement
(3) embodied vision-and language

在这里插入图片描述

Introduction

研讨会提出的挑战集中在导航、重新排列以及具体视觉和语言方面的基准进展。

  1. 导航挑战:包括 Habitat PointNav [1] 和 ObjectNav [17]、使用 iGibson [210] 的交互式和社交导航、RoboTHOR ObjectNav [51]、MultiON [198]、RVSU 语义 SLAM [82] 以及使用 SoundSpaces [38] 的视听导航];
  2. 重新排列挑战:包括 AI2-THOR 重新排列 [200]、TDW-Transport [67] 和 RVSU 场景变化检测 [82];
  3. 体现的视觉和语言挑战:包括 RxR-Habitat [102]、ALFRED [177] 和 TEACh [133]。

我们讨论每个挑战的设置及其最先进的性能,分析挑战中获奖作品之间的共同方法,最后讨论该领域有前途的未来方向

Challenge Details

Navigation Challenges

在较高层次上,导航任务包括在模拟 3D 环境(例如家庭)中运行的agent,其目标是移动到某个目标。对于每项任务,agent都可以使用以自我为中心的摄像机,并从第一人称的角度观察环境。智能体必须学会通过视觉观察来导航环境。

挑战主要取决于目标的编码方式(例如 ObjectGoal、PointGoal、AudioGoal)、代理如何与环境交互(例如静态导航、交互式导航、社交导航)、训练和评估场景(例如 3D扫描、视频游戏环境、现实世界)、观察空间(例如 RGB 与 RGBD,是否提供定位信息)和动作空间(例如输出离散的高级动作或连续的关节运动动作)。

PointNav

在 PointNav 中,代理的目标是导航到新环境中相对于其起始位置的目标坐标(例如,相对于其起始姿势向北导航 5m,向西导航 3m),而无需访问预先构建的环境地图。该代理可以访问以自我为中心的感官输入(RGB 图像、深度图像或两者)和用于定位的自我运动传感器(有时称为 GPS+罗盘传感器)。

机器人的动作空间包括:向前移动 0.25m、向右旋转 30°、向左旋转 30° 和完成。

如果代理在目标 0.2 米范围内且最大步数在 500 步以内发出“完成”命令,则视为成功。使用成功率 (SR) 和“按路径长度加权的成功”(SPL) [9] 指标来评估代理,该指标衡量代理所采取路径的成功和效率。对于训练和评估,挑战参与者使用 Gibson 3D 数据集的训练和验证分割 [223]
在这里插入图片描述
2019年,AI Habitat在PointNav上举办了首场挑战赛。获胜作品[31]利用经典方法和基于学习的方法相结合,在RGB-D轨道上取得了0.948的高测试SPL,在RGB轨道上取得了0.805的高测试SPL 。根据 Kadian 等人的研究结果 [92],2020 年和 2021 年,PointNav 挑战赛进行了修改,以强调增加真实性和 sim2real 预测性(根据模拟性能预测真实机器人性能的能力)。具体来说,挑战 (PointNavv2) 引入了 (1) 无 GPS+指南针传感器,(2) 嘈杂的驱动和传感,(3) 碰撞动力学和“滑动”,以及 (4) 对机器人实施例/尺寸、相机分辨率的微小改变,高度以更好地匹配LoCoBot机器人。事实证明,这些变化更具挑战性,2020 年获胜的提交作品[149]实现了 0.21 的 SPL 和 0.28 的 SR。 2021年,取得了重大突破,比2020年的获胜者性能提升了3倍;获胜作品的 SPL 为 0.74,SR 为 0.96 [1]。由于在此 PointNav-v2 设置中具有完美 GPS + 指南针传感器的代理最多只能实现 0.76 SPL 和 0.99 SR,因此 PointNav-v2 挑战被认为已解决,并在未来几年停止。

Interactive and Social PointNav

在交互式和社交导航中,代理需要在包含动态对象(家具、杂物等)或动态代理(行人)的动态环境中达到 PointGoal。尽管机器人导航在仓库等静态结构化环境中取得了显着的成功,但在家庭和办公室等动态环境中它仍然是一个具有挑战性的研究问题。 2020 年和 2021 年,斯坦福大学视觉与学习实验室与 Robotics@Google 合作举办了互动和社交(动态)导航挑战赛2。这些挑战使用了模拟环境 iGibson [105, 175] 和许多真实的室内场景,如图 4 所示。2020 年挑战 3 还采用了 Sim2Real 组件,参与者在 iGibson 模拟环境中训练他们的策略并部署在真实世界。

在这里插入图片描述

  1. 在交互式导航中,我们挑战导航代理要不惜一切代价避免碰撞的观念。我们的观点恰恰相反——在充满杂乱的真实环境中,例如家庭,智能体必须交互并推开物体才能实现有意义的导航。请注意,场景中的所有对象都被分配了真实的物理重量并且可以交互。

    就像在现实世界中一样,虽然有些物体很轻并且可以由机器人移动,但其他物体则不然。除了场景中最初的家具对象之外,还添加了来自 Google 扫描对象数据集 [54] 的其他对象(例如鞋子和玩具)以模拟现实世界的混乱。使用一种新颖的交互式导航评分(INS)[210]来评估代理的性能,该分数既可以衡量导航的成功程度,也可以衡量代理沿途对场景造成的干扰程度

  2. 在社交导航中,智能体在家庭环境中的行走人类中进行导航。场景中的人类向随机采样的位置移动,他们的 2D 轨迹是使用 iGibson [105,140,​​175] 中集成的最佳相互碰撞避免 (ORCA) [18] 模型进行模拟。

    代理应避免碰撞或接近行人超过阈值(距离 <0.3 米),以避免事件终止。它还应与行人保持舒适的距离(距离<0.5米),超过此分数将受到处罚,但事件不会终止。社交导航得分(SNS)是STL(按时间长度衡量的成功)和PSC(个人空间合规性)的平均值,用于评估代理的绩效。

社交导航部分面临的挑战之一是难以模拟人类代理的轨迹,包括代理之间的反应和交互。很多时候,要达到目标就需要对空间进行协商,或者代理需要超过所需的个人空间阈值;或者由于行为模型和空间限制的限制,模拟的人类代理行为不稳定。对于未来的版本,我们将强调具有类人行为的高保真导航模拟的重要性。

对于 2020 年挑战赛的 Sim2Real 组件,由于视觉传感器读数、动力学(例如电机驱动)和 3D 建模(例如软地毯)中的现实差距,在 Sim2Real 传输过程中观察到性能显着下降。

ObjectNav

在 ObjectNav 中,代理的任务是在给定以自我为中心的感官输入的情况下导航到一组目标对象类型中的一个(例如导航到床)。感官输入可以是 RGB 图像、深度图像或两者的组合。在每个时间步骤,代理必须发出以下操作之一:向前移动、向右旋转、向左旋转、向上查找、向下查找和完成。向前移动操作将代理移动 0.25m,旋转和查看操作以 30° 增量执行。

如果
(1) 对象在摄像机画面中可见 ,
(2) 代理与目标对象之间的距离在 1 米以内,
(3) 代理发出“完成”操作,
则被视为成功。
代理的起始位置是场景中的随机位置。

oboTHOR ObjectNav 挑战赛 [51] 和 Habitat ObjectNav 挑战赛 [166, 214]。这两项挑战都使用了上述的动作和观察空间,以及模拟的 LoCoBot 机器人代理。
在这里插入图片描述

Multi-ObjectNav

在 Multi-ObjectNav (MultiON) [198] 中,代理在环境中的随机起始位置进行初始化,并要求导航到放置在真实 3D 内部的有序对象序列(图 6a、6b)。代理必须导航到给定序列中的每个目标对象,并调用 Found 操作来表示对象的发现。此任务是 ObjectNav 的通用变体,代理必须导航到一系列对象而不是单个对象。 MultiON 显式测试代理定位先前观察到的目标对象的导航能力,因此是评估基于内存的嵌入式 AI 架构的合适测试平台。

该代理配备了 RGB-D 摄像头和(无噪音)GPS+指南针传感器。 GPS+指南针传感器提供代理相对于其在情节中的初始位置和方向的当前位置和方向。它没有提供环境地图。动作空间包括向前移动 0.25 米、向左旋转 30°、向右旋转 30° 和找到。

MultiON 数据集是通过在 Habitat-Matterport 3D (HM3D) [152] 场景中综合添加对象来创建的。这些物体要么是圆柱形的,要么是看起来自然的(真实的)物体。如图 6a 所示,圆柱体对象具有相同的高度和半径,但颜色不同。然而,这些物体在 Matterport 房屋的室内场景中显得不真实。此外,检测具有不同颜色的同一物体对于代理来说可能很容易学习。这导致我们将房屋中自然出现的逼真物体纳入其中(图 6b)。
在这里插入图片描述
在这里插入图片描述

这些物体的大小和形状各不相同,提出了更苛刻的检测挑战。训练部分有 800 个 HM3D 场景和 8M 集,验证部分有 30 个未见过的场景和 1050 个集,测试部分有 70 个未见场景和 1050 个集。这些情节是通过采样随机可导航点作为起始位置和目标位置来生成的,使得这些位置位于同一楼层并且它们之间存在可导航路径。接下来,从一组圆柱体或真实对象中随机采样五个目标对象,将其插入起点和目标之间,保持它们之间的最小成对测地距离以避免混乱。此外,为了使任务更加现实和更具挑战性,每个情节中都会插入三个干扰对象(不是目标)。干扰物的存在将鼓励新智能体区分目标对象和环境中的其他对象。

如果代理能够按指定顺序到达每个目标 1 米范围内并在每个目标对象处生成 FOUND 操作,则事件被视为成功。除了 ObjectNav 中使用的标准评估指标,例如成功率 (SR) 和按路径长度加权的成功 (SPL) [9],我们还使用进度和按路径长度加权的进度 (PPL) 来衡量代理性能。挑战的排行榜基于 PPL 指标。

Navigating to Identify All Objects in a Scene

RVSU 语义 SLAM 挑战任务要求参与者探索模拟环境,以绘制其中所有感兴趣的对象。这个挑战向机器人代理提出了一个问题:“什么物体在哪里?”场景内。机器人代理遍历场景,创建该场景内对象的轴对齐 3D 长方体语义图,并根据其地图的准确性进行评估。提供对物体的语义理解可以帮助机器人解释其环境属性的能力,例如知道如何与物体交互以及了解它可能所处的房间类型。这种语义理解通常被视为语义同步定位和地图(SLAM)问题。

语义 SLAM 任务已经使用 KITTI [68]、Sun RGBD [181] 和 SceneNet [115] 等静态数据集进行了大量研究。然而,这些静态数据集忽略了机器人的主动能力,并且放弃在物理动作空间中搜索最能探索和理解环境的动作。为了解决这一限制,RVSU 语义 SLAM 挑战赛 [82] 通过为被动和主动方法的可重复、定量比较提供框架和模拟环境,有助于弥合被动和主动语义 SLAM 系统之间的差距。

在这里插入图片描述

Audio-Visual Navigation

虽然当前的导航模型将视觉和移动紧密结合在一起,但它们对周围的世界充耳不闻,在这些因素的推动下,引入了视听导航任务 [38, 66],其中实体代理的任务是导航到发声对象在未知的未映射环境中,具有以自我为中心的视觉和听觉感知(图 8)。这种视听导航任务可以在辅助和移动机器人中找到应用,例如用于搜索和救援操作的机器人以及辅助家庭机器人。除了这项任务之外,还推出了 SoundSpaces 平台,这是第一个同类视听模拟器,实体代理可以在模拟环境中移动,同时看到和听到声音。

Other

其他部分暂时不在研究范围,后续有需要再阅读

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/12121.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JiaYu说:如何做好IT类的技术面试?

IT类的技术面试 面试IT公司的小技巧IT技术面试常见的问题嵌入式技术面试嵌入式技术面试常见的问题嵌入式软件/硬件面试题 JiaYu归属嵌入式行业&#xff0c;所以这里只是以普通程序员的角度去分析技术面试的技巧 当然&#xff0c;也对嵌入式技术面试做了小总结&#xff0c;友友们…

vite / nuxt3 项目使用define配置/自定义,可以使用process.env.xxx获取的环境变量

每日鸡汤&#xff1a;每个你想要学习的瞬间&#xff0c;都是未来的你向自己求救 首先可以看一下我的这篇文章了解一下关于 process.env 的环境变量。 对于vite项目&#xff0c;在我们初始化项目之后&#xff0c;在浏览器中打印 process.env&#xff0c;只有 NODE_ENV这个变量&…

【组内工作】木马回联

文章目录 C2服务器安装和运行方法CrossC2运行方法sliver运行方法empire安装方法DeimosC2安装教程TrevorC2安装教程&#xff1a; C2服务器的流量特征CrossC21. 心跳包2. 命令3. ja3/ja3s Sliver1. http2. https empirehttphttps DeimosC2https TrevorC2 C2服务器安装和运行方法 …

iperf3 编译安装及网讯WX1860千兆网口测试

iperf3 编译安装及网讯1860千兆网口测试 编译安装 安装包下载地址:https://github.com/esnet/iperf/archive/refs/tags/3.8.tar.gz 将安装包iperf-3.8.tar.gz拷贝测试系统盘桌面,使用如下命令进行编译安装: tar zxvf iperf-3.8.tar.gz cd iperf-3.8 ./configure make s…

HDFS基本操作命令

这里写目录标题 HDFS Shell CLI客户端说明常用命令hadoop fs -mkdir [-p] <path>hadoop fs -ls [-h] [-R] [<path>...]上传文件到指定目录下方法一:hadoop fs -put [-f] [-p] <localsrc>.....<dst>方法二&#xff1a;hadoop fs -moveFromLocal <loc…

Vue源码学习 - 异步更新队列 和 nextTick原理

目录 前言一、Vue异步更新队列二、nextTick 用法三、原理分析四、nextTick 源码解析1&#xff09;环境判断2&#xff09;nextTick() 五、补充 前言 在我们使用Vue的过程中&#xff0c;基本大部分的 watcher 更新都需要经过 异步更新 的处理。而 nextTick 则是异步更新的核心。…

MacOS本地安装Hadoop3

金翅大鹏盖世英&#xff0c;展翅金鹏盖世雄。 穿云燕子锡今鸽&#xff0c;踏雪无痕花云平。 ---------------- 本文密钥&#xff1a;338 ----------------- 本文描述了在macbook pro的macos上安装hadoop3的过程&#xff0c;也可以作为在任何类linux平台上安装hadoop3借鉴。 …

4、Linux驱动开发:设备-设备号设备号注册

目录 &#x1f345;点击这里查看所有博文 随着自己工作的进行&#xff0c;接触到的技术栈也越来越多。给我一个很直观的感受就是&#xff0c;某一项技术/经验在刚开始接触的时候都记得很清楚。往往过了几个月都会忘记的差不多了&#xff0c;只有经常会用到的东西才有可能真正记…

Verilog语法学习——LV2_异步复位的串联T触发器

LV2_异步复位的串联T触发器 题目来源于牛客网 [牛客网在线编程_Verilog篇_Verilog快速入门 (nowcoder.com)](https://www.nowcoder.com/exam/oj?page1&tabVerilog篇&topicId301) 题目 题目描述&#xff1a; 用verilog实现两个串联的异步复位的T触发器的逻辑&#x…

【LeetCode】141.环形链表

题目 给你一个链表的头节点 head &#xff0c;判断链表中是否有环。 如果链表中有某个节点&#xff0c;可以通过连续跟踪 next 指针再次到达&#xff0c;则链表中存在环。 为了表示给定链表中的环&#xff0c;评测系统内部使用整数 pos 来表示链表尾连接到链表中的位置&#…

opencv-22 图像几何变换01-缩放-cv2.resize()(图像增强,图像变形,图像拼接)

什么是几何变换&#xff1f; 几何变换是计算机图形学中的一种图像处理技术&#xff0c;用于对图像进行空间上的变换&#xff0c;而不改变图像的内容。这些变换可以通过对图像中的像素位置进行调整来实现。 常见的几何变换包括&#xff1a; 平移&#xff08;Translation&#x…

STM32MP157驱动开发——按键驱动(tasklet)

文章目录 “tasklet”机制&#xff1a;内核函数定义 tasklet使能/ 禁止 tasklet调度 tasklet删除 tasklet tasklet软中断方式的按键驱动程序(stm32mp157)tasklet使用方法&#xff1a;button_test.cgpio_key_drv.cMakefile修改设备树文件编译测试 “tasklet”机制&#xff1a; …

【Ansible】Ansible自动化运维工具之playbook剧本

playbook 一、playbook 的概述1. playbook 的概念2. playbook 的构成 二、playbook 的应用1. 安装 httpd 并启动2. 定义、引用变量3. 指定远程主机 sudo 切换用户4. when条件判断5. 迭代6. Templates 模块6.1 添加模板文件6.2 修改主机清单文件6.3 编写 playbook 7. tags 模块 …

vue权限按钮的实现

鉴权函数 由于下面几种方式都需要用到鉴权函数&#xff0c;所以将其放置在组件外面&#xff0c;供组件或其他文件调用。 // src/utils/hasPermission.jsimport { usePermissionStore } from /stores import array from lodash/array export const hasPermission (value, def…

EXCEL,如何比较2个表里的数据差异(使用数据透视表)

目录 1 问题: 需要比较如下2个表的内容差异 1.1 原始数据喝问题 1.2 提前总结 2 使用EXCEL公式方法 2.1 新增辅助列&#xff1a; 辅助index 2.2 具体公式 配合条件格式 使用 3 数据透视表方法 3.1 新增辅助列&#xff1a; 辅助index 3.2 需要先打开 数据透视表向导 …

Ubuntu 20.04 Ubuntu18.04安装录屏软件Kazam

1.在Ubuntu Software里面输入Kazam&#xff0c;就可以找不到这个软件&#xff0c;直接点击install就可以了 2.使用方法&#xff1a; 选择Screencast&#xff08;录屏&#xff09; Fullscreen&#xff08;全屏&#xff09;-----Windows&#xff08;窗口&#xff09;--------Ar…

20.3 HTML表格

1. table表格 table标签是HTML中用来创建表格的元素. table标签通常包含以下子标签: - th标签: 表示表格的表头单元格(table header), 用于描述列的标题. - tr标签: 表示表格的行(table row). - td标签: 表示表格的单元格(table data), 通常位于tr标签内, 用于放置单元格中的…

数据结构之动态顺序表(附带完整程序)

&#x1f388;基本概念 &#x1f308;一.线性表、顺序表的定义 ☀️&#xff08;1&#xff09;线性表&#xff1a; 是n个具有相同特性的数据元素的有限序列。线性表在逻辑上是线性结构&#xff0c;但在物理上存储时&#xff0c;通常以数组和链式结构的形式存储。 ☀️&…

c# 此程序集中已使用了资源标识符

严重性 代码 说明 项目 文件 行 禁止显示状态 错误 CS1508 此程序集中已使用了资源标识符“BMap.NET.WindowsForm.BMapControl.resources” BMap.NET.WindowsForm D:\MySource\Decompile\BMap.NET.WindowsForm\CSC 1 活动 运行程序时&a…

Mock-MOCO使用过程

一、jar包下载&#xff1a;https://github.com/dreamhead/moco 二、准备mock的json文件 data.json内容&#xff1a; ####GET请求 [{"description": "response使用Content-Type为charsetGBK编码格式来查看返回信息为中文的内容","request": {&q…