Paper Card
论文标题:RoboVQA: Multimodal Long-Horizon Reasoning for Robotics
论文作者:Pierre Sermanet, Tianli Ding, Jeffrey Zhao, et.al.
作者单位:Stanford University, UC Berkeley, Meta
论文原文:https://arxiv.org/abs/2203.12601
论文出处:CoRL 2022
论文被引:4(02/24/2024)
项目主页:https://robovqa.github.io/
论文代码:https://github.com/google-deepmind/robovqa/tree/main (coming soon)
研究问题:在现有多模态数据集上训练出来的最先进的视觉语言模型能否在现实世界中高精度地执行落地(grounded)任务。
面临挑战:
- VLMs 面临的一个主要困难是现实世界的高维性,因此需要大量的多模态数据(视频、语言、动作)进行训练。
主要贡献:
- 1) 我们展示了一种可扩展的、自下而上的、本质上多样化的数据收集方案,该方案可用于长期和中期的高级推理,与传统的狭义自上而下的逐步收集(比如 RT-1)相比,其吞吐量高出2.2倍,并展示了额外的廉价人工实施数据提高了性能。
- 2)我们发布了一个包含 829,502 对(视频、文本)跨实验数据集,用于机器人视觉问题解答。
- 3)我们展示了在数据集上训练的单一视频条件模型,该模型能够以高于基线的准确度执行各种任务,并能引导真实机器人完成长视距任务。
- 4)我们建立了机器人 VQA 基准和长视距规划基准,并在真实机器人上建立了干预机制,提供单一性能指标,使机器人能够完成任务,即使在不完善的情况下,也可在人类监督下部署。
方法概述:
- 自下而上的数据收集:大量任务由用户和远程操作员众包。与由研究人员和工程师以自上而下的方式事先确定一个固定的小任务列表不同。自下而上的方式有利于扩大任务多样性,以便与真实的用户需求分布保持一致。
主要结论:
- 通过减少重置和场景准备等开销,并利用人类体现收集的低成本,验证比传统的自上而下逐步收集法 RT-1[4] 更有效的数据收集方法。
- 视频 VLM 的性能明显优于单图像 VLM,在所有 VQA 任务中平均错误率降低了 19%。得益于视频调节和数据集多样性,该模型可在需要识别动作而非状态的情况下用作通用视频价值函数(e.g. success and affordance),从而扩展机器人的能力和环境理解能力(视频 VLM能捕捉到更长的时间动态,从而获得更准确的视觉定位(grounding))。
- 与微调模型相比,零样本最新模型的性能仍有很大差距。在现实世界中部署 VLM 时,需要进一步开展可扩展的数据收集工作。
- 与只针对规划任务进行训练(误差率为 77.2%)相比,针对所有任务进行训练可获得更好的规划效果(误差率为 70.9%)。
- 人类数据本身有助于获得对机器人具身环境视频的基础理解。在对机器人具身环境进行评估时,额外的人类具身环境数据并不会影响性能。
- 使用 LLM 按类别(objects, actions, locations and attributes)对短视距指令进行了自动分解。该分析发现了 2862 个物体(e.g. ”tissue box”, ”purple color plate”),680 个技能或动词(e.g. ”add something into something” or ”go out of a room”),3322 个位置或空间关系(e.g. ”in the green plate”, ”left trash can”)和 901 个属性(e.g. shapes, color)。
相关工作:
- Ego4D 以第一视角的人类日常活动(真实环境)视图,并配有密集的旁白注释。
- TEAch 包含解决家庭任务(仿真环境)所需的交互式对话的数据集。
Abstract
我们提出了一种可扩展、自下而上和内在多样化的数据收集方案,该方案可用于中长视距(long and medium horizons)高层次推理,与传统的自上而下逐步收集的狭隘方案相比,吞吐量提高了 2.2 倍。我们通过在 3 栋办公楼内执行任何用户请求,并使用多种具身环境(机器人、人类、使用抓取工具的人类)来收集真实数据。通过这些数据,我们发现,在所有具身环境(embodiment)收集的数据上训练出来的模型也比仅在机器人数据上训练出来的模型表现更好,即使仅对机器人episodes进行评估也是如此。我们探讨了收集成本的经济性,发现在预算固定的情况下,利用较便宜的人工收集和机器人收集是有益的。我们发布了一个被称为 RoboVQA 的大型、高度多样化(29520 条独特指令)数据集,其中包含 829502 对(视频、文本)机器人视觉问题解答。我们还展示了如何通过干预机制评估真实的机器人实验,从而完成任务,使其即使在不完善的情况下也能在人类监督下部署,同时还提供了单一的性能指标。我们展示了在我们的数据集上训练的名为 RoboVQA-VideoCoCa 的单一视频条件模型,该模型能够在广泛的现实环境中执行各种基础高级推理任务,其认知干预率(cognitive intervention rate)比零样本的最先进视觉语言模型(VLM)基线低 46%,并且能够引导真实机器人完成长视距任务。与零样本最先进模型的性能差距表明,要在真实世界中进行部署,还需要收集大量的基础数据,这就强调了对可扩展数据收集方法的迫切需要。最后,我们展示了视频 VLM 的性能明显优于单图像 VLM,在所有 VQA 任务中平均错误率降低了 19%。得益于视频调节和数据集多样性,该模型可在需要识别动作而非状态的情况下用作通用视频价值函数(e.g. success and affordance),从而扩展机器人的能力和环境理解能力。
I. INTRODUCTION
最近,大型语言模型(LLMs)[1, 2]在文本高级推理领域取得了重大突破,而视觉语言模型(VLMs)[3]也取得了进展,但基于真实世界的高级推理仍然是一项具有挑战性的任务,对机器人技术至关重要。在现有多模态数据集上训练出来的最先进的视觉语言模型能否在现实世界中高精度地执行落地(grounded)任务?我们的目标是回答这个问题,证明要在实验室环境之外实现更低的错误率,仍然需要新的大规模数据收集。VLMs 面临的一个主要困难是现实世界的高维性,因此需要大量的多模态数据(视频、语言、动作)进行训练。因此,我们工作的一个主要贡献是,通过减少重置和场景准备等开销,并利用人类体现收集的低成本,验证比传统的自上而下逐步收集法 RT-1[4] 更有效的数据收集方法。通过自下而上的众包方法,长视距任务由真实用户决定,由此产生的中视距步骤自然会高度多样化、与用户相关并按需分配。这种方法不仅能更有效地收集中视距步骤,还能获得长视距连贯序列,从而训练模型执行规划任务。与传统方法相比,这种方法的吞吐量提高了 2.2 倍,因此即使不需要长视距任务,也更适合采用这种方法收集数据。虽然我们确实在这个数据集中收集了机器人的动作,但本文的重点是高级推理任务,因此我们可以在不带有电机命令的具身环境上进行训练,并观察具身环境之间的知识转移。我们在第九章 C 节中发现,对于固定的收集预算,即使仅在机器人化身上进行评估,与更便宜的人类化身联合进行高级推理也是有益的。
我们的贡献总结如下:
1) 我们展示了一种可扩展的、自下而上的、本质上多样化的数据收集方案,该方案可用于长期和中期的高级推理,与传统的狭义自上而下的逐步收集相比,其吞吐量高出2.2倍,并展示了额外的廉价人工实施数据提高了性能。
2)我们发布了一个包含 829,502 对(视频、文本)跨实验数据集,用于机器人视觉问题解答。
3)我们展示了在数据集上训练的单一视频条件模型,该模型能够以高于基线的准确度执行各种任务,并能引导真实机器人完成长视距任务。
4)我们建立了机器人 VQA 基准和长视距规划基准,并在真实机器人上建立了干预机制,提供单一性能指标,使机器人能够完成任务,即使在不完善的情况下,也可在人类监督下部署。
II. DATA
Collection & Dataset
图 1 描述了从用户请求到 VQA 任务生成的收集过程。我们在 3 栋办公楼的整个范围内,通过 3 种具身环境(图 3),从任何长视距任务中收集 episodes,最终获得 238 小时(10 天)的视频,5246 个长视距 episodes 和 92948 个中视距 episodes。长视距视频的平均时长为 102 秒,中视距视频的平均时长为 14 秒。由于在我们的实验中,对自由形式文本答案的评估是由人类完成的,因此我们有意将验证集和测试集保持在较小的规模,每个集约有 1,000 个 VQA 条目(各来自 50 个 episode)。虽然在训练集和验证集/测试集之间会有场景重叠,但在 episode 之间没有重叠。更多统计信息,请参见第 IX-B 章。
Task diversity
为了确保我们的数据集和基准不会过度适应特定的环境、领域或任务,与传统的数据集[5]相比,我们收集了范围广泛的任务示例,而传统的数据集是由研究人员和工程师以自上而下的方式事先确定一个固定的小任务列表。我们选择的是自下而上的方法,即大量任务由用户和远程操作员众包。这有利于扩大任务范围,并更好地与来自真实用户的请求分布保持一致。这导致了任务的高度多样性(26798 个独特的中视距指令,2722 个独特的长视距指令)。
Throughput and costs
图 2 中报告的吞吐量提升主要来自于连续收集中视距 episode,而无需重置场景或机器人。需要注意的是,hindsight labeling 标注过程可以通过众包方式并行处理,并行处理不会影响吞吐量,但这仍然是收集预算中的一项成本。不过,VQA 任务是免费生成的,它利用过去和未来任务的已知序列,并根据不同的已知语义点(例如,在执行中视距任务之前或之后)及时定位问题。
Chain-of-Thought
将高层次目标分解为已定义的任务,可以让机器人在执行长远计划时体现其思考过程。此外,这些任务以自然语言问答的形式提供,可被视为一系列可视化问题解答(VQA)步骤。这种表述方式类似于语言模型提示的思维链[6]。我们还注意到,同时进行的工作[7]证明,模仿人类的逐步思考可以提高计划的准确性。
III. MODELS
A. RoboVQA-VideoCoCa
我们训练了一个名为 RoboVQA-VideoCoCa 的新模型,该模型源自 VideoCoCa 模型[8],是 CoCa [9]的扩展视频语言模型。它采用编码器-解码器架构,结合了视频和文本模式之间的对比预训练(如 CLIP [10])和生成预训练(如 SimVLM [11])。除非另有说明,我们使用的是具有 3.83 亿个参数的 VideoCoCa 基本模型,其初始检查点与原始论文一样是在图像字幕任务中训练的,并在 RoboVQA 视频-文本数据集上对模型进行了微调。我们选择视频条件模型来探索视频在回答我们数据集中的视觉问题时的重要性,并发现视频条件模型具有很大的优势(见图 17 和图 16)。
B. Baselines
为了与我们的微调模型进行比较,我们考虑了以下最先进的基线,它们在视觉问题解答和机器人规划方面具有类似的能力。
PaLM-E [3] 是一个视觉语言模型,由经过预训练的 ViT [12] 和 PaLM [2] LLM 模型构建而成,它将图像投射到经过预训练的 LLM 的标记嵌入空间中。在实验中,我们对 PaLM-E-562B 进行了零样本测试,没有在 RoboVQA 数据集上进行训练。虽然不进行微调并不是对模型进行正面比较,但这种比较的意义在于确定在先前数据集上训练的最先进模型在现实世界中的性能如何,并激励进一步的可扩展数据收集工作,以解决剩余的性能差距。
规划方法。我们尝试了四种基准规划方法:
- 其中两种使用 RoboVQA-VideoCoCa 和 PaLM-E(零样本)作为端到端规划模型。
- 作为另外两种基线方法,我们采用了 SayCan [5] 和 Grounded Decoding [13],这两种方法使用纯文本 LLM (PaLM [2]),在视觉承受力函数(visual affordance function)(使用 RoboVQAVideoCoCa 作为视频承受力值函数)的指导下进行短语级(phrase-level)或标记级(token-level)解码。
IV. BENCHMARKS
A. VQA Benchmark
我们首先评估模型在单个任务上的性能,每个任务由一段视频和一个问题组成。推理结果采用精确匹配的方式,与存储在中央数据库中的先前人类评估结果进行比较,作为视频-问题配对的正确/不正确结果。未找到匹配结果的推理结果将被收集起来,供人工评分员进行评估。在评估过程中,人类评估员将看到与模型完全相同的视频片段和问题。评分者被要求将模型生成的答案标记为正确或错误,在这种情况下,评分者可以提出一个正确的答案。所有答案都会被添加到数据库中,并对每个答案的正确性进行相应标记。
我们在图 4 中报告了所有模型的错误率,并发现与微调模型相比,零样本最新模型的性能仍有很大差距。虽然这并不太令人吃惊,但当看到最近的 VLM 取得了良好的定性结果时,我们还是有理由提出这样的问题。在这里,我们从数量上证明,在现实世界中部署 VLM 时,需要进一步开展可扩展的数据收集工作。在这张图中,我们还提出了视频调节(video conditioning)优于图像调节的理由,并展示了前者的显著优势。
B. Planning Benchmark with Intervention
Intervention
在图 5 中,我们对长视距规划提出了 3 种不同的评估方法。每种评估都通过干预率来衡量,我们将干预率进一步分解为:
- 高层次文本领域的认知干预率
- 低层次运动指令领域的物理干预率
- 认知和物理干预率的平均值
当物理操作为远程操作(100% 物理干预)时,这种区分非常有用,可以将高层次评估与低层次评估分离开来。由于 RoboVQA 数据集非常广泛和多样,我们需要一种能够测试整个数据集的评估程序。然而,当前的低层次策略往往只能在非常狭窄的领域中执行,因此这种解耦使我们能够在 Evaluation #1 和 #2 中测试任务的全部范围。用户,模型和干预操作员在聊天窗口中的认知干预示例见图 6。
Fig.6: 有认知干预的基础对话示例。我们的模型“Brain”的任务是聊天开始时的以下任务:“获取桌子上的袋子和帽子,并在这种情况下将它们挂在外套架上”。聊天的底部显示了最近的消息。该模型对来自 RoboVQA 数据集的现有长视距视频运行,并生成中层次计划来满足长视距请求。操作员在聊天室,并验证每个计划或如果不正确提供更正。用户还能够在任何时间点提问。在这里,我们看到操作员干预,系统在 episode 的这一点报告了 12.5% 的认知干预率。
Offline Video Results
在评估 #1 中,我们在来自 RoboVQA 数据集的 100 个长视距 episode(机器人和人类具身环境)上运行模型,总计 854 个规划步骤。我们给模型下达了长视距指令,模型需要输出中视距计划,并由人类进行评分。请注意,SayCan 和 Grounded Decoding 基线的推理时间较慢,因此不适合在实时环境中运行(因此未在其他评估中显示)。同样,PaLM-E 562B 模型的推理时间太慢,无法实时运行(30 秒),因此我们在这里使用了一个较小的版本。请注意,尽管我们的模型小了 30 倍,但仍比最先进的模型高出 46%。
Live Real-world Results
在第 2 项评估中,高级模型获得了长视距指令,并向由人类远程操作的真实机器人实时提供中视距计划。在第 3 项评估中,部署的是策略而非人类远程操作员,但由于策略的能力有限,评估范围要窄得多。有关这些评估的视频,请访问 robovqa.github.io。虽然在第 3 项评估中,由于部署了策略,我们可以获得更低的干预率,但领域却狭窄了许多,这也强调了在广泛领域中对高级推理进行解耦评估的必要性。
V. ANALYSIS
A. Task Augmentation Matters
在图 7 中,我们在以下不同的任务集上训练了模型:
- planning only
- context-planning only
- planning + success + affordance
- context-planning + success + affordance
- all tasks
请注意,在比较规划任务和所有任务时,针对规划任务训练的模型只看到了 38M 个规划任务示例,而针对所有任务训练的模型看到的规划任务示例数量大约是规划任务示例数量的 1/8。我们发现,除成功任务外,针对所有任务训练的模型往往比专门针对某个任务子集训练的模型具有更好的可比性。例如,与只针对规划任务进行训练(误差率为 77.2%)相比,针对所有任务进行训练可获得更好的规划效果(误差率为 70.9%)。从收集成本的角度来看,值得注意的是,尽管来自完全相同的指令集,但免费任务扩展在不增加额外成本的情况下产生了更好的结果,因此任务扩展对性能和收集的可扩展性非常重要。
B. Tasks Transfer via Cross-Embodiment Data
在图 14 中,我们比较了使用仅在机器人具身环境,仅在人类具身环境以及它们的组合上训练的 RoboVQA-VideoCoCa 在测试分割上的错误率。测试集只包含机器人具身环境数据。尽管存在交叉具身环境,但我们发现,仅在人类数据上进行训练时,所有任务的误差都低于 100%,这表明人类数据本身有助于获得对机器人具身环境视频的基础理解。此外,对两种具身环境进行训练的效果都优于仅对机器人数据进行训练的效果,这表明在对机器人具身环境进行评估时,额外的人类具身环境数据并不会影响性能。我们将 SayCan[5] 作为基线,它使用了一个包含 60 个任务的小型固定列表,并且只能在规划任务上进行评估。我们还将来自 RoboVQA 的承受能力答案作为承受能力函数提供给 SayCan 进行规划。同样,我们对图 15 中的人类和机器人联合测试进行了评估。在机器人+人类测试集上,两种具身环境的训练效果都最好,这一点不足为奇,但我们也发现这是最通用的模型,因为它在所有情况下的表现都更好。更多分析见 IX-C。
C. Importance of Video modeling
我们用 16 帧中的(1, 2, 4, 8, 16)帧来训练我们的模型,从而研究了从视频中获得的性能增益,并发现图 17 中 1 帧和 16 帧之间的误差大幅减少。不出所料,使用更多帧进行建模能获得更好的结果,因为它能捕捉到更长的时间动态,从而获得更准确的视觉定位(grounding)。
D. Video Value-Functions
我们将我们的模型作为视频中的一般定位值函数(grounded value function)进行了评估,发现它可以提供稳定的二进制检测,如图 8 所示。此外,在根据是/否标记的置信度进行筛选时,我们还能进一步提高成功检测的准确性。这些值函数可用于闭环规划,以了解何时执行某个步骤。此外,得益于数据集的广度和视频条件,这些值函数比传统的基于图像的成功或能力检测器能提供更丰富的理解。
VI. RELATED WORK
Vision-Language Models.
最近有许多方法[10, 14, 15, 9, 11, 16, 12]被提出来,旨在大规模图像-文本对数据集上训练视觉语言模型(VLM)。我们发现,这些方法所学习到的特征可用于机器人数据集。在这项工作中,我们还在长视距视频中的对话数据上对名为 VideoCoCa [8] 的预训练视觉语言模型进行了微调。这种视觉语言模型的优势在于,编码器可以使用完整的视频,这有助于解决 RoboVQA 基准中引入的任务所需的细粒度时间推理。
Video Captioning.
我们的任务与视频描述任务密切相关 [17, 18, 19, 20, 21],而视频描述是计算机视觉领域研究得比较透彻的问题。事实上,我们在这些长视距视频上对预先训练好的视频描述模型 VideoCoCa 进行了微调。与视频描述问题不同,我们微调数据集中的所有视频都是第一视角的。此外,我们还收集了由机器人或人类执行的长视距任务的片段标签。此外,我们还在这些片段中添加了各种问答对,为模型增加了更多的监督功能,以便Agent能够执行长视距任务。
Video Datasets with Text Annotations.
最近推出了许多大规模视频数据集[22, 23, 24, 25, 26, 27, 28, 29],其中包括人类执行任务的视频,并附有文字叙述或问答注释。
-
Ego4D 是与 RoboVQA 数据集最相似的数据集,因为 Ego4D 也是以第一视角的人类日常活动视图,并配有密集的旁白注释。不过,我们的数据集在两个关键方面有所不同。首先,我们收集的是人类和机器人在同一环境中的互动。其次,我们的重点是机器人能够完成的任务。我们希望通过降低人类视频和机器人视频之间的领域差距,实现更多从人类视频(收集速度更快)到机器人视频的转移。
-
[30] 也探索了利用非结构化游戏收集语言数据的可扩展方法[31],不过他们依赖于 LLM,要求提示与环境状态相匹配的场景描述,并且仅限于 25 个中层次指令。
[30] Grounding Language with Visual Affordances over Unstructured Data
-
与 RoboVQA 一样,TEACh [32] 也是另一个包含解决家庭任务所需的交互式对话的数据集。不过,TEACh 包含模拟环境中的数据,而我们的数据集则是在真实的厨房和办公室环境中收集的,其中既有人类也有机器人。
Language Models for Planning.
[33] 使用大型语言模型 (LLM) 为机器人任务制定计划。随后,许多研究也使用 LLM 为机器人制定可行的下一步计划 [5, 3, 34, 35, 36]。使用 LLMs 进行规划的一个优势是,这些模型的输出可以用作语言条件策略的输入[37, 4, 38],而这些策略可能是独立训练的。干预率是机器人和自动驾驶汽车文献中常用的评估指标 [39, 40, 41],用于衡量策略的性能。在这项工作中,我们将其作为一个指标,并将其作为完成所有任务的平均值,这是实际部署的必要条件。
Chain of Thought Prompting.
[42, 43, 6]使用了向语言模型提示执行推理任务的过程或步骤的想法。作者发现,提示可以提高模型在代数问题等符号推理任务中的表现。受这些结果的启发,我们也为模型提供了推理或思维监督,将子任务作为成功完成长视野任务的事后标签。
VII. LIMITATIONS
一些长视距事件可能过于重复和简单,因此我们过滤掉了有 5 个以上相同中视距步骤的事件。随后,我们发现泛化效果有所提高。此外,我们还没有将所提出的人类与机器人数据集/基准与 Ego4D [29]、EpicKitchens [44] 等纯人类数据集/基准的有效性进行比较,这值得我们在今后的工作中仔细研究。
VIII. CONCLUSION
我们展示了一种具有更高吞吐量、高多样性和广度的长视距收集方法,并发布了由此产生的数据集,供机器人界使用。我们在真实机器人上展示了利用该数据集学习到的一系列能力,并建立了以干预作为衡量标准和部署手段的规划基准。
IX. APPENDIX
A. Random frames from training set
B. Dataset Statistics
如图 10 所示,整个数据集是 5246 个长视距 episode 的集合(5046 个用于训练,100 个用于验证)。每个 episode 有一个长视距指令和数量不等的中视距指令,这些指令在时间上是分割的。训练集中有 2638 条独特的长视距指令。每个独特的长视距指令平均收集 2.01 个 episode,中位数为 1,最大值为 90。每个长视距指令的训练 episode 数量见图 11。图 12 显示了与测试集具有相同长视距指令的训练 episode 数量。我们发现,46% 的测试集在训练集中没有匹配的长视距指令。我们在图 9 中展示了训练集中的随机帧,在图 IX-D 中展示了训练 episode 中的随机长距和短距指令。我们还在 IX-E 中对训练集中的语言进行了广泛分析,使用 LLM 按类别(objects, actions, locations and attributes)对短视距指令进行了自动分解。该分析发现了 2862 个物体(e.g. ”tissue box”, ”purple color plate”),680 个技能或动词(e.g. ”add something into something” or ”go out of a room”),3322 个位置或空间关系(e.g. ”in the green plate”, ”left trash can”)和 901 个属性(e.g. shapes, color)。请注意,这些数字只是指示性的,因为有些物体可能被重复描述,例如,详见 IX-E。
C. Comparing Embodiment Mixtures
机器人的采集吞吐量往往是成本的一个因素,包括时间、资金、远程操作员培训和可用性、硬件维护等,而人类已经是专家,采集数据的成本和周期比机器人要少得多。
如果将所有这些参数都考虑到收集预算中,我们就会发现,机器人与人类的收集成本比和吞吐量会因所有这些参数的不同而有很大差异。因此,在扩大数据收集规模时,一个关键问题就是要知道在给定预算下,哪种数据混合策略的错误率最低。
我们在图 13 中探讨了这一问题,查看了在 500,000 次 VQA 对话的固定收集预算下的数据产量,并在图 13-b 中报告了不同配置的性能,以分析不同混合物之间的权衡。我们发现,即使机器人与人类的比例为 1.0,并且只在机器人测试集上进行评估,在机器人 250k 与人类 250k 等量混合数据集上进行训练时,错误率(62.4%)与完整的 500k 机器人数据集(62.7%)相当,而在人类测试集上的错误率(53.9% 与 67.0%)也明显较低。混合人类数据不仅不会降低机器人的性能,还能使模型更加通用,适用于其他需要理解人类的应用。
同样,我们发现当机器人与人类的成本比为 4.0 时,混合数据集(机器人-62k + 人类-250k)在机器人测试集上的表现与仅使用机器人的 125k 数据集相似(65.3% vs 63.5%),而在人类测试集上的表现则明显较低(51.1% vs 68.7%)。我们还观察到,在 500k 机器人样本与 125k 机器人样本上进行训练时,性能提升似乎很小,而且当机器人数据从 62k 增加到 250k 时,在人类数据上的性能略有下降。我们的结论是,尽管在具身环境方面存在差异,但这项分析验证了一种常见的直觉,即人类数据收集是扩大机器人数据收集规模的有效方法。
D. Instructions Samples
我们从训练集中打印50条随机指令,用于下面的长范围和短范围,以了解数据的外观。
50 long-horizon instructions:
- please place all of the highlighters into the pen holder
- please clean up the spill and put cup back on mouse pad
- Please flip the bowls and pickup the yellow, pink and green candies from the floor and place them in bowls. Then restock the chips into the bin.
- please grab a small bin from the cart, place it on the table, put the red pens on the table in it, then put it back on the supply cart empty the chips onto the counter
- Please flip the bowls and pickup the yellow, pink and green candies from the floor and place them in bowls. Then place the tongs into the bins.
- Please flip the bowls and pickup the yellow, pink and green candies from the floor and place them in bowls. Then pick up the tongs from floor and place in bins.
- please clean up the pistachios spill on desk
- I am feeling a little sick, can you please get me a covid test in the cabinet at the end of the building, as well as return it back onto my desk.
- put fruit on the bookshelf
- fill the bowl with apples
- prepare a cup of coffee with the espresso machine.
- place candies into middle bowl and blue chip bag in left bowl
- place items from counter to bin
- I don’t want the water anymore. Can you pour the water into the sink and then throw the cup away
- move items from table to cart
- can you take the wireless mouse box out of the filing cabinet and put it on top of the table for me
- I am done using the room can you turn off all the lamps.
- Tidy up the mk table by straightening out the fruit labels, lining up the utensil holders and straightening the honey bottle platform
- there is rubbish on the table, please throw them away into the correct places in the disposal bins on the floor by the door
- i’m done writing in my notebook, please close it up and return the pen to the pen holder
- please bring my green shopping bag from the coat rack to the table
- separate the toys and microfiber cloths into different baskets.
- please remove the chips from the bowl and place them in the top draw.
- I am done drinking the coffee can you throw it in a trash can and get me some laffy taffy from MK kitchen to my desk.
- please put the sugar packets in the tray
- Can you refill my water cup and replace the cap and straw?
- Restock the Numi tea boxes into the correct places
- put the chips in the bin.
- put all the snacks in the tray.
- move the mouse box from the Whitney conference room to the dining booth
- Please place the cookie squares into the tray.
- please stock caddy for phone room
- pick the apple out of the jar and take it to phone room 2a3
- place only the green pears in the bowl
- Restock the ice packs and bandage rolls
- put all the screwdrivers in the cup
- please get the colored plastic cups from the top drawer and put them on the countertop
- empty bin onto the table
- open locker 17. then bring bag of chips from desk 2p2a to locker. close locker 17.
- throw away the cocunut water
- Put the red pens in the cup and bring them to a table in the mk, then bring the large postit notes to the table also make a virtal line of the plants and sort them by hight
- please pick up the trash on the table and throw it away into the compost
- bring a usb c charger from the bookshelf to the desk in the whitney room
- take out duck from plate on counter in a group
- put duck into the basket
- i’m finished with this hint water, please go recycle it in the micro kitchen for me and then bring me back a bag of lesser evil popcorn, cheese flavor
- Please flips the bowls then seperate the green, yellow and pink candy. Then remove the tongs and the forks from bins and place them on table.
- put the fruits in the basket
50 medium-horizon instructions:
- Touch the green bag
- go away from the table
- Grab the tissue
- place the banana into the small bowl
- drop the cups on the table
- place strawberry hint water bottle in the tray
- place green marker in the cup
- Drop the green candy packet in the container
- Place the black book on the table
- Pick the bag on the table
- Arrange the white packet in tray
- open the cap of jar
- place the yellow packet in glass
- Put the tilted cup up right on the table
- Release the orange marker into the left holder
- Turn to the right
- drop yellow candy into the left bowl
- place the cup backward
- drop the blue pen on a table
- open the white box
- Put orange bowl in the box
- …
E. Dataset Language Statistics Analysis by LLM
我们使用LLM从训练集中的每个短视界指令中提取不同的属性,并找到:
- 1795 objects, e.g. “tissue box”, “purple color plate”.
- 494 actions, e.g. “add something into something”, “go out of a room”.
- 2064 locations, e.g. “in the green plate”, “left trash can”.
- 462 attributes, e.g. shapes, color.
需要注意的是,由于没有进行聚类,这些列表包含了对每个类别的冗余描述,因此上面的计数并不代表唯一的实例。在随后的章节中,我们将展示上述每个类别的完整列表以及由 LLM 推断出的父类别。