25年3月来自谷歌的技术报告“Gemini Robotics: Bringing AI into the Physical World”。
大型多模态模型的最新进展,已使数字领域出现卓越的通才能力,但将其转化为机器人等物理智体仍然是一项重大挑战。一般有用的机器人需要能够理解周围的物理世界,并与之进行有效和安全的交互。本报告介绍专为机器人设计并建立在 Gemini 2.0 基础上的AI 模型系列。
Gemini Robotics,是一种能够直接控制机器人的视觉-语言-动作 (VLA) 通才模型。Gemini Robotics 执行流畅且反应灵敏的动作,处理各种复杂的操作任务,同时还能对物体类型和位置的变化具有鲁棒性,能够处理未见过的环境以及遵循多样化的开放词汇指令。通过额外的微调,Gemini Robotics 可以专注于新功能,包括解决长期、高度灵巧的任务,例如折叠纸狐狸或玩纸牌游戏,从少至 100 个演示中学习新的短期任务,适应全新的机器人具身,包括双臂平台和高自由度人形机器人。这是因为 Gemini Robotics 建立在 Gemini Robotics-ER 模型之上。Gemini Robotics-ER(具身推理)将 Gemini 的多模态推理能力扩展到物理世界,增强空间和时间理解。这实现与机器人相关的功能,包括物体检测、指向、轨迹和抓取预测,以及以多视图对应和 3D 边框预测形式实现的 3D 理解。这种组合可以支持各种机器人应用,例如零样本(通过机器人代码生成)或少样本(通过上下文学习)。与这种机器人基础模型相关的安全因素,也已经考虑。
如图概述Gemini 机器人系列:
现代人工智能 (AI) 模型取得了显著进展,并在大型数据集上进行了预训练,重新定义了信息处理,展示了对文本、图像、音频和视频等多种模态的熟练程度和泛化能力。这为数字领域的交互式和辅助系统开辟了广阔的前景,从多模态聊天机器人到虚拟助手。然而,要在物理世界中发挥通用自主人工智能的潜力,需要从数字世界进行重大转变,在数字世界中,物理基础的智体必须展示出强大的人类水平的具身推理能力:一套世界知识,包含在本质上物理具身的世界中运作和行动至关重要的基本概念。虽然具身推理能力是理所当然的,例如感知环境的 3D 结构、解释复杂的目标关系或理解直观的物理,但这些能力构成任何具身智体的重要基础。此外,具身智体还必须超越被动地理解现实世界的空间和物理概念;它还必须学会采取对外部环境有直接影响的行动,从而弥合被动感知和主动物理交互之间的差距。 随着机器人硬件的最新进展,创建能够执行高度灵巧任务的具身智体具有潜力。考虑到这一点,我们要问:如何才能赋予最先进的数字人工智能模型以与世界进行一般和灵巧的互动所需的具身推理能力?
该论文以利用前沿视觉-语言模型 (VLM)(如 Gemini 2.0)固有的先进多模态理解和推理能力为前提。这些基础模型所提供的广义理解,以及它们解释视觉输入和复杂文本指令的能力,为构建具身智体奠定了坚实的基础。这一努力取决于两个基本要素。首先,Gemini 需要获得强大的具身推理能力,从而能够理解物理世界丰富的几何和时空细节。其次,Gemini 能够理解物理动作、理解接触物理、动力学和现实世界互动的复杂性,从而将这种具身推理应用到物理世界中。最终,这些部分必须结合起来,才能在现实世界中快速、安全、灵活地控制机器人。
Gemini 2.0 是一种视觉-语言模型 (VLM),它能够完成的任务远不止视觉理解和语言处理。具体来说,该模型展现了先进的具身推理 (ER) 能力。将 ER 定义为视觉语言模型将现实世界中的物体和空间概念落地的能力,以及为下游机器人应用合成这些信号的能力。请参见下图中此类能力的一些示例。
ERQA 基准
为了捕捉 VLM 具身推理的进展,引入 ERQA,即具身推理问答的缩写,这是一个基准,专门关注具身智体与物理世界交互可能需要的能力。ERQA 包含 400 个多项选择视觉问答 (VQA) 式问题,涵盖各种类别,包括空间推理、轨迹推理、动作推理、状态估计、指向、多视图推理和任务推理。问题类型分布的细分如图所示。
如图显示 ERQA 的一些示例问题和答案。有些问题需要 VLM 识别和注册跨多帧的目标;其他则需要推理物体的affordance和与场景其余部分的 3D 关系。
Gemini 2.0 模型具有高级推理能力——如果用思维链 (CoT) 提示 (Wei,2022),可以显著提高 Ge使用以下指令作为附加在每个问题末尾的 CoT 提示:“逐步推理答案,并展示你每一步的工作。只有在那之后,才能继续得出最终答案。”结果如表所示。
有了 CoT 提示,Gemini 2.0 Flash 的性能超过没有 CoT 的 Gemini 2.0 Pro Experimental,而 CoT 进一步提高 Gemini 2.0 Pro Experimental 的性能。下图突出显示两个这样的推理轨迹,Gemini 2.0 Pro Experimental 在没有 CoT 的情况下回答错误,但在有 CoT 的情况下回答正确。推理轨迹表明 Gemini 2.0 能够 1) 将其空间理解精确地建立在图像观察的基础上;2) 利用这种基础进行复杂的、逐步的具体推理。
Gemini 2.0 的具身推理能力
Gemini 2.0 可以理解图像中的各种 2D 空间概念:
- 物体检测:Gemini 2.0 可以执行开放世界 2D 物体检测,提供精确的 2D边框,查询可以是显式的(例如,描述物体名称)或隐式的(类别、属性或功能)。
- 指向:给定任何自然语言描述,该模型能够指向显式实体,如物体和物体部分,以及隐式概念,如affordance(在哪里抓取,在哪里放置)、自由空间和空间概念。
- 轨迹预测:Gemini 2.0 可以利用其指向功能生成基于其观察的 2D 运动轨迹。例如,轨迹可以基于一种对物理运动或交互的描述。
- 抓握预测:这是 Gemini Robotics-ER 中引入的一项新功能。它扩展 Gemini 2.0 的指向功能,以预测自上而下的抓握。
Gemini 2.0 还具有 3D 空间推理能力。凭借“3D 视图”能力,Gemini 2.0 可以更好地理解大小、距离和方向等概念,并可以利用这种理解来推理场景的状态和在 3D 中要执行的操作。
- 多视图对应:用图像表示 3D 信息的一种自然方式是通过多视图(例如立体)图像。 Gemini 2.0 可以从多视角图像中理解 3D 场景,并预测同一场景的多个摄像机视图之间的 2D 点对应关系。
- 3D 边框检测:这种 3D 理解也适用于单幅图像 - Gemini 2.0 可以直接从单目图像中预测度量 3D 边框。与 2D 检测和指向功能一样,Gemini 2.0 可以通过开放词汇描述来检测物体。
虽然可以为每个任务单独创建专家模型,但将它们融合到单个基础模型(例如 Gemini 2.0)中,可以让模型使用开放世界的自然语言指令执行具身推理任务,响应反馈并维持多轮交互。特别是,Gemini 2.0 可以将场景理解与推理相结合,以解决更复杂的任务,例如编写机器人代码。
Gemini 2.0 支持零样本和少样本机器人控制
Gemini 2.0 的具身推理能力使得无需使用任何机器人动作数据进行训练即可控制机器人。它可以开箱即用地执行所有必要的步骤,包括感知、状态估计、空间推理、规划和控制。之前的工作需要为此构建多个模型(Ahn,2022 ;Kwon ,2024 ;Liang ,2023 ;Vemprala ,2023),而 Gemini 2.0 将所有必需的功能整合到一个模型中。
下面研究两种不同的方法:通过代码生成的零样本机器人控制和通过上下文学习(ICL)的少样本控制 - 根据少量上下文演示来调整模型,以达到新行为的目的。 Gemini Robotics-ER 在两种环境下的一系列不同任务中均取得了良好的表现,尤其是零样本机器人控制性能与更好的具身理解密切相关:Gemini Robotics-ER 为此接受了更全面的训练,与 Gemini 2.0 相比,其任务完成率提高了近 2 倍。
通过代码生成进行零样本控制。为了测试 Gemini 2.0 的零样本控制能力,将其天生的代码生成能力与具身推理能力相结合。在双手 ALOHA 2(Team et al.,2024;Zhao et al.,2025)机器人上进行实验。为了控制机器人,Gemini 2.0 可以访问 API(Arenas,2023;Kwon,2024;Liang,2023),该 API 可以将每个夹持器移动到指定的姿势,打开和关闭每个夹持器,并提供当前机器人状态的读数。该 API 还提供感知功能;不调用外部模型,而是由 Gemini 2.0 本身检测物体边框、物体上的点,并生成自上而下的抓取姿势。
在一次episode中,Gemini 2.0 最初会收到系统提示、机器人 API 的描述和任务指令。然后,Gemini 2.0 迭代地接收显示场景当前状态、机器人状态和执行反馈的图像,并输出在环境中执行以控制机器人的代码。生成的代码使用 API 来理解场景并移动机器人,执行循环允许 Gemini 2.0 在必要时做出反应并重规划。如图给出 API 和 episodic 控制流的概述。
通过上下文示例进行小样本控制。先前的结果展示如何有效地使用 Gemini Robotics-ER 来完全零样本地处理一系列任务。然而,一些灵巧的操作任务超出 Gemini 2.0 目前执行零样本的能力。受此类案例的启发,该模型可以根据少量上下文演示进行调节,然后可以立即模拟这些行为。与前面的示例不同,不是生成代码,而是提示模型直接生成末端执行器姿势的轨迹,遵循演示中的示例。
扩展 (Di Palo & Johns, 2024) 中提出的方法,该方法将 𝑘 个遥控机器人动作轨迹转换为目标和末端执行器姿势列表,将它们标记为文本并将它们添加到提示中。得益于 Gemini Robotics-ER 的具身推理能力,不需要任何外部模型来提取视觉关键点和物体姿势(如参考文献中所做的那样);Gemini Robotics-ER 可以自己完成这项工作。除了观察来自上下文轨迹的自然语言推理,并且变得更好,例如,了解何时使用哪个手臂,或者更准确地预测在哪里与物体交互。使用大型多模态模型的一个优点是能够根据观察、动作和语言来调节其行为,所有这些的组合都优于任何单独的模态。
Gemini 2.0 Flash 和 Gemini Robotics-ER 都能够有效地使用完全在上下文中的演示来提高性能。 Gemini 2.0 Flash 在模拟中的表现达到 51%,而 Gemini Robotics-ER 在模拟和现实世界中的表现达到 65%。与零样本代码生成方法相比,大部分性能改进来自更灵巧的任务,例如交接物体、折叠衣服或打包玩具,这些演示可以调节模型以输出更精确的双手轨迹。
Gemini 2.0 Flash 及其 ER 增强版本 Gemini Robotics-ER 可直接用于控制机器人,作为感知模块(例如,物体检测)、规划模块(例如,轨迹生成)和/或通过生成和执行代码来协调机器人运动。它还显示具身推理能力的模型性能与下游机器人控制之间的强相关性。同时,该模型还能够利用上下文学习的强大功能,只需几个演示即可学习,并通过直接输出末端执行器姿势的轨迹来提高折叠衣服等更灵巧和双手任务的性能。然而,作为 VLM,机器人控制存在固有的局限性,尤其是对于更灵巧的任务,因为需要中间步骤将模型固有的具身推理能力与机器人动作联系起来。
Gemini Robotics:模型和数据
模型。像 Gemini Robotics-ER 这样的大型 VLM 中,推理通常很慢,并且需要特殊的硬件。这可能会在 VLA 模型的背景下造成问题,因为推理可能无法在机载上运行,并且由此产生的延迟可能与实时机器人控制不兼容。Gemini Robotics 旨在解决这些挑战。它由两个组件组成:托管在云中的 VLA 主干(Gemini Robotics 主干)和在机器人机载计算机上运行的本地动作解码器(Gemini Robotics 解码器)。Gemini Robotics 主干由 Gemini Robotics-ER 的精简版本组成,其查询到响应延迟已从几秒优化到 160 毫秒以下。机器人上的 Gemini Robotics 解码器补偿主干的延迟。当主干和本地解码器组合在一起时,从原始观测到低级动作块的端到端延迟约为 250 毫秒。当块中有多个动作时,有效控制频率为 50Hz。尽管主干存在延迟,但整个系统不仅可以产生流畅的动作和反应行为,而且还保留主干的泛化能力。模型架构概览如图所示:
数据。在 12 个月内收集一批 ALOHA 2 机器人(Team et al.,2024;Zhao et al.,2025)的大规模遥控机器人动作数据集,其中包括数千小时的真实世界专家机器人演示。该数据集包含数千个不同的任务,涵盖了具有不同操作技能、目标、任务难度、情节范围和灵活性要求的场景。训练数据还包括非动作数据,例如 Web 文档、代码、多模态内容(图像、音频、视频)以及具身推理和视觉问答数据。这提高了模型理解、推理和概括许多机器人任务和请求的能力。
基线。将 Gemini Robotics 与两种最先进的模型进行比较:第一个是 𝜋0 重实现,这是对开放权重最先进的 𝜋0 VLA 模型 (Black,2024) 的重实现。在多样化的训练混合上训练 𝜋0 重实现,发现该模型的表现优于发布的公共检查点,因此,将其报告为实验中性能最高的 VLA 基线。第二个是多任务扩散策略(受 ALOHA Unleashed(Zhao 等人,2025)启发,但经过修改以适应任务),该模型已被证明可有效地从多模态演示中学习灵巧的技能。这两个基线都使用多样化数据混合的相同组合进行训练以达到收敛。 Gemini Robotics 主要在云端运行,使用本地动作解码器,而两个基线都在配备 Nvidia RTX 4090 GPU 的工作站本地运行。数据均基于严格的现实世界机器人实验,并进行了 A/B 测试和统计分析。
Gemini Robotics 可以开箱即用地解决各种灵巧操作任务
对所有模型进行了开箱即用的评估,即没有任何特定于任务的微调或额外提示,评估了从数据集中抽样的 20 个任务。选择了不同可变形体的灵巧操作(例如,“将电线缠绕在耳机上”)。
Gemini Robotics 模型可以熟练完成一半的开箱即用任务,成功率超过 80%。值得注意的是,模型擅长可变形体操作(“折叠粉色布料”、“将电线缠绕在耳机上”),而基线则难以完成这些任务。对于更具挑战性的任务(例如“打开粉色文件夹”、“插入红色积木”、“将电线缠绕在耳机上”),Gemini Robotics 是唯一能够实现非零成功的方法,这突显出高容量模型架构与所有模态(视觉、语言和动作)的高质量多样化数据相结合对于多任务策略学习至关重要。最后,一些最灵巧的任务仅从多任务设置中学习仍然相当具有挑战性(例如“插入鞋带”)。
Gemini Robotics 可以紧密遵循语言指令
选择 25 条语言指令,在五个不同的评估场景中进行评估,包括训练场景以及具有未见过物体和容器的新场景。评估侧重于必须精确遵循的语言命令(例如,“将蓝色夹子放在黄色便签的右侧”)——与“清理桌子”等开放式抽象指令形成对比。
强大的可操纵性,源于高质量多样化数据和强大的视觉语言主干的结合。即使在简单的分布场景中,Gemini Robotics 和 𝜋0 重实现也优于扩散基线,这表明需要强大的语言编码器。然而,尤其是在具有新物体和细粒度指令的具有挑战性场景中(例如,“将牙膏放在牙膏盒的底部隔间中”),Gemini Robotics 比任何基线都更有效。虽然基于 PaliGemma 的 𝜋0 重实现正确地贴近训练期间看到的物体,但它在解释描述性语言属性(例如,“顶部黑色容器”、“蓝色夹子”)方面遇到困难,并且无法解决带有未见过的物体和语言描述符的任务。
Gemini Robotics 将 Gemini 的泛化带入物理世界
缺乏强大的泛化,是机器人在家庭和工业应用中大规模部署的关键瓶颈。评估 Gemini Robotics 处理沿三个轴的变化的能力,这在先前的工作中被认为是重要的(Gao,2025)。
视觉泛化:模型应该对场景的视觉变化保持不变,这些变化不会影响解决任务所需的操作。这些视觉变化可能包括背景、光照条件、干扰目标或纹理的变化。
指令泛化:模型应该理解自然语言指令中的不变性和等效性。除了细粒度可操纵性之外,模型还应该理解释义、对拼写错误具有鲁棒性、理解不同的语言和不同程度的特殊性。
动作泛化:模型应该能够调整学习的动作或合成新的动作,例如泛化到训练期间未见过的初始条件(例如,物体放置)或物体实例(例如,形状或物理属性)。