VidBot:从野外 2D 人体视频中学习可泛化的 3D 动作,实现零样本机器人操控

25年3月来自慕尼黑工大、瑞士 ETH 和微软的论文“VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation”。

未来的机器人被设想为能够执行各种家务的多功能系统。最大的问题仍然是,如何在尽量减少机器人物理学习的同时弥合具身之间的差距,因为物理学习从根本上来说扩展性不强。从自然人类视频中学习,为机器人操作任务提供了一个有前途的解决方案,因为互联网上已经存在大量相关数据。这项工作提出 VidBot,一个实现零样本机器人操作的框架,使用从自然单目 RGB 人类视频中学习的 3D affordance。VidBot 利用一个流水线提取显式表征,即来自视频的 3D 手部的轨迹,结合深度基础模型和运动结构技术来重建与具身无关、时间一致、度量-尺度的 3D affordance 表征。其引入一种由粗到细的 affordance 学习模型,该模型首先从像素空间中识别粗略动作,然后利用扩散模型生成细粒度的交互轨迹。该模型以粗略动作为条件,并由测试时间约束引导,用于上下文-觉察的交互规划,从而能够大规模泛化到新的场景和具身。大量实验证明 VidBot 的有效性,它在零样本环境下的 13 项操作任务中显著优于其他同类模型,并且可以在现实环境中无缝部署到机器人系统中。VidBot 为利用日常人类视频提高机器人学习的可规模化铺平道路。

如图所示 VidBot:

请添加图片描述

人工智能的进步正在加速个性化设备的开发,例如为用户提供虚拟指导的智能眼镜 [13, 22, 28, 62]。在不久的将来,机器人也将成为类似于智能手机或智能眼镜的个性化系统,旨在为人类提供物理帮助。然而,机器人形态的多样性和新颖性,对在开放式环境中部署人工智能执行开放式任务构成重大挑战。

目前最先进的学习机器人操作技能方法,仍然严重依赖于人类专家的遥操作演示,这些演示用于在模仿学习 (IL) 范式下训练机器人策略 [35, 37, 64, 95]。然而,这一过程仍然成本高昂、耗时且劳动密集。虽然近期的努力已经收集用于日常操作任务的大规模机器人演示,例如 Open X-Embodiment [59] 和 DROID [39],但由于机器人实例、任务和环境的组合爆炸式增长,数据收集仍然具有挑战性。

人类视频提供一个有前途的可解决方案:目前有大量的网络视频捕捉到人类在各种环境中执行各种任务的场景。之前已有几种方法探索人-机技能迁移 [2, 3, 65, 73, 78, 79, 88, 97]。然而,它们面临着某些限制,例如需要静态摄像机或场景、深度传感器、动作捕捉系统等。这些限制通常导致实验室环境缺乏场景、照明或视点的多样性。有一系列研究探索利用具有丰富场景背景的互联网真人视频,来提升机器人学习任务,重点是学习视觉运动策略的视觉表征 [52, 57, 67, 85]。然而,一个主要的限制是依赖于人类在每个新环境中用每个新实例收集特定于任务的遥控数据来微调预训练的模型。最近,像 [4] 这样的工作通过明确提取与智体无关的交互轨迹取得进展。然而,这些提取出的运动被简化为像素空间中的二维矢量,限制它们直接部署到机器人上。除了局限于二维图像平面的视觉表征或像素级动作提示之外,三维 affordance ——具体来说,具有空间感知的接触点和交互轨迹——对于统一不同的实例以从感知中解释动作至关重要。然而,从日常人类视频中提取一般的 3D 舞蹈数据仍然是一个巨大的挑战,阻碍了机器人通过观察人类来学习操纵技能。

视觉 affordance 学习。核心在于确定智体应在何处以及如何与给定场景进行交互。一项研究使用手动注释的数据集回归 affordance [16, 19, 20, 55]。然而,收集 affordance 标签的成本非常高昂。因此,最近的一项研究通过在模拟环境中部署智体来探索有效交互来解决这一挑战 [12, 24, 54, 58, 83]。尽管这些方法提供一种无需人工干预的数据收集替代方案,但它们通常会受到获取各种虚拟资产的成本限制。相比之下,人类视频作为 affordance 先验的更通用来源而备受关注。一些方法 [4, 27, 48, 56] 利用人类视频中的手与物体接触标签来预测每像素 affordance 得分。然而,这些流程通常仅识别接触区域或模拟图像平面内的交互动作,缺乏空间感知。近期的研究 [7, 92] 尝试利用流作为空间感知的 affordance 表征来解决这一限制。然而,这些方法需要在测试时提供目标图像或初始接触区域。

机器人向人类学习。先前的研究已经探索利用人类视频来辅助机器人学习任务。一种方法是从人类视频中学习视觉表征,并使用预训练的视觉编码器来训练策略网络 [6, 52, 57, 67, 82, 85, 89]。另一类研究则侧重于从人类视频中学习奖励函数 [3, 10, 11, 43, 47, 75, 78, 86, 88]。此外,一些研究还使用从视频中提取的运动属性,例如估计 3D 手势或跟踪手腕轨迹 [5, 61, 65, 73, 74, 78, 79, 91]。然而,这些方法通常仅限于实验室设置和/或需要人类专家进行进一步的遥操作演示。[4] 使用日常人类视频来提取与具身无关的动作。然而,其推断的二维像素级运动过于简单且模糊,限制了其直接部署到机器人上。

机器人中的扩散模型。扩散模型是一种强大的学习范式,它通过迭代去噪过程来近似复杂的数据分布。近年来,它们已在各种生成式建模应用中取得了成功[15, 23, 31, 32, 40, 68–70, 81, 96]。在机器人领域,扩散模型已被证明是强大的策略学习框架[1, 14, 36, 38, 45, 46, 51, 84]。扩散策略[14]引入一个通用框架,用于通过条件去噪扩散过程生成多模态机器人轨迹。扩散器[36]通过结合奖励函数增强引导轨迹采样。后续研究[46, 51, 84]提出更具因式分解的策略学习框架,使扩散模型能够在关键步骤之间生成平滑的动作。然而,这些方法侧重于回归极其有限的域内遥操作数据,且在测试过程中不存在模态或具身方面的差距。

本文采用一种原则性方法,利用运动恢复结构(SfM)进行机器人学习,开发一种基于梯度的优化流水线,从野外视频中提取 3D 手部轨迹。同时引入一个由粗到细的 affordance 学习框架,以便从提取的各种训练数据中学习丰富的动作。

目标是从日常人类视频中学习一个分解的 affordance 模型 a = π({I ̃, D ̃}, l),其中 {I ̃, D ̃} 是 RGB-D 帧(图像 ̃I,深度 D ̃),l 是语言指令。注意,深度帧可以从深度传感器或度量-深度基础模型获得 [8, 90]。由于 affordance 表征预计与具身无关,按照先前的研究 [4, 48] 将最终输出 affordance 表示 a 公式化为接触点 c 和交互轨迹 τ,同时将此公式扩展到 3D 空间。具体而言,a = {c, τ}。N_c 是接触点的数量,H 是轨迹范围。注意,a 在观察相机的帧中表征。

从人体视频中获取 3D Affordance

首先设计一个流程,用于从移动单目相机记录的日常人体视频中提取 3D 手部轨迹,其中每帧的姿态和位置均未知。

数据准备:给定一段包含彩色图像的视频 {ˆI_0,…,ˆI_T } 和语言描述 l,首先使用 SfM 系统 [71] 估计相机内参 K、每帧尺度未知的姿态 {T_WC_0,…,T_WC_T} 以及在世界坐标系中表达的稀疏特征点 {wl_0,…,wl_N_l}。利用度量-深度基础模型 [8, 33, 90] 来预测每帧的稠密深度 {Dˆ_0,…,Dˆ_T}。进一步利用手部-物体检测模型 [72] 和分割模型 [41, 94] 来获取每帧手部和接触物体的掩码,即 {M_0h,…,M_Th}、{M_0o,…,M_T^o}。

利用提供的手部掩码,进一步收集 I_0 之前的帧及其手部掩码,使用视频修复模型 [44] 获得无手的帧 { ̃I_0 , …, ̃I_T}。

一致性姿态优化。首要目标是将相机姿态校正到度量空间尺度。为了实现这一目标,利用相机内参及其姿态,将稀疏特征点投影到每个图像平面,从而优化所有帧的全局尺度 s_g。然后,优化所有帧的姿态 T_WC_i 和尺度 s_i,以补偿由于手部-物体动态运动导致的 SfM 重建误差,同时使预测的深度在不同视图之间更加一致。

Affordance 提取。获取每一帧的手部中心点,并将其变换到具有精确姿势和尺度的第一帧,以计算交互轨迹τˆ。在第一帧中均匀地下采样手部点以获取接触点 cˆ,并从最后一帧中获取目标点 gˆ,以监督 affordance 模型的中间预测。语言描述 l、来自[90]的修复颜色̃ I_0 及其深度̃ D_0,以及使用 M_0o 裁剪的修复目标图像̃ I_0^o 被用作模型输入。利用EpicKitchens-100 Videos数据集[18]及其由EpicFields[76]提供的SfM结果来展示流程的有效性。如图展示了提取的结果:

请添加图片描述

从粗到精的 affordance 学习

Affordance 模型概览如图所示。在设计模型时考虑两个关键因素:(1)它应该能够从大量自然人类 affordance 数据中捕捉基于观察和指令的动作分布。(2)它应该在测试期间利用上下文信息来缓解由于训练数据不完善而导致的具身差距和潜在的噪声预测,从而提高生成的 affordance 质量。

请添加图片描述

为了解决第一个因素,将 affordance 模型 π 分解为粗略模型 π_c 和精细模型 π_f。在粗略阶段,π_c 进行高级场景理解,以 RGB-D 帧 { ̃I, D ̃} 和指令 l 为条件推断出一组目标点 g 和接触点 c,即 {g, c} = π_c({ ̃I, D ̃ }, l), a_c = {g, c}。给定粗的阶段输出和任务输入,π_f 在低层规划细粒度的交互轨迹,τ = π_f({ ̃I, D ̃ }, l, a_c)。为了实现第二个因素,为 π_f 集成多个分析成本函数,并在测试期间融入场景上下文和智体具身。这些约束指导轨迹生成过程,从而生成更合理、更能上下文-觉察的交互轨迹。

接触点 c 和交互轨迹 τ 将成为最终的 affordance 输出 a = {c, τ}。

在粗略阶段,粗略 affordance 模型旨在从高维图像空间中提取宏观可操作信息。为了实现这一点,通过学习粗略affordance 的概率及其对应的深度(适用的时候)在像素空间中表示粗略操作点。

精细 affordance 模型用于推断由接触点和目标点引导的细粒度交互轨迹。受[36]启发,精细阶段建模一个条件扩散去噪过程。

成本-引导轨迹生成

如果条件目标点 g ̄ 存在偏移,推断出的轨迹可能会出错。这是预料之中的,因为 π_f 本质上充当了接触点 c ̄ 和目标点 g ̄ 之间的间隙填充器。用于调节的最佳目标点并非总是基于预测分数来选择,而来自目标集 g 的多个目标点可以产生更多样化、更稳健的预测。然而,通过采样不同的目标配置来多次查询 affordance 模型在计算上效率低下。因此,将多目标调节转换为成本函数,以在测试期间引导轨迹生成。此外,成本函数还包括场景避撞引导和接触点法线引导。

其采用了 [32, 69] 中的重建引导。在轨迹生成过程中引入测试-时引导,有几个优点:1)轨迹可以更好地捕捉目标分布,而无需通过精细 affordance 模型进行大量的前向传递。2)可以考虑新具身的形态和以前未见过的物体几何,从而提供无碰撞的手部轨迹,并可轻松集成到下游全身规划中。3)每个轨迹的最终成本值 J 是智体选择最佳交互规划的参考标准。

Affordance 模型训练

为了训练粗略的 affordance 模型,即 π_cgoal 和 π_c^cont,将提取的目标点 gˆ 和接触点 cˆ 投影到图像平面,并通过拟合高斯混合模型获得真实概率,最终得到 Hˆ_g 和 Hˆ_c。目标深度 Dˆ_g,还通过 π_goal 进行回归,其是目标点的中值深度。引入一个辅助向量场回归损失 L_v,用于粗略的可供性模型训练。

模拟器环境。使用 IsaacGym [53] 作为基准测试的模拟平台,并基于 [43] 开发环境。从三个广泛使用的基准测试集(FrankaKitchen [30]、PartManip [24] 和 ManiSkill [29])中选择 13 项日常家务任务。这些任务包含打开、推动、滑动等基本动作,以及橱柜、抽屉和水壶等各种物体。每个任务从三个不同的视角进行评估。每个模型为每个视角生成五条轨迹,每个模型每个任务总共进行 15 次试验。评估方案使用先前研究中常用的成功率 (%) 来量化性能,其中成功的交互定义,为使任务目标的自由度 (DoF) 超过预先指定的阈值,并且不与场景中的其他物体发生碰撞。

基线模型。将模型与几个公开的代表性基线模型进行比较。具体来说,GAPartNet [25] 和 Where2Act [54] 是使用在模拟器中收集(并与之交互)的虚拟铰接体资产进行训练的。Octo [59] 在大规模遥控数据集 [60] 上进行了预训练,并使用收集的数据集进行进一步微调。VRB [4]、GFlow [92] 和模型都使用人类视频进行训练,而 GFlow [92] 可以访问 [50] 中的真值深度、相机参数和物体姿态。因此,VRB [4] 和模型可以在更多的野外环境中运行。遵循 [42] 中的策略,使用物体法线聚类作为线索,将像素级轨迹从 VRB [4] 提升到 3D。VRB [4] 和 GFlow [92] 等基线无法准确推断接触区域。为了确保公平比较,使用自己的模型来推断和标准化接触配置。因此,基准测试的重点是预测准确的交互轨迹,这比接触区域更具挑战性。

真实机器人。在两个现实世界的移动机器人平台上验证框架的有效性:Hello Robot Stretch 3 和 Boston Dynamics Spot(参见下图)。这两个机器人都配备用于感知的机载 RGB-D 摄像头,并接收用于操作任务的语言指令。在三种不同的适合人类的环境中测试机器人物理能力范围内的几项家务任务,例如推抽屉、打开橱柜和拿纸巾。总体而言,机器人在 55 次试验中取得 80.0% 的成功率,证明该框架的具身不可知性和零样本可迁移性。

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/77273.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux 日常运维命令大全

Linux 作为一种开源操作系统,在服务器运维中扮演着重要角色。掌握常用的 Linux 命令对于运维人员而言至关重要。本文将整理一份 Linux 服务器运维常用命令大全,帮助你在日常工作中提高效率和准确性。 1. 基础命令 基础命令是Linux操作的起点&#xff0…

编程规范之枚举

编程规范之枚举 1.1 初始化枚举项 枚举平时用的也没有很频繁,今天看代码规范提到枚举类型初始化枚举项。并对初始化枚举项进行了归纳。包括下面三个 不进行显示初始化,交由编译器完成。 对第一个枚举项的显式初始化,这样可以强制整数值的…

《软件设计师》复习笔记(12.1)——范围管理、进度管理

目录 一、范围管理 1. 核心概念 2. 范围管理过程 WBS(工作分解结构)示例 真题示例: 二、进度管理 1. 核心过程 2. 关键工具与技术 真题示例: 一、范围管理 1. 核心概念 项目范围:为交付产品必须完成的工作…

过去十年前端框架演变与技术驱动因素剖析

一、技术演进脉络(2013-2023) 2013-2015:结构化需求催生框架雏形 早期的jQuery虽然解决了跨浏览器兼容性问题(如IE8兼容性处理),但其松散的代码组织方式难以支撑复杂应用开发。Backbone.js的出现首次引入M…

中华传承-医山命相卜-梅花易数

梅花易数 灵活起卦(如数字、声音、外应等)和象数结合,准确率可达96.8%。其起卦方式摆脱传统龟壳、蓍草的繁琐,强调直觉与灵活性。 个人决策、事件预测等 尤其在短期、具体问题上表现突出。

如何用Brower Use WebUI实现网页数据智能抓取与分析?

作者:算力魔方创始人/英特尔创新大使刘力 Browser-use是一款能让AI智能体像人类一样操作网页的创新工具,与传统网络爬虫技术相比,Browser-use能模拟人浏览并操作网页,在采集网站数据时,不会被网站反爬机制识别和封禁&…

LIMS引领综合质检中心数字化变革,赋能质量强国战略

在质量强国战略的深入推进下,我国综合质检机构迎来了前所未有的发展机遇,同时也面临着诸多严峻挑战。随着检测领域从传统的食品药品监督向环境监测、新材料检测等新兴领域不断拓展,跨领域协同管理的复杂度呈指数级增长。作为提升产品质量的关…

简单好用的在线工具

用AI写了一些在线工具,简介好用,推荐给大家,欢迎大家使用并提议意见。 网址:https://www.bittygarden.com/ 目前已有以下功能: MD5SM3SHAUnicode 编码Unicode 解码Base32 编码Base32 解码Base64 编码Base64 解码URL …

阿里云服务器搭建开源版禅道

一,下载地址:禅道11.5版本发布,主要完善细节,修复bug,新增动态过滤机制 - 禅道下载 - 禅道项目管理软件 下载地址二: 禅道21.6.stable 实现旧编辑器撰写的文档无感升级至新版编辑器 - 禅道下载 - 禅道项目…

leetcode 309. Best Time to Buy and Sell Stock with Cooldown

目录 题目描述 第一步,明确并理解dp数组及下标的含义 第二步,分析并理解递推公式 1.求dp[i][0] 2.求dp[i][1] 3.求dp[i][2] 第三步,理解dp数组如何初始化 第四步,理解遍历顺序 代码 题目描述 这道题与第122题的区别就是卖…

嵌入式硬件常用总线接口知识体系总结和对比

0.前言 在嵌入式工程实现中,多多少少我们都使用过总线,各种各样的总线应用于不同场合,不同场景有不同的优势,但是我们在作为工程师过程中在如何选择项目合适的总线,根据什么来选?需要我们对项目全局和总线特征有所了解,本文目的就是对比多种总线的关键特征 我们在聊到…

数据分析处理库Pandas常用方法汇总

目录 一、基础操作 1.1 创建df对象 1.1.1 读入表格数据 1.1.2 手动创建df 1.2 .info() 1.3 df.index 1.4 df.columns 1.5 df.dtypes 1.6 df.values 1.7 .set_index() 1.8 df[xxx] 1.9 .describe() 1.10 .isin() 1.12 .where() 1.13 .query() 1.14 Series类型运算…

智慧大屏系统

延凡智慧大屏系统旨在打破数据壁垒,将海量、复杂的数据转化为直观易懂的可视化图形和信息,广泛应用于城市管理、企业运营、交通指挥、能源监控等多个领域,为管理者、决策者提供全面、实时、精准的信息展示和分析工具,助力高效决策…

树莓派超全系列教程文档--(32)config.txt常用音频配置

config.txt常用音频配置 板载模拟音频(3.5mm耳机插孔)audio_pwm_modedisable_audio_ditherenable_audio_ditherpwm_sample_bits HDMI音频 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 板载模拟音频(3.5mm耳机…

23种设计模式全面解析

设计模式是解决软件设计中常见问题的经典方案。根据《设计模式:可复用面向对象软件的基础》(GoF),23种设计模式分为以下三类: 一、创建型模式(5种) 目标:解耦对象的创建过程&#x…

AI 推理框架详解,包含如COT、ReAct、LLM+P等的详细说明和分类整理,涵盖其原理、应用场景及对比分析

AI 推理引擎 以下是关于 AI 推理引擎 的详细说明,涵盖其定义、类型、核心组件、技术实现、应用场景及挑战: 1. 推理引擎的定义 推理引擎(Inference Engine)是 AI系统的核心组件,负责根据输入数据、知识库或预训练模…

《探秘鸿蒙分布式软总线:开启无感发现与零等待传输新时代》

在数字化浪潮中,设备之间的互联互通成为构建智能生态的关键。鸿蒙系统中的分布式软总线技术,宛如一座桥梁,让各种智能设备紧密相连。尤其是其实现的设备间无感发现和零等待传输功能,更是为用户带来了前所未有的便捷体验&#xff0…

JDBC 与 MyBatis 详解:从基础到实践

目录 一、JDBC 介绍 二、使用 JDBC 查询用户信息 三、ResultSet 结果集 四、预编译 SQL - SQL 注入问题 五、预编译 SQL - 性能更高 六、JDBC 增删改操作 插入数据: 更新数据: 删除数据: 七、MyBatis 介绍 八、MyBatis 入门程序 引…

基于SpringBoot成绩管理系统设计与实现(源码+文档+部署讲解)

技术范围:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文…

<sql>、<resultMap>、<where>、<foreach>、<trim>、<set>等标签的作用和用法

目录 一. sql 代码片段标签 二. resultMap 映射结果集标签 三. where 条件标签 四. set 修改标签 五. trim 标签 六. foreach 循环标签 一. sql 代码片段标签 sql 标签是 mybatis 框架中一个非常常用的标签页,特别是当一张表很有多个字段多,或者要…