OpenVLA-OFT

TL;DR

  • 2025 年斯坦福提出的 OpenVLA 工作的续作 OpenVLA-OFT,优化 VLA 能够有效适应新的机器人平台和任务,优化的技术主要有并行解码、动作块处理、连续动作、L1 回归和(可选的)FiLM 语言调节

Paper name
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success

Paper Reading Note

Paper URL:

  • https://arxiv.org/pdf/2502.19645

Introduction

背景

  • 为了在新型机器人和新任务中顺利部署,微调仍然是关键步骤
  • 现有方案 OpenVLA 的关键限制
    • 推理速度慢(3-5赫兹),不适合高频控制
    • 在双臂操作器上执行任务不可靠

本文方案

  • 提出了 OpenVLA-OFT(Optimized Fine-Tuning优化微调配方),结合了并行解码与动作块、连续动作表示,以及L1回归学习目标

    • 通过并行解码结合动作块(chunking),不仅大幅提升推理效率,还能提高下游任务的成功率,并带来更灵活的输入输出规格;
    • 连续动作表示相比离散表示进一步提升了模型质量;
    • 采用 L1 回归目标微调 VLA,与基于扩散的微调方法在性能上相当,但训练收敛速度更快,推理速度也更高效。
  • 微调的效果和模型推理效率都有提升

    • 在标准的 LIBERO 仿真基准测试和真实双臂 ALOHA 机器人精细操作任务上进行了实验。在 LIBERO 中,OpenVLA-OFT 在四个任务组中达到了平均 97.1% 的成功率,超过了微调后的 OpenVLA 策略(76.5%)和 π0 策略
    • 在 8 步动作块设置下实现了 26 倍的动作生成速度提升
    • 真实 ALOHA 任务中,结合 FiLM 方法强化了语言指令理解,称为 OFT+。OpenVLA-OFT+ 成功执行了诸如折叠衣物、根据用户指令操作食材等复杂双臂任务。平均成功率上,超越了微调后的VLA(π0 和 RDT-1B)和主流从零训练的模仿学习策略(Diffusion Policy 和 ACT)多达15%(绝对值)
      在这里插入图片描述

Methods

OpenVLA 回顾

  • 在 Open X-Embodiment数据集的 100 万集数据上微调 Prismatic 视觉语言模型(VLM)而创建的 70 亿参数的操作策略

  • 每个时间步预测 7 个离散的机器人动作标记:3 个用于位置控制,3 个用于方向控制,1 个用于夹爪控制。

  • 采用下一个标记预测作为学习目标,并使用交叉熵损失,类似于语言模型

  • 动作分块

    • 先前的研究表明,动作分块——即预测并执行一系列未来动作而不进行中间重规划——可以提高许多操作任务中策略的成功率。然而,OpenVLA 的自回归生成方案使得动作分块不切实际,因为即使生成单个时间步的动作在 NVIDIA A100 GPU 上也需要 0.33 秒。对于大小为 K 个时间步的动作分块和动作维度 D,OpenVLA 需要 KD 次顺序解码器前向传播,而不是没有分块时的 D 次传播。这种 K 倍的延迟增加使得在原始公式下,动作分块对于高频机器人不切实际。本文将介绍一种并行生成方案,以实现高效的动作分块。

VLA 微调设计优化

模型结构及训练策略优化
  • 并行解码:利用双向 attention,一次性生成所有 actions
    • 以空动作嵌入作为输入,并用双向注意力替换因果注意力掩码,从而使解码器能够同时预测所有动作。从 D 次顺序传播减少到单次传播,其中 D 是动作维度
    • 并行解码自然扩展到动作分块:要预测多个未来时间步的动作,我们只需在解码器的输入中插入额外的空动作嵌入,这些嵌入随后被映射为一系列未来动作。对于大小为K的分块,模型在一次前向传播中预测KD个动作,吞吐量增加了K倍,同时几乎不影响延迟。并行解码在理论上可能不如自回归方法具有表现力,但本文的实验表明,在各种任务中并没有性能下降。
  • 离散 action token 改为连续的 action 设计,对比以下两种设计
    • 基于softmax的标记预测处理的离散动作:每个动作维度被归一化到[−1, +1]并均匀离散化为256个bin。语言模型解码器的最终隐藏状态被线性投影为logits,然后通过softmax操作形成动作标记的概率分布
    • 由多层感知机(MLP)动作头直接生成的连续动作:最终隐藏状态则通过一个单独的动作头MLP直接映射为归一化的连续动作
  • 学习目标,对比以下:
    • 离散动作:next-token prediciton
    • 连续动作:L1 回归,最小化预测动作和真实动作之间的平均 L1 差异
    • 连续动作:diffusion (和 diffusion policy 文章类似),策略通过逆向扩散逐渐去除噪声动作样本以产生真实动作
      在这里插入图片描述
  • 采用了特征线性调制(FiLM)增强语言跟随能力:将语言嵌入注入到视觉表示中,使模型更多地关注语言输入
    • 计算任务描述中的语言嵌入 x 的平均值,并将其投影以获得缩放和偏移向量 γ 和 β。这些向量通过仿射变换对视觉特征F进行调制:FiLM(F|γ, β) = F̂ = (1 + γ) ⊙ F + β
      在这里插入图片描述

Experiments

LIBERO 实验

  • 使用四个任务套件:LIBERO-Spatial、LIBERO-Object、LIBERO-Goal 和 LIBERO-Long,每个套件在 10 个任务中各提供 500 个专家演示,以评估策略在不同空间布局、物体、目标和长程任务上的泛化能力
    在这里插入图片描述

  • 实验配置

    • 为非扩散方法训练 5 万至 15 万次梯度更新,扩散方法(由于收敛较慢)训练 10万至25万次,批量大小为 64-128,使用 8 张 A100 或 H100 GPU。
    • 每隔 5万步测试一次模型,并报告每次运行的最佳表现。
    • 策略的输入为一张第三人称图像和一条语言指令。
    • 使用动作分块(action chunking)的方法,分块大小 K=8
  • 模型效果评测

    • 并行解码(Parallel Decoding, PD)和动作分块(Action Chunking, AC) 是实现高频率控制(25-50+ Hz)的必要条件。并行解码和动作分块不仅提高了吞吐量,还显著提升了性能,相比自回归 OpenVLA 策略,平均成功率提高了 14%(绝对值)。在 LIBERO-Long 套件上提升尤为明显,表明动作分块有助于捕捉时间依赖性并减少累积误差,从而使任务执行更加平滑和可靠。
    • 连续动作变体比离散动作变体的成功率又提高了 5%(绝对值),这可能是因为连续动作预测具有更高的精度。
    • L1 回归和扩散变体性能相当,说明高容量的 OpenVLA 模型即便使用简单的 L1 回归,也能有效建模多任务动作分布。
      在这里插入图片描述
  • 模型性能评估

    • 在 NVIDIA A100 GPU 上对每种模型变体进行 100 次查询,测量平均延迟(生成一个动作或动作块的时间)和吞吐量(每秒生成的动作数)。输入是一张 224x224 像素的图像和一条示例语言指令(例如:“捡起字母汤罐头放进篮子里”)。
    • 并行解码将 7 次顺序前向传递合并为一次,从而使延迟减少、吞吐量提高了 4 倍。
      增加动作分块(K=8)虽然使延迟增加了 17%(因为解码器的注意力序列更长),但结合并行解码后,总体吞吐量提升达 26 倍。
    • 连续动作(L1 回归)变体效率变化微小,而扩散变体由于需要 50 次去噪步骤,导致延迟是其他方法的 3 倍,但通过并行解码和分块,仍然实现了 2 倍以上的吞吐量提升。这意味着尽管动作块之间的暂停更长,但扩散变体仍比原始自回归 (OpenVLA) 更快完成机器人任务。
    • 在 OpenVLA 中引入额外输入(如机器人本体感知状态和腕部摄像头图像)进行验证,使视觉 patch 嵌入数从 256 翻倍到 512。尽管输入序列长度大幅增加,微调后的 OpenVLA 策略仍保持了高吞吐量(71.4 Hz)和低延迟(0.112 秒)
      在这里插入图片描述

真实机器人平台测试

  • ALOHA 是一个真实的双臂操作平台,具有高频控制能力。包含两只 ViperX 300 S 机械臂、三个摄像头视角(一个俯视,一个安装在每只手腕上)以及机器人状态输入(14 维关节角)组成。控制频率为 25 Hz(从原始的 50 Hz 降低,以加快训练速度,同时保持平滑控制),动作表示为目标绝对关节角。这种设置与 OpenVLA 的预训练条件有显著差异,后者只包括单臂数据、单一第三人称摄像视角、无机器人状态输入、低频率控制(3-10 Hz)以及相对末端执行器位姿动作。这种分布变化对模型适应性提出了挑战。

  • 设计了四个任务,用于测试可变形物体操作、长时间技能、工具使用和基于语言的控制能力

    • “fold shorts”(叠短裤):在桌子上进行连续两次双臂折叠,将白色短裤叠好
    • “fold shirt”(叠T恤):通过多次同步双臂折叠,将白色 T 恤叠好,考验接触丰富的长时操作。
    • “scoop X into bowl”(把 X 舀入碗中):左臂将碗移动到桌子中央,右臂用金属勺舀指定的配料(葡萄干、杏仁和绿 M&M 糖,或椒盐卷饼)。
    • “put X into pot”(把 X 放入锅中):左臂打开锅盖,右臂放入指定物品(青椒、红椒或黄玉米),然后合上锅盖。
  • 微调后能取得最优效果,需要注意的是 FiLM 在这里的重要性非常大
    在这里插入图片描述

在这里插入图片描述

Conclusion

  • OpenVLA 的续作,主要优化 VLA 能够有效适应新的机器人平台和任务,优化的技术主要有
    • 并行解码、动作块处理、连续动作、L1 回归和(可选的)FiLM 语言调节
  • 本文的实验主要是在微调任务中做的,尚不清楚 OFT 的优势能否有效扩展到预训练阶段
  • 仿真平台和实际平台中对模型有不同的需求
    • 在 ALOHA 平台的实验中,发现 OpenVLA 在没有 FiLM 的情况下表现出较差的语言理解能力,尽管在 LIBERO 仿真基准测试中并未出现此类问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/78773.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot 接口国际化i18n 多语言返回 中英文切换 全球化 语言切换

介绍 Spring Boot通过MessageSource接口来实现国际化,它可以加载不同的消息资源文件,通常是.properties格式。通过定义不同的语言文件(例如:messages_en.properties、messages_zh.properties等),可以根据用…

一个crackme例子

文件下载地址:https://download.csdn.net/download/m0_37567738/90713354 将cipher.txt文件内容解密后: 恭喜你解出了这一关,flag为 zjwa{36_23121136a28d0d15} 好了现在告诉你最后一层的获取方式, 在系统内找到 手机镜像的 ra…

账户解封无望?3步高效申诉取回亚马逊冻结资金

近年来,随着全球跨境电商市场的飞速扩张,亚马逊(Amazon)作为其中的巨头,持续强化其平台治理力度。然而,随之而来的是卖家账户因各种原因被冻结、关闭的事件频频发生。根据Marketplace Pulse发布的2024年第一…

【C++ Qt】快速上手 显⽰类控件(Label、LCDNumber、ProcessBar、CalendarWidget)

每日激励:“不设限和自我肯定的心态:I can do all things。 — Stephen Curry” 绪论​: 本文围绕Qt中常用的显示类控件展开,重点讲解了 QLabel(文本/图片显示)、QLCDNumber(数字显示&#xff0…

从困局到破局的AI+数据分析

从困局到破局的AI数据分析 困局:数据分析的四道高墙破局:AI赋能全流程数据分析远见:AI数据分析的革命性意义 数据是新时代的石油,人工智能是炼油厂。当两者强强联合,一场数据分析的革命正悄然发生。 多少次你面对Excel…

IGH 汇川SV660N调试

EoE 目前的方式是将eoe 关闭, 这需要重新配置编译ec_master sudo ./configure --disable-8139too --enable-generic --enable-r8169 --disable-eoe --enable-coe[426163.348589] EtherCAT 0: Master thread exited. [426163.348592] EtherCAT 0: Stopping EoE thread. [426163.…

Java基础361问第16问——枚举为什么导致空指针?

我们看一段代码 public enum Color {RED, BLUE, YELLOW;public static Color parse(String color) {return null;} }public static void main() {Color color Color.parse("");// 极具迷惑性,大家日常开发肯定这么写过switch (color) {case RED:break;c…

10.Excel:快速定位目标值

一 批量删除 1.如何使用 快捷键 CTRLG 补充:直接选择定位条件。 2.作用 1.批量删除工作表中的图片 补充:无法通过框选的方式选中这些图片进行删除。 这样只框选了表格,无法框选图片。因为图片在excel中被认为是一个对象,对象无法通…

快乐数(双指针解法)

题目链接202. 快乐数 - 力扣(LeetCode) 题目拆解 1 取一个正整数每一位的平方和为,如果为1那么直接可以判定为快乐数,如果不为1,就重复这个过程,直到出现1 2 实际上,这道题只有两种情况&#xf…

进程控制的学习

进程控制(Process Control)是指操作系统对进程的创建、执行、暂停、恢复、终止等一系列状态变化进行管理和协调的过程。 简单说,就是系统让各个程序能有序地运行,合理地使用CPU和资源,而不会互相冲突或者出错。 主要包…

818协议知识笔记

一、概念 Fibre CHannel-Audio Vedio standard;FC-AV FC-FS:Fibre channel framing and signaling interface; FC-PI:fibre channel physical interfaces 二、术语 VGA,SVGA,XGA,WXGA,SXGA,SXGA,WSXGA,UXGA,1440P; ICD:interface control document接口控制文档 CRC对帧头和数据…

AI大模型学习十二:‌尝鲜ubuntu 25.04 桌面版私有化sealos cloud + devbox+minio对象存储测试和漫长修改之路

一、说明 前面已经安装完成,这里我们测试对象存储 AI大模型学习十一:‌尝鲜ubuntu 25.04 桌面版私有化sealos cloud devboxminio,实战运行成功-CSDN博客https://blog.csdn.net/jiangkp/article/details/147424823?spm1011.2415.3001.5331 二…

SpringBoot的自动扫描特性-笔记

1.Spring Boot 的自动扫描特性介绍 Spring Boot 的自动扫描(Component Scanning)是其核心特性之一。通过注解SpringBootApplication 简化了 Bean 的管理,允许框架自动发现并注册带有特定注解的类为 Spring 容器中的 Bean(特定注解…

基于nodeJS代码的通过爬虫方式实现tiktok发布视频(2025年4月)

1、将真实的tiktokstudio平台的cookie填到代码里的cookie变量里,修改python代码里的ticket,ts, privateKey,以及videoPath,timing等变量的值,最后运行python脚本即可; 2、运行之前根据import提示安装一些常见依赖,比如node-fetch等; 3、运行时候可能系统需要科学上网…

数据一致性问题剖析与实践(四)——竞态条件竞争导致的一致性问题

一、前言 之前我们讨论了几种场景的一致性问题 冗余数据存储中的一致性问题分布式共识中的一致性问题单机事务中的一致性问题分布式事务中的一致性问题 本文将围绕竞态条件竞争中的一致性问题展开讨论分析。 二、 问题定义 竞态条件(Race Condition&#xff09…

PCL点云处理之基于FPFH特征的SAC-IA全局配准算法 (二百四十六)

提示: 有相关点云需求的可以私信 PCL 点云处理之基于 FPFH 特征的 SAC - IA 全局配准算法 一、前言二、相关概念介绍2.1 点云2.2 FPFH 特征2.3 SAC - IA 算法三、SAC - IA 全局配准算法原理3.1 FPFH 特征提取3.2 SAC - IA 配准过程四、代码实现与分析4.1 完整代码4.2 代码分析…

JavaScript性能优化实战:从瓶颈定位到极致提速

JavaScript作为现代Web应用的核心,其性能直接影响用户体验。本文将从性能瓶颈定位、高频优化场景、现代API利用三个维度,结合代码示例和Chrome DevTools实战,为你构建完整的性能优化体系。 一、性能分析:精准定位瓶颈 1.1 Chrome…

JavaScript 页面刷新:从传统到现代的全面解析

在 Web 开发中,"刷新"是一个基础但极其重要的功能。本文将全面探讨页面刷新的实现方式,从传统方法到现代最佳实践,深入解析每一种方案的原理和适用场景,并给出实用代码示例。 一、理解页面刷新的本质 在 Web 开发中&am…

NLP高频面试题(五十五)——DeepSeek系列概览与发展背景

大型模型浪潮背景 近年来,大型语言模型(Large Language Model, LLM)领域发展迅猛,从GPT-3等超大规模模型的崛起到ChatGPT的横空出世,再到GPT-4的问世,模型参数规模和训练数据量呈指数级增长。以GPT-3为例,参数高达1750亿,在570GB文本数据上训练,显示出模型规模、数据…

鸿蒙系统应用开发全栈指南

一、开发环境搭建与工具链配置 1. DevEco Studio深度解析 作为鸿蒙生态的官方IDE,DevEco Studio 4.2版本已集成ArkTS 3.0编译器与AI代码助手功能。安装过程需注意: 系统要求:Windows 10 21H2或macOS Monterey以上环境依赖:Node…