OpenVLA-OFT

TL;DR

2025 年斯坦福提出的 OpenVLA 工作的续作 OpenVLA-OFT，优化 VLA 能够有效适应新的机器人平台和任务，优化的技术主要有并行解码、动作块处理、连续动作、L1 回归和（可选的）FiLM 语言调节

Paper name
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success

Paper Reading Note

Paper URL:

https://arxiv.org/pdf/2502.19645

Introduction

背景

为了在新型机器人和新任务中顺利部署，微调仍然是关键步骤
现有方案 OpenVLA 的关键限制
- 推理速度慢（3-5赫兹），不适合高频控制
- 在双臂操作器上执行任务不可靠

本文方案

提出了 OpenVLA-OFT（Optimized Fine-Tuning优化微调配方），结合了并行解码与动作块、连续动作表示，以及L1回归学习目标
- 通过并行解码结合动作块（chunking），不仅大幅提升推理效率，还能提高下游任务的成功率，并带来更灵活的输入输出规格；
- 连续动作表示相比离散表示进一步提升了模型质量；
- 采用 L1 回归目标微调 VLA，与基于扩散的微调方法在性能上相当，但训练收敛速度更快，推理速度也更高效。
微调的效果和模型推理效率都有提升
- 在标准的 LIBERO 仿真基准测试和真实双臂 ALOHA 机器人精细操作任务上进行了实验。在 LIBERO 中，OpenVLA-OFT 在四个任务组中达到了平均 97.1% 的成功率，超过了微调后的 OpenVLA 策略（76.5%）和 π0 策略
- 在 8 步动作块设置下实现了 26 倍的动作生成速度提升
- 真实 ALOHA 任务中，结合 FiLM 方法强化了语言指令理解，称为 OFT+。OpenVLA-OFT+ 成功执行了诸如折叠衣物、根据用户指令操作食材等复杂双臂任务。平均成功率上，超越了微调后的VLA（π0 和 RDT-1B）和主流从零训练的模仿学习策略（Diffusion Policy 和 ACT）多达15%（绝对值）

Methods

OpenVLA 回顾

在 Open X-Embodiment数据集的 100 万集数据上微调 Prismatic 视觉语言模型（VLM）而创建的 70 亿参数的操作策略
每个时间步预测 7 个离散的机器人动作标记：3 个用于位置控制，3 个用于方向控制，1 个用于夹爪控制。
采用下一个标记预测作为学习目标，并使用交叉熵损失，类似于语言模型
动作分块
- 先前的研究表明，动作分块——即预测并执行一系列未来动作而不进行中间重规划——可以提高许多操作任务中策略的成功率。然而，OpenVLA 的自回归生成方案使得动作分块不切实际，因为即使生成单个时间步的动作在 NVIDIA A100 GPU 上也需要 0.33 秒。对于大小为 K 个时间步的动作分块和动作维度 D，OpenVLA 需要 KD 次顺序解码器前向传播，而不是没有分块时的 D 次传播。这种 K 倍的延迟增加使得在原始公式下，动作分块对于高频机器人不切实际。本文将介绍一种并行生成方案，以实现高效的动作分块。

VLA 微调设计优化

模型结构及训练策略优化

并行解码：利用双向 attention，一次性生成所有 actions
- 以空动作嵌入作为输入，并用双向注意力替换因果注意力掩码，从而使解码器能够同时预测所有动作。从 D 次顺序传播减少到单次传播，其中 D 是动作维度
- 并行解码自然扩展到动作分块：要预测多个未来时间步的动作，我们只需在解码器的输入中插入额外的空动作嵌入，这些嵌入随后被映射为一系列未来动作。对于大小为K的分块，模型在一次前向传播中预测KD个动作，吞吐量增加了K倍，同时几乎不影响延迟。并行解码在理论上可能不如自回归方法具有表现力，但本文的实验表明，在各种任务中并没有性能下降。
离散 action token 改为连续的 action 设计，对比以下两种设计
- 基于softmax的标记预测处理的离散动作：每个动作维度被归一化到[−1, +1]并均匀离散化为256个bin。语言模型解码器的最终隐藏状态被线性投影为logits，然后通过softmax操作形成动作标记的概率分布
- 由多层感知机（MLP）动作头直接生成的连续动作：最终隐藏状态则通过一个单独的动作头MLP直接映射为归一化的连续动作
学习目标，对比以下：
- 离散动作：next-token prediciton
- 连续动作：L1 回归，最小化预测动作和真实动作之间的平均 L1 差异
- 连续动作：diffusion (和 diffusion policy 文章类似)，策略通过逆向扩散逐渐去除噪声动作样本以产生真实动作
采用了特征线性调制（FiLM）增强语言跟随能力：将语言嵌入注入到视觉表示中，使模型更多地关注语言输入
- 计算任务描述中的语言嵌入 x 的平均值，并将其投影以获得缩放和偏移向量 γ 和 β。这些向量通过仿射变换对视觉特征F进行调制：FiLM(F|γ, β) = F̂ = (1 + γ) ⊙ F + β

Experiments

LIBERO 实验

使用四个任务套件：LIBERO-Spatial、LIBERO-Object、LIBERO-Goal 和 LIBERO-Long，每个套件在 10 个任务中各提供 500 个专家演示，以评估策略在不同空间布局、物体、目标和长程任务上的泛化能力
实验配置
- 为非扩散方法训练 5 万至 15 万次梯度更新，扩散方法（由于收敛较慢）训练 10万至25万次，批量大小为 64-128，使用 8 张 A100 或 H100 GPU。
- 每隔 5万步测试一次模型，并报告每次运行的最佳表现。
- 策略的输入为一张第三人称图像和一条语言指令。
- 使用动作分块（action chunking）的方法，分块大小 K=8
模型效果评测
- 并行解码（Parallel Decoding, PD）和动作分块（Action Chunking, AC） 是实现高频率控制（25-50+ Hz）的必要条件。并行解码和动作分块不仅提高了吞吐量，还显著提升了性能，相比自回归 OpenVLA 策略，平均成功率提高了 14%（绝对值）。在 LIBERO-Long 套件上提升尤为明显，表明动作分块有助于捕捉时间依赖性并减少累积误差，从而使任务执行更加平滑和可靠。
- 连续动作变体比离散动作变体的成功率又提高了 5%（绝对值），这可能是因为连续动作预测具有更高的精度。
- L1 回归和扩散变体性能相当，说明高容量的 OpenVLA 模型即便使用简单的 L1 回归，也能有效建模多任务动作分布。
模型性能评估
- 在 NVIDIA A100 GPU 上对每种模型变体进行 100 次查询，测量平均延迟（生成一个动作或动作块的时间）和吞吐量（每秒生成的动作数）。输入是一张 224x224 像素的图像和一条示例语言指令（例如：“捡起字母汤罐头放进篮子里”）。
- 并行解码将 7 次顺序前向传递合并为一次，从而使延迟减少、吞吐量提高了 4 倍。
  增加动作分块（K=8）虽然使延迟增加了 17%（因为解码器的注意力序列更长），但结合并行解码后，总体吞吐量提升达 26 倍。
- 连续动作（L1 回归）变体效率变化微小，而扩散变体由于需要 50 次去噪步骤，导致延迟是其他方法的 3 倍，但通过并行解码和分块，仍然实现了 2 倍以上的吞吐量提升。这意味着尽管动作块之间的暂停更长，但扩散变体仍比原始自回归 (OpenVLA) 更快完成机器人任务。
- 在 OpenVLA 中引入额外输入（如机器人本体感知状态和腕部摄像头图像）进行验证，使视觉 patch 嵌入数从 256 翻倍到 512。尽管输入序列长度大幅增加，微调后的 OpenVLA 策略仍保持了高吞吐量（71.4 Hz）和低延迟（0.112 秒）

真实机器人平台测试

ALOHA 是一个真实的双臂操作平台，具有高频控制能力。包含两只 ViperX 300 S 机械臂、三个摄像头视角（一个俯视，一个安装在每只手腕上）以及机器人状态输入（14 维关节角）组成。控制频率为 25 Hz（从原始的 50 Hz 降低，以加快训练速度，同时保持平滑控制），动作表示为目标绝对关节角。这种设置与 OpenVLA 的预训练条件有显著差异，后者只包括单臂数据、单一第三人称摄像视角、无机器人状态输入、低频率控制（3-10 Hz）以及相对末端执行器位姿动作。这种分布变化对模型适应性提出了挑战。
设计了四个任务，用于测试可变形物体操作、长时间技能、工具使用和基于语言的控制能力
- “fold shorts”（叠短裤）：在桌子上进行连续两次双臂折叠，将白色短裤叠好
- “fold shirt”（叠T恤）：通过多次同步双臂折叠，将白色 T 恤叠好，考验接触丰富的长时操作。
- “scoop X into bowl”（把 X 舀入碗中）：左臂将碗移动到桌子中央，右臂用金属勺舀指定的配料（葡萄干、杏仁和绿 M&M 糖，或椒盐卷饼）。
- “put X into pot”（把 X 放入锅中）：左臂打开锅盖，右臂放入指定物品（青椒、红椒或黄玉米），然后合上锅盖。
微调后能取得最优效果，需要注意的是 FiLM 在这里的重要性非常大

在这里插入图片描述

Conclusion

OpenVLA 的续作，主要优化 VLA 能够有效适应新的机器人平台和任务，优化的技术主要有
- 并行解码、动作块处理、连续动作、L1 回归和（可选的）FiLM 语言调节
本文的实验主要是在微调任务中做的，尚不清楚 OFT 的优势能否有效扩展到预训练阶段
仿真平台和实际平台中对模型有不同的需求
- 在 ALOHA 平台的实验中，发现 OpenVLA 在没有 FiLM 的情况下表现出较差的语言理解能力，尽管在 LIBERO 仿真基准测试中并未出现此类问题。