TL;DR
- 2025 年斯坦福提出的 OpenVLA 工作的续作 OpenVLA-OFT,优化 VLA 能够有效适应新的机器人平台和任务,优化的技术主要有并行解码、动作块处理、连续动作、L1 回归和(可选的)FiLM 语言调节
Paper name
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success
Paper Reading Note
Paper URL:
- https://arxiv.org/pdf/2502.19645
Introduction
背景
- 为了在新型机器人和新任务中顺利部署,微调仍然是关键步骤
- 现有方案 OpenVLA 的关键限制
- 推理速度慢(3-5赫兹),不适合高频控制
- 在双臂操作器上执行任务不可靠
本文方案
-
提出了 OpenVLA-OFT(Optimized Fine-Tuning优化微调配方),结合了并行解码与动作块、连续动作表示,以及L1回归学习目标
- 通过并行解码结合动作块(chunking),不仅大幅提升推理效率,还能提高下游任务的成功率,并带来更灵活的输入输出规格;
- 连续动作表示相比离散表示进一步提升了模型质量;
- 采用 L1 回归目标微调 VLA,与基于扩散的微调方法在性能上相当,但训练收敛速度更快,推理速度也更高效。
-
微调的效果和模型推理效率都有提升
- 在标准的 LIBERO 仿真基准测试和真实双臂 ALOHA 机器人精细操作任务上进行了实验。在 LIBERO 中,OpenVLA-OFT 在四个任务组中达到了平均 97.1% 的成功率,超过了微调后的 OpenVLA 策略(76.5%)和 π0 策略
- 在 8 步动作块设置下实现了 26 倍的动作生成速度提升
- 真实 ALOHA 任务中,结合 FiLM 方法强化了语言指令理解,称为 OFT+。OpenVLA-OFT+ 成功执行了诸如折叠衣物、根据用户指令操作食材等复杂双臂任务。平均成功率上,超越了微调后的VLA(π0 和 RDT-1B)和主流从零训练的模仿学习策略(Diffusion Policy 和 ACT)多达15%(绝对值)
Methods
OpenVLA 回顾
-
在 Open X-Embodiment数据集的 100 万集数据上微调 Prismatic 视觉语言模型(VLM)而创建的 70 亿参数的操作策略
-
每个时间步预测 7 个离散的机器人动作标记:3 个用于位置控制,3 个用于方向控制,1 个用于夹爪控制。
-
采用下一个标记预测作为学习目标,并使用交叉熵损失,类似于语言模型
-
动作分块
- 先前的研究表明,动作分块——即预测并执行一系列未来动作而不进行中间重规划——可以提高许多操作任务中策略的成功率。然而,OpenVLA 的自回归生成方案使得动作分块不切实际,因为即使生成单个时间步的动作在 NVIDIA A100 GPU 上也需要 0.33 秒。对于大小为 K 个时间步的动作分块和动作维度 D,OpenVLA 需要 KD 次顺序解码器前向传播,而不是没有分块时的 D 次传播。这种 K 倍的延迟增加使得在原始公式下,动作分块对于高频机器人不切实际。本文将介绍一种并行生成方案,以实现高效的动作分块。
VLA 微调设计优化
模型结构及训练策略优化
- 并行解码:利用双向 attention,一次性生成所有 actions
- 以空动作嵌入作为输入,并用双向注意力替换因果注意力掩码,从而使解码器能够同时预测所有动作。从 D 次顺序传播减少到单次传播,其中 D 是动作维度
- 并行解码自然扩展到动作分块:要预测多个未来时间步的动作,我们只需在解码器的输入中插入额外的空动作嵌入,这些嵌入随后被映射为一系列未来动作。对于大小为K的分块,模型在一次前向传播中预测KD个动作,吞吐量增加了K倍,同时几乎不影响延迟。并行解码在理论上可能不如自回归方法具有表现力,但本文的实验表明,在各种任务中并没有性能下降。
- 离散 action token 改为连续的 action 设计,对比以下两种设计
- 基于softmax的标记预测处理的离散动作:每个动作维度被归一化到[−1, +1]并均匀离散化为256个bin。语言模型解码器的最终隐藏状态被线性投影为logits,然后通过softmax操作形成动作标记的概率分布
- 由多层感知机(MLP)动作头直接生成的连续动作:最终隐藏状态则通过一个单独的动作头MLP直接映射为归一化的连续动作
- 学习目标,对比以下:
- 离散动作:next-token prediciton
- 连续动作:L1 回归,最小化预测动作和真实动作之间的平均 L1 差异
- 连续动作:diffusion (和 diffusion policy 文章类似),策略通过逆向扩散逐渐去除噪声动作样本以产生真实动作
- 采用了特征线性调制(FiLM)增强语言跟随能力:将语言嵌入注入到视觉表示中,使模型更多地关注语言输入
- 计算任务描述中的语言嵌入 x 的平均值,并将其投影以获得缩放和偏移向量 γ 和 β。这些向量通过仿射变换对视觉特征F进行调制:FiLM(F|γ, β) = F̂ = (1 + γ) ⊙ F + β
- 计算任务描述中的语言嵌入 x 的平均值,并将其投影以获得缩放和偏移向量 γ 和 β。这些向量通过仿射变换对视觉特征F进行调制:FiLM(F|γ, β) = F̂ = (1 + γ) ⊙ F + β
Experiments
LIBERO 实验
-
使用四个任务套件:LIBERO-Spatial、LIBERO-Object、LIBERO-Goal 和 LIBERO-Long,每个套件在 10 个任务中各提供 500 个专家演示,以评估策略在不同空间布局、物体、目标和长程任务上的泛化能力
-
实验配置
- 为非扩散方法训练 5 万至 15 万次梯度更新,扩散方法(由于收敛较慢)训练 10万至25万次,批量大小为 64-128,使用 8 张 A100 或 H100 GPU。
- 每隔 5万步测试一次模型,并报告每次运行的最佳表现。
- 策略的输入为一张第三人称图像和一条语言指令。
- 使用动作分块(action chunking)的方法,分块大小 K=8
-
模型效果评测
- 并行解码(Parallel Decoding, PD)和动作分块(Action Chunking, AC) 是实现高频率控制(25-50+ Hz)的必要条件。并行解码和动作分块不仅提高了吞吐量,还显著提升了性能,相比自回归 OpenVLA 策略,平均成功率提高了 14%(绝对值)。在 LIBERO-Long 套件上提升尤为明显,表明动作分块有助于捕捉时间依赖性并减少累积误差,从而使任务执行更加平滑和可靠。
- 连续动作变体比离散动作变体的成功率又提高了 5%(绝对值),这可能是因为连续动作预测具有更高的精度。
- L1 回归和扩散变体性能相当,说明高容量的 OpenVLA 模型即便使用简单的 L1 回归,也能有效建模多任务动作分布。
-
模型性能评估
- 在 NVIDIA A100 GPU 上对每种模型变体进行 100 次查询,测量平均延迟(生成一个动作或动作块的时间)和吞吐量(每秒生成的动作数)。输入是一张 224x224 像素的图像和一条示例语言指令(例如:“捡起字母汤罐头放进篮子里”)。
- 并行解码将 7 次顺序前向传递合并为一次,从而使延迟减少、吞吐量提高了 4 倍。
增加动作分块(K=8)虽然使延迟增加了 17%(因为解码器的注意力序列更长),但结合并行解码后,总体吞吐量提升达 26 倍。 - 连续动作(L1 回归)变体效率变化微小,而扩散变体由于需要 50 次去噪步骤,导致延迟是其他方法的 3 倍,但通过并行解码和分块,仍然实现了 2 倍以上的吞吐量提升。这意味着尽管动作块之间的暂停更长,但扩散变体仍比原始自回归 (OpenVLA) 更快完成机器人任务。
- 在 OpenVLA 中引入额外输入(如机器人本体感知状态和腕部摄像头图像)进行验证,使视觉 patch 嵌入数从 256 翻倍到 512。尽管输入序列长度大幅增加,微调后的 OpenVLA 策略仍保持了高吞吐量(71.4 Hz)和低延迟(0.112 秒)
真实机器人平台测试
-
ALOHA 是一个真实的双臂操作平台,具有高频控制能力。包含两只 ViperX 300 S 机械臂、三个摄像头视角(一个俯视,一个安装在每只手腕上)以及机器人状态输入(14 维关节角)组成。控制频率为 25 Hz(从原始的 50 Hz 降低,以加快训练速度,同时保持平滑控制),动作表示为目标绝对关节角。这种设置与 OpenVLA 的预训练条件有显著差异,后者只包括单臂数据、单一第三人称摄像视角、无机器人状态输入、低频率控制(3-10 Hz)以及相对末端执行器位姿动作。这种分布变化对模型适应性提出了挑战。
-
设计了四个任务,用于测试可变形物体操作、长时间技能、工具使用和基于语言的控制能力
- “fold shorts”(叠短裤):在桌子上进行连续两次双臂折叠,将白色短裤叠好
- “fold shirt”(叠T恤):通过多次同步双臂折叠,将白色 T 恤叠好,考验接触丰富的长时操作。
- “scoop X into bowl”(把 X 舀入碗中):左臂将碗移动到桌子中央,右臂用金属勺舀指定的配料(葡萄干、杏仁和绿 M&M 糖,或椒盐卷饼)。
- “put X into pot”(把 X 放入锅中):左臂打开锅盖,右臂放入指定物品(青椒、红椒或黄玉米),然后合上锅盖。
-
微调后能取得最优效果,需要注意的是 FiLM 在这里的重要性非常大
Conclusion
- OpenVLA 的续作,主要优化 VLA 能够有效适应新的机器人平台和任务,优化的技术主要有
- 并行解码、动作块处理、连续动作、L1 回归和(可选的)FiLM 语言调节
- 本文的实验主要是在微调任务中做的,尚不清楚 OFT 的优势能否有效扩展到预训练阶段
- 仿真平台和实际平台中对模型有不同的需求
- 在 ALOHA 平台的实验中,发现 OpenVLA 在没有 FiLM 的情况下表现出较差的语言理解能力,尽管在 LIBERO 仿真基准测试中并未出现此类问题。