Seg-Zero：通过认知强化实现的推理链引导分割

文章目录

速览
摘要
1. 引言
2. 相关工作
- 2.1. 大模型中的推理能力
- 2.2. 结合推理的语义分割
- 2.3. 用于分割任务的 MLLMs
3. 方法
- 3.1. 流程建模（Pipeline Formulation）
- 3.2. Seg-Zero 模型
- 3.3. 奖励函数（Reward Functions）
- 3.4. 训练（Training）
4. 实验
- 4.1. 实验设置（Experimental Settings）
- 4.2. SFT 与 RL 的对比
- - 4.3. 消融实验（Ablation Study）
- 4.4. 与其他方法的比较（Comparison with Other Methods）
- 4.5. 定性结果（Qualitative Results）
5. 结论（Conclusion）

Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement
中国香港中文大学；香港科技大学；中国人民大学
arxiv’25’03
项目地址：https://github.com/dvlab-research/Seg-Zero

速览

动机
传统的推理分割方法依赖于使用类别标签和简单描述进行的有监督微调，这限制了其跨领域的泛化能力，并且缺乏显式的推理过程。

方法
提出了一个新框架 Seg-Zero，Seg表示分割，Zero表示零样本，这个框架有很强的泛化能力和显示推理过程，并且为解耦式，分为了推理模型（ Qwen2.5-VL-3B）和分割模型（SAM2-Large）。

推理模型这里使用GRPO进行训练，设计了几个奖励函数，都挺简单的，分别是格式奖励和IoU奖励，不过他引入了一些软硬奖励、软严格格式奖励的说法，后面可以学一下
分割模型直接使用冻结的，没有做任何处理

测试时就是先用推理模型推理出边界框和关键点，然后作为提示给分割模型，分割模型给出像素级的掩码。

实验
实验这里首先对比了一下使用SFT和RL，然后有一堆消融实验，最后是和其他方法的比较，看起来性能也没比别人高多少呢。

摘要

传统的推理分割方法依赖于使用类别标签和简单描述进行的有监督微调，这限制了其跨领域的泛化能力，并且缺乏显式的推理过程。为了解决这些问题，我们提出 Seg-Zero，这是一个新颖的框架，能够展现出显著的泛化能力，并通过认知强化学习推导出显式的 chain-of-thought 推理过程。Seg-Zero 引入了一个解耦的架构，由一个推理模型和一个分割模型组成。

推理模型负责理解用户意图，生成显式的推理链，并产生位置提示，这些提示随后由分割模型用于生成精确的像素级掩码。我们设计了一套复杂的奖励机制，将格式奖励和准确性奖励结合，以有效引导优化方向。Seg-Zero 完全通过使用 GRPO 的强化学习方式进行训练，且不依赖任何显式推理数据，从而实现了稳健的零样本泛化能力，并在测试时展现出涌现的推理能力。

实验表明，Seg-Zero-7B 在 ReasonSeg 基准测试中实现了 57.5 的零样本性能，超过了此前的 LISA-7B 模型 18%。这一显著提升突显了 Seg-Zero 在呈现显式推理过程的同时具备跨领域泛化的能力。代码地址如下：

https://github.com/dvlab-research/Seg-Zero

1. 引言

推理分割通过逻辑推理来解释隐含查询，从而生成像素级的掩码。这项任务在现实应用中具有重要潜力，例如在机器人领域。与依赖简单类别标签（如 “person” 或 “car”）的传统分割任务不同，推理分割应对的是更复杂且更细致的查询，例如“识别能提供持续能量的食物”。这类查询需要逻辑推理，并整合跨领域知识以生成准确的分割掩码。

早期的尝试（如 [3, 17, 32]），例如 LISA [17]，探索了利用多模态大语言模型（MLLMs）来增强推理分割能力的方法。这些方法通过利用隐式语义标记，弥合了 MLLMs 与分割模型之间的差距。然而，典型的方法（如 [7, 17, 32]）完全依赖于对包含简单类别信息或基础事实描述的混合数据集进行的有监督微调（SFT）[12, 13, 43]。尽管该范式能够在特定数据集上有效地将 MLLMs [23, 24, 40] 与分割模型 [14] 对齐，我们观察到它缺乏泛化能力。这可以通过以下现象说明：

(i) 尽管现有方法在领域内数据上表现优异，但在分布外（OOD）样本上的性能显著下降。
(ii) SFT 不可避免地导致模型对通用能力的灾难性遗忘。
(iii) 缺乏显式推理过程使得模型在复杂场景下的表现受限。

这些局限促使我们通过引入显式推理过程来增强模型的通用分割能力和推理表现。

近期研究 [11] 表明，纯强化学习（RL）训练能够激活测试时涌现的推理过程，这说明基于奖励的优化在提升模型推理能力方面是有效的。此外，这种方法往往能够提升泛化能力，而不是对特定数据集过拟合。受此启发，我们提出 Seg-Zero，这是一个旨在增强推理能力和认知能力的推理分割新框架。

Seg-Zero 采用了解耦架构，包括一个推理模型和一个分割模型。推理模型是一个能够处理图像和用户指令的 MLLM。它不仅输出区域级别的边界框（bbox），还输出像素级别的点，以精确地定位目标对象。随后，分割模型利用这些 bbox 和点来生成像素级分割掩码。

在训练过程中，我们采用纯强化学习方法，具体地说是 GRPO [34]，用于微调推理模型，同时保持分割模型的参数冻结。我们没有构建带有显式推理标注的数据集，而是探索 MLLM 自我进化的潜力，使其具备推理能力，从而从零开始实现涌现式推理。

为此，我们设计了一套复杂的奖励机制，用于增强推理过程并规范输出。这些奖励函数分为两类：

格式奖励（format rewards），用于对推理过程和分割输出的结构施加约束；
准确性奖励（accuracy rewards），基于交并比（IoU）和 L1 距离指标计算。

如图 1 所示，通过强化学习中优化后的奖励机制，我们的 Seg-Zero 展现出测试阶段的涌现式推理能力，与 LLMs 中展示的推理能力相似 [11, 27]。这种推理过程使模型能够有效地处理复杂指令，将其分解为一系列顺序的分析步骤，从而实现对目标对象的精确定位。

Seg-Zero 在领域内和 OOD 数据上均表现出卓越的性能，显著超过通过 SFT 训练的模型。此外，Seg-Zero 还能保持稳健的视觉问答能力，而无需任何 VQA 训练数据。

在这里插入图片描述

实验结果表明，仅使用来自 RefCOCOg [43] 的 9000 个训练样本，我们的 Seg-Zero-7B 就能展现出强大的测试时推理能力，并在同规模模型中实现更优的泛化性能。在 ReasonSeg [17] 基准上实现了 57.5 的 zero-shot 性能，相较于此前的 LISA-7B 提升了 18%。

我们的贡献总结如下：

我们提出 Seg-Zero，这是一个为推理分割任务设计的新型架构。通过纯 RL 算法，Seg-Zero 展现出涌现式的推理能力。
我们呈现了对比 SFT 与 RL 的详细实验，并引入推理链。结果表明 RL 结合推理链能够持续提升模型性能。
大量实验验证了我们设计的有效性，并为基于 RL 的模型微调提供了有价值的参考。

250401：后面说，他这个推理链就是由RL训练后的大模型生成的推理过程，我还以为有什么新的设计呢。

2. 相关工作

2.1. 大模型中的推理能力

近年来，大型语言模型（LLMs）展现出卓越的推理能力。通过延长 Chain-of-Thought（CoT）推理过程的长度，OpenAI-o1 [27] 引入了推理阶段的扩展机制，从而显著提升了其推理性能。在研究社区中，已有多项研究尝试通过不同的方法实现测试时推理能力的扩展，包括基于过程的奖励模型 [20, 38, 39]、强化学习（RL）[15, 34] 和搜索算法 [10, 37]。值得注意的是，最新的 DeepSeek-R1 [11] 采用 GRPO [34] 算法，仅使用少量的 RL 训练步骤就达到了优异的性能。

随着 LLMs 社区的发展，近来也有若干研究尝试利用 MLLMs 的推理能力 [16, 36]。例如，Open-R1-Multimodal [16] 强调数学推理，而 R1-V [36] 则在计数任务中展现出卓越表现。然而，这些工作主要集中在高层次推理任务上，未考虑对图像的细粒度像素级理解。为填补这一空白，我们提出的 Seg-Zero 旨在通过强化学习增强模型的像素级推理能力。

2.2. 结合推理的语义分割

语义分割的目标是为特定类别生成分割掩码。已有大量研究 [1, 4, 5, 8, 21, 25, 33, 44]（包括 DeepLab [6]、MaskFormer [9] 和 SAM [14]）在该任务中取得了显著进展，使其成为一个相对成熟的问题。

与使用明确类别标签进行分割不同，指代表达分割（Referring Expression Segmentation）[13, 43] 关注于根据简短、明确的文本查询来分割目标对象。该任务更具挑战性，因为图像中往往存在多个具有不同属性的同类对象，模型需要识别并分割出最符合文本描述的实例。

LISA [17] 进一步推动了该领域的发展，提出了推理分割任务。在该任务中，文本查询更为复杂或更长，这要求模型具备更强的推理能力，以准确地解释并分割目标对象。

2.3. 用于分割任务的 MLLMs

自从 LISA [17, 41] 引入 <SEG> 标记以连接 MLLMs 与分割模型以来，已有多项后续工作 [3, 7, 32] 探索了在分割任务中使用 MLLMs 的方法。大多数方法（包括 OneTokenSegAll [3] 和 PixelLM [32]）遵循 LISA 的范式，通过使用特殊标记来连接 MLLMs 与分割模型。

然而，这种设计需要大量数据来同时微调 MLLM 与分割解码器，甚至可能损害原始分割模型的像素级精度。我们提出的 Seg-Zero 同样采用了解耦式设计，便于落地部署，并进一步利用 MLLMs 的推理能力，以获得更优性能。

3. 方法

在本节中，我们介绍 Seg-Zero 模型及其相关的强化学习框架。我们首先在第 3.1 节中描述我们是如何处理分割问题的。接着，在第 3.2 节中介绍 Seg-Zero 的架构。最后，在第 3.3 节和第 3.4 节中，我们分别说明奖励函数和训练细节，它们均是在强化学习框架下实现的。

3.1. 流程建模（Pipeline Formulation）

给定一张图像 $I$ 和一个标签 $T$ ，分割任务旨在生成一个二值分割掩码 $M$ ，以准确标识与标签 $T$ 对应的区域。标签 $T$ 的复杂度可能不同，可以是一个简单的类别标签（例如 “bird”），一个简短的短语（例如 “woman in blue”），甚至是一个冗长而复杂的描述（例如 “The unusual thing in the image”）。后两种类型的表达更依赖于模型的推理能力，才能正确地分割出最相关的对象。

受到近期大模型推理能力提升的启发 [11, 34, 36]，我们利用这种能力来构建一个基于推理的分割流程。具体而言，我们将推理过程与分割过程解耦。

我们首先使用强化学习训练 MLLM，以激活其推理能力，使其能够生成推理过程，并输出用于定位目标对象的准确边界框 $B$ 和两个点 $P_1, P_2$ 。这些边界框和点随后被作为提示输入到 SOTA 分割模型 [14, 30] 中，以生成精细的分割掩码。Seg-Zero 的训练过程采用强化学习实现，如图 2 所示。
在这里插入图片描述

3.2. Seg-Zero 模型

当前的多模态大语言模型（MLLMs）[2, 18, 24, 40, 45] 在处理多模态输入方面表现出色，但难以生成细粒度的分割掩码。相反，现代分割模型 [14, 30] 虽然具备精细分割能力，却缺乏强大的推理能力。为弥合这一差距，我们提出 Seg-Zero，这是一个包含推理模型和分割模型的框架。此外，我们引入了一种新策略，在框架内有效激活 MLLM 的推理能力。其整体架构如图 3 所示。
在这里插入图片描述

推理模型
我们采用 Qwen2.5-VL [2] 作为推理模型 $\mathcal{F}_{\text{reason}}$ 。尽管 Qwen2.5-VL 在目标检测中表现优异，能预测边界框（bbox），但这种区域级别的 bbox 难以满足像素级别定位的精细需求。与目标检测不同，分割任务要求更精确地理解像素级细节，因为一个边界框内可能包含多个目标。因此，除了边界框，我们还引入位于目标对象内部的点，以提升定位精度。

在强化学习阶段，我们引入格式奖励，以确保模型生成结构化输出。随后，这些输出会被一个后处理函数 $\mathcal{G}$ 处理，从中提取边界框 $B$ 和两个点 $P_1, P_2$ 。该过程可形式化为：

$P_1, P_2 = \mathcal{G}(\mathcal{F}_{\text{reason}}(I, T)). \tag{1}$

分割模型
现代分割模型 [14, 30] 支持多种类型的提示，包括边界框和点，用于生成准确的分割掩码。我们采用性能优异且推理速度高效的 SAM2 [30] 作为分割模型 $\mathcal{F}_{\text{seg}}$ 。通过利用推理模型提供的边界框和点，分割模型可以为目标对象生成精确、细粒度的掩码。该过程可形式化为：

$\mathcal{F}_{\text{seg}}(B, P_1, P_2). \tag{2}$

测试时推理
推理过程是推理分割任务中的核心部分。受 DeepSeek-R1-Zero 启发，我们有意避免使用任何显式的 Chain-of-Thought（CoT）数据来训练 Seg-Zero 的推理能力。相反，我们希望从零激发模型的推理能力，使其能够在输出最终答案前，自主生成符合逻辑的 CoT。

为此，我们设计了结构化的用户提示语和复杂的奖励机制，以引导推理模型按照特定指令进行推理。如图 4 所示，该用户提示要求 Seg-Zero 分析并比较图像中的对象，首先生成推理过程，随后按照预定义格式输出最终答案。
在这里插入图片描述

3.3. 奖励函数（Reward Functions）

奖励函数在强化学习中起着关键作用，因为它们决定了模型优化的方向。我们为强化学习手动设计了以下五种奖励函数：

思维格式奖励（Thinking Format Reward）
该奖励旨在强制模型进行结构化的思考过程。它引导模型将其推理过程输出在 <think> 和 </think> 标签之间，最终答案则包含在 <answer> 和 </answer> 标签之间。

分割格式奖励（Segmentation Format Reward）
与计数或其他问答任务不同，分割任务对答案的格式要求很高。我们提供了两种格式奖励类型：软约束和严格约束。

在软约束下，如果答案中包含关键字 bbox 和 points，并且其对应的值分别为四个和两个坐标，则视为格式正确；
在严格约束下，仅当模型输出完全匹配的关键字（例如 bbox、points_1、points_2）且结构正确，才视为格式正确。

250401：这个感觉软约束就是，只要包含关键字，并且坐标是4个数和2个数的话，就可以；硬约束的话就是要能够正确提取出来坐标的才可以。软约束就是为了让模型前期可以在一定程度上“宽松”输出，允许有一点偏差，然后硬约束有助于后期精确化细化输出。

边界框 IoU 奖励（Bbox IoU Reward）
该奖励评估预测边界框与真实边界框之间的 IoU。如果它们的 IoU 大于 0.5，则奖励为 1，否则为 0。

边界框 L1 奖励（Bbox L1 Reward）
该奖励评估预测边界框与真实边界框之间的 L1 距离。如果其 L1 距离小于 10 像素，则奖励为 1，否则为 0。

关键点 L1 奖励（Point L1 Reward）
该奖励评估预测关键点与真实关键点之间的 L1 距离。我们首先判断预测点是否在边界框内，然后如果预测点与真实点之间的最小距离小于 100 像素，则奖励为 1，否则为 0。

3.4. 训练（Training）

我们从公开的分割数据集中构建训练数据，并使用 GRPO 算法训练我们的 Seg-Zero 模型。

数据准备（Data Preparation）
训练数据基于现有的指代表达分割数据集（如 RefCOCOg [43]）中的原始掩码标注生成。基于掩码，我们提取其最左、最上、最右和最下的像素点，以生成边界框 $B$ 。此外，我们计算掩码内两个最大内接圆的中心点，分别记为 $P_1$ 和 $P_2$ 。因此，最终的真实标签数据包含边界框的坐标 $B_{x1}, B_{y1}, B_{x2}, B_{y2}]$ 以及两个中心点的坐标 $P_{1x}, P_{1y}]$ 和 $P_{2x}, P_{2y}]$ 。

我们不在训练数据中加入任何 Chain-of-Thought（CoT）过程。为了保证不同数据集之间的一致性，所有图像都会被统一调整为 $840 \times 840$ 的分辨率。

GRPO
我们不使用任何显式推理数据进行冷启动训练以教会模型推理能力。相反，我们让 Seg-Zero 从零开始学习。具体来说，我们直接从预训练的 Qwen2.5-VL-3B 模型开始训练，使用前述奖励函数，并应用 GRPO 算法 [34]。我们的强化学习过程如图 2 所示。

250401：这里是直接使用强化微调，没有使用有监督微调冷启动一下。

4. 实验

4.1. 实验设置（Experimental Settings）

数据集（Datasets）
我们使用仅 9,000 个样本在 RefCOCOg 数据集上训练 Seg-Zero，数据准备策略参考第 3.4 节所述。测试数据包括 RefCOCO(+/g) [43] 和 ReasonSeg [17]。

实现细节（Implementation Details）
我们使用 Qwen2.5-VL-3B [2] 和 SAM2-Large [30] 作为默认的推理模型与分割模型。Seg-Zero 在一个 8xH200 GPU 服务器上，通过 DeepSpeed [29] 库进行训练。训练过程中总 batch size 为 16，每步采样数量为 8。初始学习率设为 $\times 10^{-6}$ ，权重衰减设为 0.01。

评估指标（Evaluation Metrics）
参考以往工作 [13, 43]，我们计算 gIoU 和 cIoU。gIoU 是所有图像 IoU（Intersection-over-Unions）的平均值，而 cIoU 是累计交集与累计并集之比。除非特别说明，我们默认使用 gIoU 作为主要评估指标，因为它能同时公平地考虑大物体和小物体。

4.2. SFT 与 RL 的对比

我们比较了 SFT（有监督微调）与 RL（强化学习）两种训练方式的性能。基线模型为 Qwen2.5-VL-3B + SAM2。在非 CoT 设置中，我们移除了思维格式奖励，因此模型在输出最终答案之前不会生成 CoT 推理过程。我们的比较涵盖了领域内和领域外（OOD）的分割任务 [26, 35]，以及通用问答任务。相应结果见表 1、图 1 和图 5。

在这里插入图片描述

SFT vs. RL（无 CoT）
从表 1 的前两行可以看出，在领域内数据集 RefCOCOg 上，SFT 与基线模型几乎表现相当。这可能归因于原始 Qwen2.5-VL-3B 模型本身的强大能力。然而，在 OOD 数据集 ReasonSeg 上，SFT 的性能显著下降，说明 SFT 会对模型的泛化能力产生负面影响。

相比之下，将第一行与第三行进行对比，我们发现 RL 在领域内与领域外数据集上都能持续带来性能提升，验证了其有效性。此外，从图 5 可以观察到，SFT 模型在视觉问答能力方面存在灾难性遗忘现象，而 RL 模型则能够较好地保留这一能力。

无 CoT 的 RL vs. 有 CoT 的 RL
从表 1 的最后两行可以看出，无论是否引入 CoT，RL 模型在领域内 RefCOCOg 和 OOD ReasonSeg 数据集上都显著优于基线，说明 RL 能够有效提升模型能力。

然而，加入 CoT 后，Seg-Zero 的性能进一步优于其无 CoT 的版本，这表明引入推理过程有助于模型更好地处理 OOD 样本。

从图 5 可见，在视觉问答任务中，对于使用 RL 训练的模型，引入 CoT 虽然带来轻微的性能提升，但仍是值得注意的趋势。

4.3. 消融实验（Ablation Study）

我们进行了多项消融实验以验证我们设计的有效性。在消融实验中，默认设置如下：我们在 9,000 个样本上采用 GRPO 算法进行强化学习，并在 RefCOCOg 测试集和 ReasonSeg 测试集上对模型进行评估。

边界框与点的设计（Design of Bbox and Points）
表 2 展示了我们在边界框与点提示设计上的效果。我们观察到，单独使用点提示时性能最差；当同时使用边界框和点提示时，Seg-Zero 达到最优性能，说明这种组合能提升像素级定位精度。
在这里插入图片描述

软奖励 vs. 硬奖励（Soft vs. Hard Accuracy Rewards）
在第 3.3 节中，我们描述了三种奖励：bbox IoU 奖励、bbox L1 奖励和点的 L1 奖励。我们使用特定阈值将这些指标转化为二元奖励。同时，我们也对它们的软奖励版本进行了消融研究。

对于 bbox IoU 奖励，我们直接使用 IoU 值作为软奖励；对于基于 L1 的奖励，我们将软奖励定义为： $image_size } . 1 - \frac{{L1}\_{\text{dist}}}{\max\{\text{image\_size}\}}.$ 从表 3 可以看出，虽然软奖励在 ReasonSeg 上带来了一定程度的提升，但在 RefCOCOg 上相较于硬奖励仍表现明显不佳。
在这里插入图片描述

250401：软奖励就是这里描述的动态的奖励，而硬奖励就是前面介绍的二元奖励。

软格式奖励 vs. 严格格式奖励（Soft vs. Strict Format Rewards）
在第 3.3 节中，我们引入了两种分割格式奖励：软格式和严格格式。从表 4 中可以看出，严格格式奖励在 ReasonSeg 的 OOD 数据上显著提升了性能。

通过对训练过程的定性分析，我们发现严格格式奖励在训练初期阶段收敛较慢，因为要采样出严格匹配格式的输出更具挑战性。然而，随着训练步数的增加，使用严格格式奖励的模型趋向于生成更长的响应。
在这里插入图片描述

250401：所以也没说最后是两个一起用了呢，还是只是用了软格式呢？

推理模型规模（Reasoning Model Scale）
我们对不同规模的推理模型进行了消融实验，模型参数规模从 2B 到 7B 不等，其他设置保持一致。如表 5 所示，模型在领域内和 OOD 数据上的性能随着模型规模的增加而提升。
在这里插入图片描述

补全文本长度变化（Changes in Completion Length）
图 7 展示了不同模型规模下补全文本长度的变化趋势。结果表明，模型规模越大，越倾向于生成更长的响应。随着训练进行，最小生成长度逐渐增加。
在这里插入图片描述
不过在初期训练阶段，平均补全文本长度出现了短暂下降。通过分析训练过程中的输出，我们发现模型在初期优先学习正确的输出格式，这通常会导致更短的回复。一旦格式奖励趋于稳定，模型会转而专注于生成更高准确率的答案，从而带来更长、更详细的响应。

我们可视化了训练过程中奖励变化的趋势。如图 8 所示，格式奖励在几个步骤内迅速收敛至 1，而准确性奖励则逐步提升。这表明在训练初期，格式奖励主导了优化方向，导致模型补全文本变短（见图 7）。但随着格式奖励收敛和准确性奖励不断增长，模型的补全文本长度（即 CoT 推理过程）开始扩展。

在这里插入图片描述

4.4. 与其他方法的比较（Comparison with Other Methods）

在本部分中，我们使用硬准确性奖励和严格格式奖励来训练 Seg-Zero。采样数量设置为 16，且我们仅在来自 RefCOCOg 的 9,000 个样本上训练 Seg-Zero。

我们与 OVSeg [19]、Grounded-SAM [31]、LISA [17]、SAM4MLLM [7]、LAVT [42]、ReLA [22]、PixelLM [32] 和 PerceptionGPT [28] 进行了对比实验。

推理分割（Reasoning Segmentation）
我们在 ReasonSeg [17] 上比较了各方法的 zero-shot 性能，结果如表 6 所示。我们发现 Seg-Zero 在各方法中达到了 SOTA 的 zero-shot 性能。
在这里插入图片描述

指代表达分割（Referring Expression Segmentation）
指代表达分割的结果展示于表 7 中。此外，我们发现 RefCOCO(+/g) 中的真实标注并不够精确，这说明 Seg-Zero 模型理论上应能取得比表中更好的表现。补充材料中提供了详细分析。
在这里插入图片描述

4.5. 定性结果（Qualitative Results）

我们在图 6 和图 9 中展示了若干示例。可以清楚地观察到，推理过程在分析用户指令时非常有帮助，尤其是在同一类别中存在多个对象的情况下。例如，Seg-Zero 能够判断在“road trip”的上下文中，使用 “recreational vehicle” 比 “truck” 更合适，并能正确识别 “conductor” 是“位于舞台前方”的人。
在这里插入图片描述