SiamMask中的分类分支、回归分支与Mask分支，有何本质差异？

- 一、引言
- 二、分支定位与任务目标
- 三、网络结构与感受野设计
- - 3.1 分类分支（Classification Head）
  - 3.2 回归分支（Regression Head）
  - 3.3 Mask分支（Mask Head）
- 四、输入特征与输出形式
- 五、损失函数与监督信号
- - 5.1 分类分支损失
  - 5.2 回归分支损失
  - 5.3 Mask分支损失
  - 5.4 总损失
- 六、三者协同工作流程
- 七、实验对比与可视化示例
- 八、小结与展望

本文是“Siam 系列网络深度解析”之三，重点对比并深入剖析SiamMask在跟踪与分割任务中，分类分支、回归分支和Mask分支的不同设计思路、网络结构与训练策略。

一、引言

SiamMask以多任务学习的方式，实现了目标跟踪（Tracking）与目标分割（Segmentation）的统一框架。模型共有三条并行分支：分类分支（Classification Head）、回归分支（Regression Head）和Mask分支（Mask Head）。虽然它们都基于同一个深度相关特征图 $g\in\mathbb R^{C\times H\times W}$ ，并且都执行二分类或回归操作，但在设计目标、网络结构、输入/输出粒度、损失函数及训练方式等方面均存在本质区别。

本篇文章将从以下角度展开：

分支定位与任务目标
网络结构与感受野设计
输入特征与输出形式
损失函数与监督信号
三者协同工作流程
实验对比与可视化示例

二、分支定位与任务目标

分支	任务目标	输出意义
分类分支	判断某空间位置是否为目标中心	前景概率热力图 $\mathbf S\in[0,1]^{1\times H\times W}$
回归分支	回归Anchor相对于真实框的偏移量	边界框偏移量 $\Delta=(l,t,r,b)\in\mathbb R^{4\times H\times W}$
Mask分支	对目标区域进行像素级前景/背景分割	掩膜概率图 $\hat M\in[0,1]^{1\times H_m\times W_m}$

分类分支：提供一个粗粒度的定位信号，告诉模型“目标的大致中心在哪里”。
回归分支：基于分类分支给定的位置，从每个Anchor出发，用4个通道精确地回归边界框。
Mask分支：在回归出的目标框内部，生成高分辨率的像素级掩膜，实现精细分割。

三、网络结构与感受野设计

3.1 分类分支（Classification Head）

典型实现：1~2层 $3\times3$ 卷积 + Sigmoid
感受野：适中，关注当前位置的上下文信息，以便区分前景/背景
输出分辨率：与输入特征等大（如 $H\times W=17\times17$ 或 $25\times25$ ）

示例代码：

self.cls_conv = nn.Conv2d(C, C, kernel_size=3, padding=1)
self.cls_score = nn.Conv2d(C, 1, kernel_size=1)
# forward:
feat = F.relu(self.cls_conv(g))    # [B,C,H,W]
score = torch.sigmoid(self.cls_score(feat))  # [B,1,H,W]

3.2 回归分支（Regression Head）

典型实现：同样是2~3层小卷积 + 无激活
感受野：与分类相近，但关注边缘位置的特征变化以便回归准确
输出分辨率： $4\times H\times W$ ，对应每个位置的 $l, t, r, b$ 值

示例代码：

self.reg_conv = nn.Conv2d(C, C, kernel_size=3, padding=1)
self.reg_offset = nn.Conv2d(C, 4, kernel_size=1)
# forward:
feat = F.relu(self.reg_conv(g))   # [B,C,H,W]
offset = self.reg_offset(feat)    # [B,4,H,W]

3.3 Mask分支（Mask Head）

典型实现：U-Net风格或多层卷积 + 上采样
感受野：更大，需要捕捉目标内部与边界细节
输出分辨率：高于跟踪特征图，通常为 $63\times63$ 或更高
关键组件：RoIAlign/Crop → 一系列卷积与反卷积 → Sigmoid

示例代码：

# RoIAlign后得到局部特征 [B,C,H,W]
x = roi_align(feature_map, boxes, output_size=(H,W))
x = F.relu(self.conv1(x))
x = F.relu(self.conv2(x))
x = F.convTranspose2d(x, ...)  # 上采样
mask = torch.sigmoid(self.conv_final(x))  # [B,1,H_m,W_m]

四、输入特征与输出形式

分支	输入特征	输出形式	下游依赖
分类分支	全局 DW-XCorr 特征 $g$	热力图 $\mathbf S$	决定回归与Mask的位置
回归分支	全局 DW-XCorr 特征 $g$	偏移量 $\Delta$	生成最终边界框
Mask分支	RoIAlign 裁剪特征	掩膜 $\hat M$	精细分割

分类分支和回归分支共享同一输入： $g\in\mathbb R^{C\times H\times W}$ 。
Mask分支通过RoIAlign从回归出的候选框中裁剪特征，得到局部高分辨率特征，用于掩膜预测。

五、损失函数与监督信号

5.1 分类分支损失

二元交叉熵：
$\mathcal L_{cls} = -\sum_{i,j}\bigl[y_{i,j}\log S_{i,j} + (1-y_{i,j})\log(1 - S_{i,j})\bigr]$

$y_{i,j}\in\{0,1\}$ ：某位置是否为前景Anchor
监督信号稀疏，仅中心Anchor或与GT匹配的Anchor为正样本

5.2 回归分支损失

Smooth L1 Loss：
$\mathcal L_{reg} = \sum_{c\in\{l,t,r,b\}} \sum_{i,j} \mathrm{SmoothL1}(\Delta_{c,i,j} - \Delta^*_{c,i,j})$

$\Delta^*$ ：Ground-Truth边界框与Anchor的真实偏移

5.3 Mask分支损失

像素级二元交叉熵：
$\mathcal L_{mask} = -\frac{1}{H_mW_m}\sum_{u,v}\bigl[M^*_{u,v}\log\hat M_{u,v} + (1-M^*_{u,v})\log(1-\hat M_{u,v})\bigr]$

$M^*_{u,v}\in\{0,1\}$ ：像素级前景/背景标签

5.4 总损失

多任务加权：
$\mathcal L_{total} = \lambda_{cls}\mathcal L_{cls} + \lambda_{reg}\mathcal L_{reg} + \lambda_{mask}\mathcal L_{mask}$
常见设定： $\lambda_{cls}=1,\lambda_{reg}=1.2,\lambda_{mask}=32$ 。

六、三者协同工作流程

特征提取：模板与搜索图通过Backbone、FPN提取多尺度特征。
DW-XCorr：得到全局匹配特征图 $g$ 。
分类分支：生成热力图 $\mathbf S$ ，选取得分最高的位置作为候选Anchor。
回归分支：对候选Anchor回归偏移，得到精确边界框。
Mask分支：对每个候选框进行RoIAlign裁剪，预测高分辨率掩膜。

七、实验对比与可视化示例

下面对比三者输出：

分类热力图：低分辨率，但清晰标出目标中心
回归框：粗略定位目标范围
Mask掩膜：高分辨率，精确描绘目标轮廓

+----------------------+----------------------+----------------------+
|    Classification    |     BBox Regression  |        Mask          |
+----------------------+----------------------+----------------------+
|    17×17 heatmap     |    4×17×17 offsets   |     63×63 mask       |
+----------------------+----------------------+----------------------+

（此处可插入示意图：热力图、边框图、掩膜图）