YOLOv8 多种任务网络结构详细解析 | 目标检测、实例分割、人体关键点检测、图像分类

前言

本文仅根据模型的预测过程，即从输入图像到输出结果（图像预处理、模型推理、后处理），来展现不同任务下的网络结构，OBB 任务暂不包含。

Backbone

1. yolov8m

在这里插入图片描述

2. yolov8m-p2

在这里插入图片描述

3. yolov8m-p6

在这里插入图片描述

4. 细节

图中 CBS = Conv2d + BatchNorm2d + SiLU，上方为卷积参数对应 size, stride, padding
各模块细节至附录 - Block Modules 查看
yolov8m-p2 通过增加一次上采样，与 2-P2 融合得到针对小目标的 P2 输出。
yolov8m-p6 通过增加一次下采样和一次上采样，与 10-P6 融合得到针对大目标的 P6 输出；因为多了一次下采样需要图像的分辨率能被64整除，所以图像预处理输出的分辨率有所不同。
yolov8m-p6 将 SPPF 之后的 C2f 模块替换为了 C2 模块。
SPPF 之前的 C2f 模块中的 Bottleneck 启用 add，而其之后的 C2f / C2 中的 Bottleneck 未启用 add

5. Image Preprocess

在这里插入图片描述
上图按 yolov8m-p6 绘制，LetterBox 环节先保持长宽比将图像较长边缩放至 640，再对四周做填充，使 $h, w$ 都可被模型最大下采样倍率整除（ $\mathrm{p6}\to2^6=64$ ）

img = cv2.copyMakeBorder(img, top, bottom, left, right, cv2.BORDER_CONSTANT, value=(114, 114, 114)
)

Head

1. Detect

在这里插入图片描述
Detect 部分尤为重要，Segment 和 Pose 都包含 Detect Head，依赖目标检测的结果。

实际上 Concat 后获得的 $x_0, x_1, x_2$ 就是训练阶段网络的输出，后续的步骤中不包含网络中需要训练的参数。
Detect head 通过两个分支 cv2 和 cv3 分别得到检测框和分类的输出。分类的输出较好理解，在后续步骤中通过 Sigmoid 直接得到对应 80 个类别的置信度。检测框的部分需要结合 DFL 理解。

class DFL(nn.Module):def __init__(self, c1=16):super().__init__()self.conv = nn.Conv2d(c1, 1, 1, bias=False).requires_grad_(False)x = torch.arange(c1, dtype=torch.float)self.conv.weight.data[:] = nn.Parameter(x.view(1, c1, 1, 1))self.c1 = c1def forward(self, x):b, _, a = x.shape  # batch, channels, anchorsreturn self.conv(x.view(b, 4, self.c1, a).transpose(2, 1).softmax(1)).view(b, 4, a)

在这里插入图片描述
box 中的 64 代表 4 个位置坐标，每个坐标是长度 16 的向量，经过 softmax 得到 16 个概率值；DFL 中卷积参数为固定值 0~15，卷积运算便是与这 16 个概率值做加权求和，最终得到坐标值，其范围也是 [0, 15]。

lt, rb = dfl(box).chunk(2, dim=1)
x1y1 = anchor_points - lt
x2y2 = anchor_points + rb

Anchor：以 $x_0$ 为例，按其分辨率 $80\times60$ 绘制一个网格，每个格子边长为 $1$ ，左上角为原点， $x$ 轴向右， $y$ 轴向下，每个格子的中心点坐标就是 Anchor 坐标，例如左上角坐标为 $(0.5, 0.5)$ ，右下角坐标为 $(59.5, 79.5)$ 。
从代码中可以看出，DFL 得到的坐标为目标框左上角和右下角坐标与 Anchor 坐标的距离。

Postprocess - NMS

根据阈值 conf_thres=0.25 筛选出置信度较高的 Anchor
若数量较多，则选取置信度较高的 max_nms=30000 项参与 NMS
i = torchvision.ops.nms(boxes, scores, iou_thres)
若数量较多，则选取 i 中前 max_det=300 项作为最终检测结果

2. Segment

在这里插入图片描述
Segment 添加了一个类似 Detect 中 cv2 和 cv3 的分支 cv4 计算分割结果

mc 中 6300 代表 Anchor，32 代表 Mask。在 Detect 中每个 Anchor 对应了一个检测结果，mc 则是每个检测结果对应的分割结果 Mask，而 Mask 使用一个长度为 32 的向量表示。
p 用于将 mc 中的 Mask 解码成常规的 Mask（二值图），具体步骤如下：

mc @ p.view(32, -1).sigmoid().view(-1, 160, 120)
这里的 mc 大小为 [n, 32]，n 为经过 NMS 等后处理后最终目标检测的数量，通过矩阵乘法、Sigmoid、Reshape 操作得到了 Mask
crop_mask(masks, downsampled_bboxes)
根据对应的检测结果，将检测框外的 Mask 数值置零
F.interpolate(masks, image_shape, mode="bilinear", align_corners=False)
上采样至原图分辨率
masks.gt_(0.5)
以 0.5 为阈值转为零一矩阵，即最终每个检测目标对应的 Mask

3. Pose

在这里插入图片描述
上图以 yolov8m-p6 作为 backbone， $51=17\times3$ 即 17 个关键点，每个点有 $(x,y,\mathrm{visible})$ 3 个值，visible 代表该关键点是否可见，可视化时会根据阈值（默认 0.25）判断关键点是否可见。

y = kpts.clone()
if ndim == 3:y[:, 2::3] = y[:, 2::3].sigmoid()
y[:, 0::ndim] = (y[:, 0::ndim] * 2.0 + (self.anchors[0] - 0.5)) * self.strides
y[:, 1::ndim] = (y[:, 1::ndim] * 2.0 + (self.anchors[1] - 0.5)) * self.strides

上述代码为图中 decode 过程。Anchor 坐标与 Detect 部分略有不同，anchors - 0.5 可以看作以网格左上角而非中心点作为 Anchor 坐标。 $x, y$ 为距离 Anchor 坐标的一半（为何采用一半？）。

Classify

1. Backbone

在这里插入图片描述

2. Head

在这里插入图片描述

3. Image Preprocess

在这里插入图片描述
Normalize 对图像数据并无影响

附录

1. 模型配置文件 yaml

https://github.com/ultralytics/ultralytics/tree/main/ultralytics/cfg/models

# yolov8.yamlnc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call yolov8.yaml with scale 'n'# [depth, width, max_channels]n: [0.33, 0.25, 1024] # YOLOv8n summary: 225 layers,  3157200 parameters,  3157184 gradients,   8.9 GFLOPss: [0.33, 0.50, 1024] # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients,  28.8 GFLOPsm: [0.67, 0.75, 768]  # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients,  79.3 GFLOPsl: [1.00, 1.00, 512]  # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPsx: [1.00, 1.25, 512]  # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs# YOLOv8.0n backbone
backbone:# [from, repeats, module, args]- [-1, 1, Conv, [64, 3, 2]]  	# 0-P1/2- [-1, 1, Conv, [128, 3, 2]] 	# 1-P2/4- [-1, 3, C2f, [128, True]]	# 2- [-1, 1, Conv, [256, 3, 2]] 	# 3-P3/8- [-1, 6, C2f, [256, True]]	# 4- [-1, 1, Conv, [512, 3, 2]] 	# 5-P4/16- [-1, 6, C2f, [512, True]]	# 6- [-1, 1, Conv, [1024, 3, 2]] # 7-P5/32- [-1, 3, C2f, [1024, True]]	# 8- [-1, 1, SPPF, [1024, 5]] 	# 9# YOLOv8.0n head
head:- [-1, 1, nn.Upsample, [None, 2, "nearest"]]	# 10- [[-1, 6], 1, Concat, [1]] 	# 11 cat backbone P4- [-1, 3, C2f, [512]] 		# 12- [-1, 1, nn.Upsample, [None, 2, "nearest"]]	#13- [[-1, 4], 1, Concat, [1]] 	# 14 cat backbone P3- [-1, 3, C2f, [256]] 		# 15 (P3/8-small)- [-1, 1, Conv, [256, 3, 2]]	# 16- [[-1, 12], 1, Concat, [1]] 	# 17 cat head P4- [-1, 3, C2f, [512]] 		# 18 (P4/16-medium)- [-1, 1, Conv, [512, 3, 2]]	# 19- [[-1, 9], 1, Concat, [1]] 	# 20 cat head P5- [-1, 3, C2f, [1024]] 		# 21 (P5/32-large)- [[15, 18, 21], 1, Detect, [nc]] # Detect(P3, P4, P5)

[-1, 3, C2f, [1024, True]]	# 8
"""
from: 	-1, 代表这一层的输入为上一层的输出
repeats: 3, 代表 C2f 中有3个 Bottleneck, 实际不同尺度的模型会根据 depth 调整数量例如 yolov8m 该层实际的 repeats = 3*0.67 = 2
module:	C2f
args:	[1024, True], 代表 module 的参数1024 代表 channel 数, 实际不同尺度的模型会根据 width 和 max_channels例如 yolov8m 该层实际的 channel = min(1024, 768)*0.75 = 576True 代表 Bottleneck 中是否启用 add
"""

2. Block Modules

https://github.com/ultralytics/ultralytics/blob/main/ultralytics/nn/modules/block.py

SPP & SPPF

在这里插入图片描述
对比下方源码可知，SPP 与 SPPF 的区别主要在于 MaxPool2d 的 kernel size & padding，SPP 依次递增，SPPF 保持不变重复利用一个池化层。

class SPP(nn.Module):def __init__(self, c1, c2, k=(5, 9, 13)):super().__init__()c_ = c1 // 2  # hidden channelsself.cv1 = Conv(c1, c_, 1, 1)self.cv2 = Conv(c_ * (len(k) + 1), c2, 1, 1)self.m = nn.ModuleList([nn.MaxPool2d(kernel_size=x, stride=1, padding=x // 2) for x in k])def forward(self, x):x = self.cv1(x)return self.cv2(torch.cat([x] + [m(x) for m in self.m], 1))class SPPF(nn.Module):def __init__(self, c1, c2, k=5):super().__init__()c_ = c1 // 2  # hidden channelsself.cv1 = Conv(c1, c_, 1, 1)self.cv2 = Conv(c_ * 4, c2, 1, 1)self.m = nn.MaxPool2d(kernel_size=k, stride=1, padding=k // 2)def forward(self, x):y = [self.cv1(x)]y.extend(self.m(y[-1]) for _ in range(3))return self.cv2(torch.cat(y, 1))