YOLOv8 多种任务网络结构详细解析 | 目标检测、实例分割、人体关键点检测、图像分类

前言

  本文仅根据模型的预测过程,即从输入图像到输出结果(图像预处理、模型推理、后处理),来展现不同任务下的网络结构,OBB 任务暂不包含。

Backbone

1. yolov8m

在这里插入图片描述

2. yolov8m-p2

在这里插入图片描述

3. yolov8m-p6

在这里插入图片描述

4. 细节

  • 图中 CBS = Conv2d + BatchNorm2d + SiLU,上方为卷积参数对应 size, stride, padding
  • 各模块细节至 附录 - Block Modules 查看
  • yolov8m-p2 通过增加一次上采样,与 2-P2 融合得到针对小目标的 P2 输出。
  • yolov8m-p6 通过增加一次下采样和一次上采样,与 10-P6 融合得到针对大目标的 P6 输出;因为多了一次下采样需要图像的分辨率能被64整除,所以图像预处理输出的分辨率有所不同。
  • yolov8m-p6SPPF 之后的 C2f 模块替换为了 C2 模块。
  • SPPF 之前的 C2f 模块中的 Bottleneck 启用 add,而其之后的 C2f / C2 中的 Bottleneck 未启用 add

5. Image Preprocess

在这里插入图片描述
  上图按 yolov8m-p6 绘制,LetterBox 环节先保持长宽比将图像较长边缩放至 640,再对四周做填充,使 h , w h,w h,w 都可被模型最大下采样倍率整除( p 6 → 2 6 = 64 \mathrm{p6}\to2^6=64 p626=64

img = cv2.copyMakeBorder(img, top, bottom, left, right, cv2.BORDER_CONSTANT, value=(114, 114, 114)
)

Head

1. Detect

在这里插入图片描述
  Detect 部分尤为重要,Segment 和 Pose 都包含 Detect Head,依赖目标检测的结果。

  实际上 Concat 后获得的 x 0 , x 1 , x 2 x_0, x_1, x_2 x0,x1,x2 就是训练阶段网络的输出,后续的步骤中不包含网络中需要训练的参数。
  Detect head 通过两个分支 cv2cv3 分别得到检测框和分类的输出。分类的输出较好理解,在后续步骤中通过 Sigmoid 直接得到对应 80 个类别的置信度。检测框的部分需要结合 DFL 理解。

class DFL(nn.Module):def __init__(self, c1=16):super().__init__()self.conv = nn.Conv2d(c1, 1, 1, bias=False).requires_grad_(False)x = torch.arange(c1, dtype=torch.float)self.conv.weight.data[:] = nn.Parameter(x.view(1, c1, 1, 1))self.c1 = c1def forward(self, x):b, _, a = x.shape  # batch, channels, anchorsreturn self.conv(x.view(b, 4, self.c1, a).transpose(2, 1).softmax(1)).view(b, 4, a)

在这里插入图片描述
  box 中的 64 代表 4 个位置坐标,每个坐标是长度 16 的向量,经过 softmax 得到 16 个概率值;DFL 中卷积参数为固定值 0~15,卷积运算便是与这 16 个概率值做加权求和,最终得到坐标值,其范围也是 [0, 15]

lt, rb = dfl(box).chunk(2, dim=1)
x1y1 = anchor_points - lt
x2y2 = anchor_points + rb

  Anchor:以 x 0 x_0 x0 为例,按其分辨率 80 × 60 80\times60 80×60 绘制一个网格,每个格子边长为 1 1 1,左上角为原点, x x x 轴向右, y y y 轴向下,每个格子的中心点坐标就是 Anchor 坐标,例如左上角坐标为 ( 0.5 , 0.5 ) (0.5,0.5) (0.5,0.5),右下角坐标为 ( 59.5 , 79.5 ) (59.5,79.5) (59.5,79.5)
  从代码中可以看出,DFL 得到的坐标为目标框左上角和右下角坐标与 Anchor 坐标的距离。

Postprocess - NMS

  1. 根据阈值 conf_thres=0.25 筛选出置信度较高的 Anchor
  2. 若数量较多,则选取置信度较高的 max_nms=30000 项参与 NMS
  3. i = torchvision.ops.nms(boxes, scores, iou_thres)
  4. 若数量较多,则选取 i 中前 max_det=300 项作为最终检测结果

2. Segment

在这里插入图片描述
  Segment 添加了一个类似 Detect 中 cv2cv3 的分支 cv4 计算分割结果

  mc 中 6300 代表 Anchor,32 代表 Mask。在 Detect 中每个 Anchor 对应了一个检测结果,mc 则是每个检测结果对应的分割结果 Mask,而 Mask 使用一个长度为 32 的向量表示。
  p 用于将 mc 中的 Mask 解码成常规的 Mask(二值图),具体步骤如下:

  • mc @ p.view(32, -1).sigmoid().view(-1, 160, 120)
    这里的 mc 大小为 [n, 32]n 为经过 NMS 等后处理后最终目标检测的数量,通过矩阵乘法、Sigmoid、Reshape 操作得到了 Mask
  • crop_mask(masks, downsampled_bboxes)
    根据对应的检测结果,将检测框外的 Mask 数值置零
  • F.interpolate(masks, image_shape, mode="bilinear", align_corners=False)
    上采样至原图分辨率
  • masks.gt_(0.5)
    以 0.5 为阈值转为零一矩阵,即最终每个检测目标对应的 Mask

3. Pose

在这里插入图片描述
  上图以 yolov8m-p6 作为 backbone, 51 = 17 × 3 51=17\times3 51=17×3 即 17 个关键点,每个点有 ( x , y , v i s i b l e ) (x,y,\mathrm{visible}) (x,y,visible) 3 个值,visible 代表该关键点是否可见,可视化时会根据阈值(默认 0.25)判断关键点是否可见。

y = kpts.clone()
if ndim == 3:y[:, 2::3] = y[:, 2::3].sigmoid()
y[:, 0::ndim] = (y[:, 0::ndim] * 2.0 + (self.anchors[0] - 0.5)) * self.strides
y[:, 1::ndim] = (y[:, 1::ndim] * 2.0 + (self.anchors[1] - 0.5)) * self.strides

  上述代码为图中 decode 过程。Anchor 坐标与 Detect 部分略有不同,anchors - 0.5 可以看作以网格左上角而非中心点作为 Anchor 坐标。 x , y x,y x,y 为距离 Anchor 坐标的一半(为何采用一半?)。

Classify

1. Backbone

在这里插入图片描述

2. Head

在这里插入图片描述

3. Image Preprocess

在这里插入图片描述
Normalize 对图像数据并无影响

附录

1. 模型配置文件 yaml

https://github.com/ultralytics/ultralytics/tree/main/ultralytics/cfg/models

# yolov8.yamlnc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call yolov8.yaml with scale 'n'# [depth, width, max_channels]n: [0.33, 0.25, 1024] # YOLOv8n summary: 225 layers,  3157200 parameters,  3157184 gradients,   8.9 GFLOPss: [0.33, 0.50, 1024] # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients,  28.8 GFLOPsm: [0.67, 0.75, 768]  # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients,  79.3 GFLOPsl: [1.00, 1.00, 512]  # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPsx: [1.00, 1.25, 512]  # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs# YOLOv8.0n backbone
backbone:# [from, repeats, module, args]- [-1, 1, Conv, [64, 3, 2]]  	# 0-P1/2- [-1, 1, Conv, [128, 3, 2]] 	# 1-P2/4- [-1, 3, C2f, [128, True]]	# 2- [-1, 1, Conv, [256, 3, 2]] 	# 3-P3/8- [-1, 6, C2f, [256, True]]	# 4- [-1, 1, Conv, [512, 3, 2]] 	# 5-P4/16- [-1, 6, C2f, [512, True]]	# 6- [-1, 1, Conv, [1024, 3, 2]] # 7-P5/32- [-1, 3, C2f, [1024, True]]	# 8- [-1, 1, SPPF, [1024, 5]] 	# 9# YOLOv8.0n head
head:- [-1, 1, nn.Upsample, [None, 2, "nearest"]]	# 10- [[-1, 6], 1, Concat, [1]] 	# 11 cat backbone P4- [-1, 3, C2f, [512]] 		# 12- [-1, 1, nn.Upsample, [None, 2, "nearest"]]	#13- [[-1, 4], 1, Concat, [1]] 	# 14 cat backbone P3- [-1, 3, C2f, [256]] 		# 15 (P3/8-small)- [-1, 1, Conv, [256, 3, 2]]	# 16- [[-1, 12], 1, Concat, [1]] 	# 17 cat head P4- [-1, 3, C2f, [512]] 		# 18 (P4/16-medium)- [-1, 1, Conv, [512, 3, 2]]	# 19- [[-1, 9], 1, Concat, [1]] 	# 20 cat head P5- [-1, 3, C2f, [1024]] 		# 21 (P5/32-large)- [[15, 18, 21], 1, Detect, [nc]] # Detect(P3, P4, P5)
[-1, 3, C2f, [1024, True]]	# 8
"""
from: 	-1, 代表这一层的输入为上一层的输出
repeats: 3, 代表 C2f 中有3个 Bottleneck, 实际不同尺度的模型会根据 depth 调整数量例如 yolov8m 该层实际的 repeats = 3*0.67 = 2
module:	C2f
args:	[1024, True], 代表 module 的参数1024 代表 channel 数, 实际不同尺度的模型会根据 width 和 max_channels例如 yolov8m 该层实际的 channel = min(1024, 768)*0.75 = 576True 代表 Bottleneck 中是否启用 add
"""

2. Block Modules

https://github.com/ultralytics/ultralytics/blob/main/ultralytics/nn/modules/block.py

SPP & SPPF

在这里插入图片描述
  对比下方源码可知,SPP 与 SPPF 的区别主要在于 MaxPool2dkernel size & padding,SPP 依次递增,SPPF 保持不变重复利用一个池化层。

class SPP(nn.Module):def __init__(self, c1, c2, k=(5, 9, 13)):super().__init__()c_ = c1 // 2  # hidden channelsself.cv1 = Conv(c1, c_, 1, 1)self.cv2 = Conv(c_ * (len(k) + 1), c2, 1, 1)self.m = nn.ModuleList([nn.MaxPool2d(kernel_size=x, stride=1, padding=x // 2) for x in k])def forward(self, x):x = self.cv1(x)return self.cv2(torch.cat([x] + [m(x) for m in self.m], 1))class SPPF(nn.Module):def __init__(self, c1, c2, k=5):super().__init__()c_ = c1 // 2  # hidden channelsself.cv1 = Conv(c1, c_, 1, 1)self.cv2 = Conv(c_ * 4, c2, 1, 1)self.m = nn.MaxPool2d(kernel_size=k, stride=1, padding=k // 2)def forward(self, x):y = [self.cv1(x)]y.extend(self.m(y[-1]) for _ in range(3))return self.cv2(torch.cat(y, 1))

C2

在这里插入图片描述

C2f

在这里插入图片描述

Bottleneck

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/20648.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DALL·E 2详解:人工智能如何将您的想象力变为现实!

引言 DALLE 2是一个基于人工智能的图像生成模型,它通过理解自然语言描述来生成匹配这些描述的图像。这一模型的核心在于其创新的两阶段工作流程,首先是将文本描述转换为图像表示,然后是基于这个表示生成具体的图像。 下面详细介绍DALL-E2的功…

Java高级---Spring Boot---3快速入门

3 Spring Boot快速入门 3.1 创建第一个Spring Boot项目 使用IntelliJ IDEA和Spring Initializr创建项目 打开IntelliJ IDEA 并选择 “Start a new project”。在新建项目向导中,选择 “Spring Initializr”。填写项目基本信息: Group: 定义项目组&…

C#使用GDI对一个矩形进行任意角度旋转

C#对一个矩形进行旋转GDI绘图,可以指定任意角度进行旋转 我们可以认为一张图片Image,本质就是一个矩形Rectangle,旋转矩形也就是旋转图片 在画图密封类 System.Drawing.Graphics中, 矩形旋转的两个关键方法 //设置旋转的中心点 public v…

生成随机图片

package com.zhuguohui.app.lib.tools;/*** Created by zhuguohui* Date: 2024/6/1* Time: 13:39* Desc:获取随机图片*/ public class RandomImage {// static final String url "https://picsum.photos/%d/%d?random%d";static final String url "https://…

FPGA定点数FFT过后转换为浮点数与Matlab计算的FFT结果进行比对

目录 1.前言2.FPGA的testbench中如何读取数据文件3.FPGA的testbench中如何将输出数据存储在文件中4.Matlab去读取testbench存储的文件数据4.1纯数字不带编码4.2 带编码的数据,如定点数 微信公众号获取更多FPGA相关源码: 1.前言 前面一篇文章讲了&…

ESP32-C3模组上实现蓝牙BLE配网功能(2)

接前一篇文章:ESP32-C3模组上实现蓝牙BLE配网功能(1) 本文内容参考: 《ESP32-C3 物联网工程开发实战》 乐鑫科技 蓝牙的名字由来是怎样的?为什么不叫它“白牙”? 特此致谢! 一、蓝牙知识基础…

[数据集][目标检测]吉他检测数据集VOC+YOLO格式66张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):66 标注数量(xml文件个数):66 标注数量(txt文件个数):66 标注类别数…

Three.js——tween动画、光线投射拾取、加载.obj/.mtl外部文件、使用相机控制器

个人简介 👀个人主页: 前端杂货铺 ⚡开源项目: rich-vue3 (基于 Vue3 TS Pinia Element Plus Spring全家桶 MySQL) 🙋‍♂️学习方向: 主攻前端方向,正逐渐往全干发展 &#x1…

YOLOv8 segment介绍

1.YOLOv8图像分割支持的数据格式: (1).用于训练YOLOv8分割模型的数据集标签格式如下: 1).每幅图像对应一个文本文件:数据集中的每幅图像都有一个与图像文件同名的对应文本文件,扩展名为".txt"; 2).文本文件中每个目标(object)占一行…

iReport的下载与安装

下载官网:Home - Jaspersoft Community 网盘下载: 链接:https://pan.baidu.com/s/1Oy5opY4GxPZ_mllTlBZ-2w 提取码:75do 安装就是双击后一直点击下一步 安装好了之后要配置jdk环境 iReport 目前 并不支持 高版本jdk 只支持…

TQSDRPI开发板教程:UDP收发测试

项目资源分享 链接:https://pan.baidu.com/s/1gWNSA9czrGwUYJXdeuOwgQ 提取码:tfo0 LWIP自环教程:https://blog.csdn.net/mcupro/article/details/139350727?spm1001.2014.3001.5501 在lwip自环的基础上修改代码实现UDP的收发测试。新建一…

嫁接打印:经济与实用的完美结合

在制造领域,寻求经济且好用的技术方案至关重要。而在模具制造中,3D 打印随形水路在提升冷却效率和产品良率方面的卓越表现已得到广泛认同。如何更经济的应用3D打印技术,就不得不说嫁接打印了。 在嫁接打印的制造过程中,产品的一部…

音视频开发—H264 SPS 和 PPS 参数说明

文章目录 序列参数集 (SPS, Sequence Parameter Set)SPS的主要内容: 图像参数集 (PPS, Picture Parameter Set)PPS的主要内容: Slice Header 结构 在H.264视频编码标准中,SPS和PPS是关键的参数集,它们提供了解码所需的各种配置信息…

Pytorch创建张量

文章目录 1.torch.from_numpy()2. torch.zeros()3. torch.ones()4. torch.arange()5. torch.linspace()6. torch.logspace()7. torch.eye()8. torch.empty()9. torch.full()10. torch.complex()10. torch.rand()10. torch.randint()11. torch.randn12. torch.normal()13. torch…

[数据集][目标检测]剪刀石头布检测数据集VOC+YOLO格式1973张3类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):1973 标注数量(xml文件个数):1973 标注数量(txt文件个数):1973 标注…

Docker 简介和安装

目录 Docker 是什么 跟普通虚拟机的对比 打包、分发、部署 Docker 部署的优势 Docker 通常用来做什么 重要概念:镜像、容器 安装 镜像加速源 Docker 是什么 Docker 是一个应用打包、分发、部署的工具 你也可以把它理解为一个轻量的虚拟机,它只虚…

SAP揭秘者- SAP PP模块日常常见运维问题之工单入库失败原因分析及快速处理

文章摘要: 无论您是负责SAP实施项目还是负责SAP运维项目,当用户发现有SAP PP模块的各种异常问题的时都需要作为SAP PP顾问的您快速地理解用户提交的问题,并快速地解决这些问题, 上篇文章跟大家聊了基本单位维护错了怎么修改的解决…

ARC学习(2)基本编程模型认识(二)

笔者继续来学习一下arc的编程模型的寄存器信息。 1、core寄存器深入 参数寄存器:r0-r7,8个参数,暂存器:r10-r15保存寄存器:r16-r25 调用函数需要保存的寄存器指针寄存器:gp(全局指针&#xff09…

functional函数对象库学习

类模板 std::function 是一种通用多态函数包装器。std::function 的实例能存储、复制及调用任何可复制构造 (CopyConstructible) 的可调用 (Callable) 目标——函数(通过其指针)、lambda 表达式、bind 表达式或其他函数对象,以及成员函数指针…

FPGA基于DE2-115开发板驱动HC_SR04超声波测距模块|集成蜂鸣器,led和vga提示功能

文章目录 前言一、实验原理二、Verilog文件2.1 时钟分频2.2 超声波测距2.3 超声波驱动 三、实现过程3.1 模块说明3.2 引脚分配 三、演示视频总结参考 前言 环境 硬件 DE2-115 HC-SR04超声波传感器 软件 Quartus 18.1 目标结果 使用DE2-115开发板驱动HC-SR04模块&#xff0…