【纯干货级教程】深度学习根据loss曲线进行分析调参

相信很多刚刚接触目标检测系列算法小伙伴跑深度学习算法时会有许多困惑,比如训练得出的loss曲线有什么意义?训练的一些参数要如何设置选择?选择哪个算法模型作为baseline、选择哪个参数量/复杂度/深度的模型进行训练最为合适?

本文将主要从训练过程中、训练得出的结果文件来进行阐述如何对自己的模型进行精进。如何对自己的模型进行调参分析。

当然,本文在阐述的时候可能会存在结论不全的情况,若你有相关疑问,欢迎在评论区批评指正、互相交流!我也会在后续持续进行更新完来完善该文章,欢迎关注。

一、训练得出的loss曲线有什么作用?

在训练结束后,通常会输出loss曲线,它是一种工具,能够帮助我们用以判断训练的好坏。

有些初学的小伙伴可能会将loss曲线当成影响指标的原因,但注意此处不能顾名思义,你在训练过程中若看见两轮输出的loss数值均正常下降,而评估的结果却不一定会变好,它只能作为一种分析的手段,没有绝对性。

以yolov5/v7为例,loss曲线通常输出trainloss和valloss

输出的loss曲线通常会有以下特征。

1.正常收敛

现象描述:train和val的曲线均趋于平缓,指标的值也趋于平缓,虽然train看起来还未收敛(主要原因是我没认真去调~)。同时,示例图片有些波动,但这其实是数据集较少的原因导致,此情况见第6点。

2.没有完全收敛(欠拟合)

现象描述:曲线没有下降到趋于平缓的情况。此处的val乍一看开始是下降了然后趋于平缓,但这是视觉上的问题,本质上忽略掉前几个epoch则可发现val仍在下降,且下降地不完全明显。同时,四个指标的趋势仍在上升,将其数据单独拿出则可明白仍未收敛。

解决方法:加大epoch、加大batchsize、换用更深的模型、很难拟合的情况尝试加载预训练权重、加大数据集评估结果较差的那个类别的图片数量。

3.过拟合

现象描述:如图,指标的曲线正常下降趋于平缓甚至逐渐降低,而val由正常下降再平缓再趋于上升,这是一个典型的过拟合情况。

解决方法:减少epoch、减少batchsize、增加数据集数据量(一般不这样做)、减小网络复杂度、减小层数、更换参数量较低的模型如YOLOv5x转YOLOv5s测试。

4.过早收敛

现象描述:乍一看曲线很平滑,也趋于收敛。但仔细观察,在约第20个epoch时,模型快速收敛,这或许说明采用的模型深度太深、数据集太过简单(也侧面反映了模型深度深过于复杂)、batchsize过高。

解决方法:降低batchsize、换参数量、深度较小的模型或对某些模块进行删除修改或替换轻量化模块等、降低学习率。

若你的数据集本来就很简单,则属于正常收敛,但若你的数据集并不小,如有几千、几万张,则考虑上述解决方法。

5.训练失败

(此处就不配图了,博主暂时没遇到这种情况,请根据现象描述进行判断)

现象描述:曲线乱跳、没有指标输出(均为0)

这种情况的train和val的曲线趋势相同,几乎都是一条水平的直线,并且虽然花了时间训练、训练过程中没有报什么错,但模型在本次训练中几乎没有学习到什么。该现象存在以下原因:

当在不对拉取的项目文件做修改时,往往是数据集的原因,数据集出现了严重的标注错误、类别混淆等。

数据集数量太小,选择的epoch也很少,不足以支持学习。

检测的类别的模样相差很大,但却标注了同一类名称,目标较难识别。这种情况需要对数据集进行重新设计。

项目文件存在缺陷,这种情况通过

解决方法:先检查数据集,这通常绝大部分原因是数据集的问题(尤其是数量、质量)。确认无误后尝试更换优化器。再测试别的对比试验,实在不行就放弃该实验采用别的实验,节约时间。

6.曲线震荡幅度大

现象描述:曲线不是很平滑规整、同时指标也不是很平滑规整。

解决方法:加大数据集的数据量,略微增加epoch。

7.train和val均升高

现象描述:这种情况通常train和val的loss图像都是向上的,指标很差或直接为0。这种情况博主也没遇到过,故不配图。

解决方法:若是自己设计的网络,检查模型是否存在问题,是否合理。检查自己配置文件的参数设置是否正常。检测数据集是否存在严重质量上的问题。

正常会遇到的情况绝大多数是:过拟合、欠拟合。

很多时候盲目增大batchsize、epoch反而会降低评估的结果。

同时,看loss曲线的变化并不能百分百判断出遇到的情况,博主建议大家一点一点地做修改,一次解决一个问题测试后再解决,一步一步排错,方能完美地解决问题。

二、一些心得:如何最大情况地避免训练过程中出现问题?我们在训练前应该做到什么?

1.明确目的

意思是你进行训练要做什么用?工业或是科研?以科研为例,分析你的场景需求是否适合讲故事,自己能否说得通等,分析比如你在疫情期间去写检测口罩的论文会更好通过,现在显然作用没有之前那么大。

2.选择合适的数据集

选择数据集的时候重点关注数据集是否存在标注错误、图像质量如何、图像数量是否足够支撑一篇论文所需的量、数据文件大小是否适合你的机器等。

及时排除能省不少事。如RSOD数据集就存在标注错误,这很可能会对你的训练结果产生一定影响。

3.先测对比试验

选择合适的baseline作为你的改进基础,据此进行改进。笔者曾在SSDD进行实验,当我测试其在YOLOv7-tiny的训练结果时在83左右正常收敛,输出曲线也并无什么异常,于是直接进行魔改,测试了一段时间涨点百分之11后一测对比试验,结果只打过了YOLOv5-n,于是惨遭失败。因此,为了节约时间,一定要注意自己的步骤。

4.制定计划

改进过程中,最好自己先制定一个计划,设计一个表格来展示你的Precision、Recall、map@0.5、map@0.5:.95、F1分数以及GFLOPS,据此做出对比与参考,同时对实验出的文件进行留样,选择必要的文件进行存储,并用以说明实验时发现的问题等。

5.详细分析

对自己的baseline进行分析,主要是对自己的loss曲线做分析,根据第一大点分析收敛地是否合理,曲线是否足够平滑。

完成上述步骤后,则可以尽量减少实验出现的失误以节约时间。

三、补充:我们在训练过程中得出的文件重点要关注什么?——以YOLOv5/v7为例

若直接以YOLOv7的项目文件为基础不做多余的修改进行训练,将会得出以下文件

其中我们需要重点关注的文件有:

1.weights文件夹下的best.pt/last.pt

如图所示,其中best.pt用于存放你目前评估结果最佳的模型权重,last.pt用于存放你训练中断或结束后的最后一个已经评估完成的epoch,主要用于断点重训,在项目文件的train.py中将resume设为true即可断点重训。当你需要这么做的时候请看点

2.confusion_matrix

混淆矩阵通过计算基于混淆矩阵的各种性能指标,如准确率、召回率、精确率、F1分数以及mAP(Mean Average Precision)等,可以全面评估目标检测模型在不同类别上的表现。

也能够直接展示出哪些类别被频繁误分类或漏检,有助于识别模型在特定类别上的弱点,尤其是在类别分布不均的数据集中。

通过分析混淆矩阵,我们可以针对性地优化模型,比如对频繁产生假正例的类别调整分类阈值,或对特定类别增加训练数据以提高模型的泛化能力。

通常只有完全训练结束后才会生成这个文件(即中途中断训练又不断点重训则不会生成)

3.F1_curve

F1分数作为精确率和召回率的调和平均值,能够综合评估模型在这两方面的表现,帮助找到一个二者之间的平衡点。

有些时候,某些类别的对象可能远多于其他类别,导致模型倾向于预测该类别而忽视其他数量较少的类别。F1分数在这种情况下尤为有用,因为它不会像准确率那样受到类别频率的影响,可以更公平地评估模型在所有类别上的表现。

同时,在比较不同的目标检测算法或模型时,F1分数提供了一个统一的标准,使得不同方法的性能可以直接进行对比。

通常只有完全训练结束后才会生成这个文件(即中途中断训练又不断点重训则不会生成)

如图的F1分数最佳值为0.76,而0.618应为面积比。

4.hyp.yaml/opt.yaml

用于存放你训练过程中设置的参数。

5.P_curve

通常只有完全训练结束后才会生成这个文件(即中途中断训练又不断点重训则不会生成)

展示了你的Precision曲线。

6.R_curve

通常只有完全训练结束后才会生成这个文件(即中途中断训练又不断点重训则不会生成)

展示了你的Recall曲线。

7.PR_curve

通常只有完全训练结束后才会生成这个文件(即中途中断训练又不断点重训则不会生成)

展示了你的P-R曲线。

8.results.txt

用于展示你训练过程中的各个数据输出,比如train_loss、val_loss以及四个指标Precision、Recall、map@0.5、map@0.5:.95,输入图像尺寸以及epoch结束的最后一个标签加载数(该数字可用于定位是否发生了断点训练)

9.results.png

用于展示results.txt的文件,通常只有完全训练结束后才会生成这个文件(即中途中断训练又不断点重训则不会生成)。

当你的类别数为1时,classification则为一条直线或如图所示的情况

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/28117.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

生成和链接动态库

生成和链接动态库 在Linux和windows中的动态库是不一样的 linux 的动态库不需要设置导入导出符号,以.os为后缀windows中需要设置导入和导出符号.lib,以及动态库的后缀是dll 1、windows环境 1、创建动态库 项目结构 CMakeLists.txt cmake_minimum_re…

使用Ventoy 替代Win_To_Go更好的随身系统

Ventoy支持在物理机上直接启动安装了 Linux/Windows 系统的 磁盘映像文件 。 系统是在真实物理机上运行,并不是在虚拟机里运行,没有性能损失。支持 Legacy BIOS 和 UEFI 模式。支持从任意磁盘启动磁盘映像。 Windows 支持固定大小以及动态扩展类型的 VH…

设计模式-代理模式Proxy(结构型)

代理模式(Proxy) 代理模式是一种结构型模式,它可以通过一个类代理另一个类的功能。代理类持有被代理类的引用地址,负责将请求转发给代理类,并且可以在转发前后做一些处理 图解 角色 抽象主题(Subject&…

光功率计传感器

光探测仪表: 激光功率计探头按照不同的原理和材料分为热电堆型、光电二极管型以及包含两种传感器的综合探头, 激光能量计则有热释电传感器和热电堆传感器探头 热释电效应传感器: 热释电传感器的工作原理主要是基于热释电效应。当物体处于不同温度时,会发射出不同强度的红…

深入剖析 Laravel 框架:构建高效PHP应用的最佳实践

引言 随着互联网的高速发展,PHP 作为一门广泛使用的服务器端脚本语言,始终备受开发者青睐。而在众多 PHP 框架中,Laravel 凭借其优雅的设计和高效率,成为了构建现代 Web 应用的热门选择。本文将从零开始,探讨如何使用 …

镍电解阳极液深度除铜树脂

摘要&#xff1a;HP686适用于以下行业中的铜、镍等金属选择性吸附&#xff1a; • 可用于锂电正极材料、锂电回收等生产过程中回收镍、铜&#xff0c;料液纯化 • 可在酸性条件下 (pH< 2) &#xff0c;吸附铜离子 • 钴电解液中去除镍离子&#xff0c;纯化电解液 • 可在…

面向对象前置(java)

文章目录 环境配置相关如何在 cmd 任何路径下中 使用 javac(编译) 和 java(运行) 指令path变量的含义javac(编译&#xff09;使用java(运行&#xff09;的使用public class 和 class 的区别 标识符命名规则命名规范 字面量字符串拼接变量的作用域转移字符类型转换接收用户键盘输…

公差基础-配合(互换性和测量基础)-2

过盈配合&#xff1a; 配合的种类&#xff1a; 三种&#xff1a;间隙&#xff0c;过渡&#xff0c;过盈配合&#xff1a; 间隙配合&#xff1a; 过盈配合&#xff1a; 过渡配合&#xff1a; 间隙量&#xff1a;最大间隙减去最小间隙&#xff1b; 配合的公差怎么算&#xff1a…

江协科技STM32学习- 2安装Keil5-MDK

本文是根据哔哩哔哩网站上“江协科技STM32”视频的学习笔记&#xff0c;在这里会记录下江协科技STM32开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了江协科技STM32教学视频和链接中的内容。 引用&#xff1a; STM32入门教程-2023版 细致讲解 中文字幕_哔哩哔哩…

TypeScript入门教程

今天&#xff0c;给大家分享一个自己总结的超详细的TypeScript入门教程电子书。从TypeScript的基础知识开始讲解&#xff0c;包括数据类型、变量、运算符、条件语句、循环结构等基本概念。接着&#xff0c;详细介绍TypeScript中的函数、类和接口等高级特性&#xff0c;以及如何…

Oracle阅读Java帮助文档

进入到Help Center 选择Java 查看Java SE [version]对应版本相关的内容 查看其它版本 查看Java11 javac等相关参数 目录查看java相关命令

【Mac】Luminar Neo for mac(图像编辑软件)软件介绍及同类型软件比较

Luminar Neo软件介绍 Luminar Neo 是一款由 Skylum 开发的功能强大的照片编辑软件&#xff0c;专为摄影师和摄影爱好者设计。它适用于 Mac 和 Windows 平台&#xff0c;提供了一系列先进的编辑工具和功能&#xff0c;使用户能够轻松提升和优化他们的照片。以下是 Luminar Neo …

篮球杯小白+强者

2. 宣读数字【算法赛】 思维题&#xff0c;注意到完全平方数的约数是奇数个&#xff0c;其余都是偶数个。 #include <bits/stdc.h>using namespace std;#define LL long long#define pb push_back#define x first#define y second #define int long long #define endl \n…

在机器学习领域中,One-Hot Encoding是什么

一般来说&#xff0c;机器学习模型要求所有的输入输出变量都必须是数字。如果我们的数据中包含了分类数据&#xff0c;我们必须将它们编码成一些数字&#xff0c;这样我们才可以拿去训练和评测一个机器学习模型。 我们常说的分类数据是不能够直接拿来训练、预测的。因为它们一…

邮件钓鱼--有无SPF演示--Swaks

目录 临时邮箱网址: Swaks 简单使用说明&#xff1a;(kali自带) 操作流程: 无SPF:(直接伪造发信人) 演示1 演示2 演示3 ​编辑 有SPF:--演示 临时邮箱网址: http://24mail.chacuo.net/ https://www.linshi-email.com/ Swaks 简单使用说明&#xff1a;(kali自带) -t –t…

第5章:模型预测控制(MPC)的代码实现

1. 建立 QP 模型&#xff1a; 1.1 车辆模型&#xff1a; 注&#xff1a;使用车辆横向动力学模型 纵向动力学模型&#xff08;误差模型&#xff09; 1.2 QP 问题模型&#xff1a; 注&#xff1a;详细推导见 笔记100&#xff1a;使用 OSQP-Eigen 对 MPC 进行求解的方法与代码-…

怎样快速清理电脑里的所有软件 怎么删除干净电脑软件

苹果电脑内的软件来源主要有两个&#xff0c;一是系统预装&#xff0c;二是用户自行下载。但并不是所有应用程序都是高频使用状态&#xff0c;甚至好多是从未打开过的“屏幕装饰”。小编今日独家攻略&#xff0c;内存告急如何快速清理电脑里的所有软件&#xff0c;怎么删除干净…

33 _ 跨站脚本攻击(XSS):为什么Cookie中有HttpOnly属性?

通过上篇文章的介绍&#xff0c;我们知道了同源策略可以隔离各个站点之间的DOM交互、页面数据和网络通信&#xff0c;虽然严格的同源策略会带来更多的安全&#xff0c;但是也束缚了Web。这就需要在安全和自由之间找到一个平衡点&#xff0c;所以我们默认页面中可以引用任意第三…

⌈ 传知代码 ⌋ 2 行代码搞定火灾检测

&#x1f49b;前情提要&#x1f49b; 本文是传知代码平台中的相关前沿知识与技术的分享~ 接下来我们即将进入一个全新的空间&#xff0c;对技术有一个全新的视角~ 本文所涉及所有资源均在传知代码平台可获取 以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦&#x…

注解(Annotation)(一)

Java 注解&#xff08; Annotation &#xff09;又称 Java 标注&#xff0c;是 JDK5.0 引入的一种注释机制。 Java 语言中的类、 构造器、 方法、成员变量、参数等都可以被注解进行标注。 自定义注解 --- 格式 自定义注解就是自己做一个注解来使用。 public interface …