【YOLOv9】完胜V8的SOTA模型Yolov9(论文阅读笔记)

官方论文地址: 论文地址点击即可跳转

官方代码地址: GitCode - 开发者的代码家园

                          官方代码地址点击即可跳转

1 总述

当输入数据经过各层的特征提取和变换的时候,都会丢失一定的信息。针对这一问题:

  1. 论文中提出的可编程梯度信息(PGI)能够为目标检测任务提供完整的信息,进而计算目标函数,得到可靠的梯度信息来更新网络的权重参数。本文引入了DynamicDet架构作为设计可逆分支的基础。此外,可逆信息进一步引入到所提出的PGI中。所提出的新架构在推理过程中不需要额外的连接,因此可以完全保留速度、参数数量和准确性的优势。
  2. 论文中提出了基于梯度路径规划的新型轻量级网络结构-GELAN(Generalized Efficient Layer Aggregation Network, 广义高效层聚合网络)。GELAN优化了网络架构的参数利用率和计算效率,展现了轻巧、快速和准确的巨大优势。
  3. 论文使用GELAN改进架构,并使用所提出的PGI改进训练过程,然后得到了新一代YOLO系列对象检测系统-YOLOv9。使用MS COCO数据集进行实验,实验结果验证了提出的YOLOv9的性能相当优秀。

 接下来,我们先看看YOLOv9的表现,如下图:

从上图可以看出:基于GELAN和PGI的对象检测方法在对象检测性能方面超越了之前的所有从零开始训练的方法。在准确性方面,新的方法优于预训练的RT - DETR ,并且在参数利用率方面,它也优于基于深度卷积设计的YOLO MS。

2 信息丢失问题

在深度网络中,输入数据在前向传播过程中丢失信息的现象通常被称为信息瓶颈。目前,可以缓解这种现象的主要方法如下:

  1. 使用可逆架构:这种方法主要通过重复使用输入数据并以显式方式保持输入数据的信息。这种方法需要额外的层来组合重复输入的数据,这将显著增加推理成本。同时还存在输入数据层到输出层的路径不能太深这一限制
  2. 使用掩码建模:主要通过重构损失使用隐式方式最大化提取的特征并保留输入信息。掩码建模重构损失有时与目标损失冲突。除此之外,大多数掩码机制也会产生错误的数据关联的情况
  3. 引入深度监督概念:它使用尚未丢失太多重要信息的浅层特征,预先建立从特征到目标的映射,以确保重要信息可以传输到更深的层。但是,这种方法会产生错误累积,如果浅层监督在训练过程中丢失信息,后续层将无法检索所需信息

综上所述,上述方法在训练过程和推理过程中都有不同的缺点或问题,在困难任务和小型模型上会更加显著。

从上图可以看出:不同网络架构的随机初始权重输出特征图的可视化结果。

(a) 输入图像,(b) PlainNet,(c) ResNet,(d) CSPNet,和 (e) 本文的GELAN。从这些可视化结果中,提供给目标函数用以计算损失的信息在不同程度上有所丢失,而提议的GELAN架构能够保留最完整的信息,并为计算目标函数提供最可靠的梯度信息。这对于目标检测等任务至关重要,因为信息的完整性直接关系到网络最后预测的准确性。

3 PGI

可编程梯度信息(PGI)就是为了解决输入数据在前馈过程中丢失信息的问题而设计的。PGI机制使得轻量级模型能从辅助监督机制中受益可以应用于各种大小的深度神经网络,更为通用。

① 信息瓶颈

数据X在经过变换时可能会导致信息损失,公式如下:

解决上述问题的方法是增加模型的大小。这一方法允许即使在数据前馈过程中丢失了信息,仍有机会保留足够的信息以执行到目标的映射。上述现象解释了为什么在大多数现代模型中宽度比深度更重要。然而,上述结论不能从根本上解决非常深的神经网络中不可靠梯度的问题。

可逆函数

当函数r具有逆变换函数v的时候,称这个函数r为可逆函数,如下述公式(2)所示。

数据X通过可逆函数转换而不丢失信息,如下述公式(3)所示。当网络的转换函数由可逆函数组成时,可以获得更可靠的梯度来更新模型,如下述公式(4)所示。尝试找到r的逆变换v,以便转换后的特征可以使用稀疏特征保留足够的信息,公式(5)如下所示。信息瓶颈的公式如公式(6)所示。

轻量级模型本身处于欠参数化状态,因此在前馈阶段很容易丢失大量重要信息。因此,对轻量级模型的目标是如何从I(X;X)中准确筛选出I(Y;X)。至于完全保留X的信息,那是难以实现的。因此,本文提出一种新的深度神经网络训练方法,不仅能生成可靠的梯度来更新模型,而且也适用于浅层和轻量级神经网络。

③ PGI

PGI的目的是通过辅助可逆分支(上图中虚线框中的部分)来解决信息瓶颈问题,以便在不增加推理成本的情况下为深度网络提供更可靠的梯度。通过这种设计使得轻量级和浅层的神经网络也可以实现有效的信息保留和准确的梯度更新。

  1. 主分支:只用于推理的架构,因此不需要任何额外的推理成本。
  2. 辅助可逆分支:生成可靠的梯度,以供给主分支进行反向传播,以帮助提取正确和重要的信息,并使主分支能够获取更有效的目标任务特征。旨在处理由神经网络加深造成的信息瓶颈问题。辅助可逆分支可以在推理阶段移除
  3. 多级辅助信息:控制主分支学习可规划的多级语义信息。旨在处理由深度监督造成的误差累积问题,特别是对于具有多个预测分支的架构和轻量型模型。

4 GELAN

GELAN允许支持多种类型的计算块,这使得它可以更好地适应各种不同的计算需求和硬件约束。

5 实验

选择CSP-ELAN作为YOLOv9中GELAN的组成单元。

6 可视化

GELAN有更稳定的结果和更清晰的边界信息。

7 结论

PGI的引入使得轻量级模型和深度模型都能实现精度的显著提升。通过结合PGI和GELAN设计的YOLOv9展现了强大的竞争力。其出色的设计使得深度模型与YOLOv8相比,参数数量减少了49%,计算量减少了43%,但在MS COCO数据集上仍然实现了0.6%的AP提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/815128.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PYTHON 爬取彼岸图片升级版

import requests from lxml import etree import time import os from concurrent.futures import ThreadPoolExecutordate_dict {动漫: dongman,游戏: youxi,美女: meinv,风景: fengjing,影视: yingshi,汽车: qiche,人物: renwu,动物: dongwu,宗教: zongjiao,北京: beijing }…

2024.4.14力扣每日一题——设计哈希集合

2024.4.14 题目来源我的题解方法一 链表数组 题目来源 力扣每日一题;题序:705 我的题解 方法一 链表数组 由于给定限制次数为10000,所以构造一个长度为10001的链表数组。对于add操作先看数组对应的位置是否为null或者为空,若是…

免费的 ChatGPT 网站(六个)

🔥博客主页: 小羊失眠啦. 🎥系列专栏:《C语言》 《数据结构》 《C》 《Linux》 《Cpolar》 ❤️感谢大家点赞👍收藏⭐评论✍️ 文章目录 一、insCode二、讯飞星火三、豆包四、文心一言五、通义千问六、360智脑 现在智能…

【窃取网络游戏中虚拟物品的行为定性】

虚拟物品随着网络游戏产业的不断发展越来越走入人们的生活。与此同时,窃取网络游戏中虚拟装备、货币等侵害网络游戏虚拟物品的行为屡见不鲜,对网络游戏产业环境造成破坏的同时对游戏参与者的权益也造成了一定的侵害。对于窃取网络游戏虚拟物品的行为&…

2024-04-13 问AI: 什么是h5py文件?

文心一言 h5py文件是HDF5文件的一种Python接口表示形式。HDF5(Hierarchical Data Format 5)是一种用于存储和组织大量科学数据的文件格式。h5py是Python中的一个库,提供了对HDF5文件的高级封装,使得在Python中处理HDF5文件变得更…

Docker - Nginx

博文目录 文章目录 说明命令 说明 Docker Hub Nginx 数据卷数据卷印射在容器内的路径nginx.conf/etc/nginxnginx.html/usr/share/nginx/htmlnginx.log/var/log/nginx 容器内的路径说明/etc/nginx/nginx.conf配置文件/etc/nginx/conf.d配置目录/usr/share/nginx/html静态目录/…

【漏洞复现】WordPress LayerSlider插件SQL注入漏洞复现

声明:亲爱的读者,我们诚挚地提醒您,Aniya网络安全的技术文章仅供个人研究学习参考。任何因传播或利用本实验室提供的信息而造成的直接或间接后果及损失,均由使用者自行承担责任。Aniya网络安全及作者对此概不负责。如有侵权&#…

C数据结构:双向链表(带头循环)

前言 链表分多种,分别为 不带头不循环单向链表、不带头循环单向链表、带头循环单向链表、带头不循环单向链表 不带头不循环双向链表、不带头循环双向链表、带头循环双向链表、带头不循环双向链表 一共八种 在前一篇博客中完成的单链表即为不带头不循环单向链表…

杰发科技AC7840——CAN通信简介(5)_可变波特率设置

0. 简介 设置可变波特率时候,遇到2个坑,在此记录下来 使用该函数即可 can_time_segment_t bitrate2 s_canBitrate[CAN_BITRATE_250K]; CAN_DRV_SetBitrate(instance, &bitrate2); 1. 波特率指针注意不要空 查看设置波特率的接口,发现…

儿童学编程的好处

儿童学习编程是当今社会中越来越受到关注的话题。随着科技的发展,编程已经成为一种基本的技能,而儿童正是未来的希望。因此,让儿童学习编程具有诸多好处。 首先,学习编程可以培养儿童的逻辑思维能力。编程是一门需要严密思维和逻…

nodejs安装常用命令

安装 Node.js 后&#xff0c;你可以在命令行中使用以下常用命令&#xff1a; node&#xff1a;启动 Node.js 的交互式解释器&#xff0c;可以直接在命令行中执行 JavaScript 代码。 npm install <package-name>&#xff1a;安装一个 Node.js 模块&#xff0c;<packag…

吉他弹唱谱怎么制作 Guitar Pro 怎么写弹简谱 Guitar Pro8.02简谱

学习如何制作吉他弹唱谱是提升音乐创作和表现能力的重要一环。借助专业的软件工具如Guitar Pro&#xff0c;可以轻松地将音乐创意转化为可视化的乐谱&#xff0c;使演奏和分享变得更加便捷和高效。下面我们来看看吉他弹唱谱怎么制作&#xff0c;Guitar Pro 怎么写弹简谱的相关内…

el-date-picker调用回车事件

elementui的el-date-picker想要调用回车事件&#xff1a; <el-date-pickerv-model"state.date"type"date"value-format"YYYY-MM-DD HH:mm:ss"placeholder"选择日期"clearablekeydown.enter"handleDown"></el-date-…

threejs--01整体api整理

文章目录 threejs学习01 threejs的基本组成1. threejs的坐标系2. threejs的场景3. threejs相机的类型4. threejs光4.1 threejs的光4.2 threejs的阴影 5. threejs的物体5.1 threejs的曲线5.2 threejs的几何体5.3 threejs的材质5.3 threejs的纹理 6. threejs的动画6.1 threejs的动…

Llama 3下月正式发布,继续开源!

4月10日&#xff0c;Techcrunch消息&#xff0c;Meta在本周伦敦举办的一场活动中确定&#xff0c;下个月将正式发布Llama 3并且继续开源。 Meta全球事务总裁Nick Clegg表示&#xff0c;我们希望在下个月&#xff0c;甚至更短的时间内&#xff0c;正式推出新一代基础模型Llama …

云服务器宝塔ssh:tabby 部署SpringBoot项目

阿里云服务器 ----》 linux 云服务器 &#xff0c; ip , root 密码 tabby -----> ssh 连接工具 &#xff0c;用这个连接云服务器 去操作 云服务器 宝塔 -------》 可视化工具&#xff0c;快速部署 云服务器的 安装环境 &#xff0c;部署项目。 tabby :Tabby Terminal 下载…

【华为OD机试】比赛的冠亚季军(深度优先搜索—JavaPythonC++JS实现)

本文收录于专栏:算法之翼 本专栏所有题目均包含优质解题思路,高质量解题代码(Java&Python&C++&JS分别实现),详细代码讲解,助你深入学习,深度掌握! 文章目录 一. 题目二.解题思路三.题解代码Python题解代码JAVA题解代码C/C++题解代码JS题解代码四.代码讲解(Ja…

ubuntu netplan 设置dns

ubuntu netplan 设置dns 要配置netplan&#xff0c;请/etc/netplan/使用.yaml扩展名&#xff08;例如/etc/netplan/config.yaml&#xff09;保存配置文件&#xff0c;然后运行sudo netplan apply。此命令解析配置并将其应用于系统。 配置文件格式 参照 这里. eth0:dhcp4: noa…

机器学习和深度学习--李宏毅(笔记与个人理解)Day9

Day9 Logistic Regression&#xff08;内涵&#xff0c;熵和交叉熵的详解&#xff09; 中间打了一天的gta5&#xff0c;图书馆闭馆正好npy 不舒服那天天气不好&#xff0c;哈哈哈哈哈总之各种理由吧&#xff0c;导致昨天没弄起来&#xff0c;今天补更&#xff01; 这里重点注意…

git修改某个远端服务器的地址的方式以及4种remote(git remote set-url origin xxx、git remote -v)

假设本地有1个远端仓库&#xff0c;默认一般叫origin&#xff0c;原来对应的git url是&#xff1a;gitxxx.git # 查看方式&#xff1a; git remote -v# 修改方式&#xff1a; git地址url指定远程仓库&#xff1a;&#xff08;常用&#xff09; git remote set-url origin gitn…