YOLOv9来了!实时目标检测新SOTA

先上一把网上的测试效果对比:

 

YOLOv9架构图

速度论文

代码:GitHub - WongKinYiu/yolov9: Implementation of paper - YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

论文:[2402.13616] YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information (arxiv.org)

      我们提出了可编程梯度信息(PGI)的概念,以应对深度网络实现多重目标所需的各种变化。PGI可以为目标任务提供完整的输入信息来计算目标函数,从而获得可靠的梯度信息来更新网络权重。此外,还设计了一种基于梯度路径规划的新型轻量级网络架构——广义高效层聚合网络(GELAN)。GELAN的架构证实了PGI在轻量化模型上取得了优异的成绩。我们在基于MS COCO数据集的目标检测上验证了所提出的GELAN和PGI。结果表明,与基于深度卷积的现有方法相比,GELAN仅使用传统的卷积算子即可实现更好的参数利用。PGI可用于从轻量级到大型的各种型号。它可以用来获得完整的信息,使从头开始训练的模型比使用大数据集预训练的最先进的模型获得更好的结果,比较结果如图1所示。

 信息瓶颈原理图

      在深度网络中,输入数据丢失的现象前馈过程中的信息通常是称为信息瓶颈[59],其原理图如图2所示。

PGI(可编程梯度信息)组件

PGI主要包括三个组成部分,即:

  1. 主分支
  2. 辅助可逆分支
  3. 多级辅助信息

PGI及相关网络架构和方法。(a) 路径聚合网络 (PAN)) [37], (b) 可逆列(修订版)[3],(c)传统的深度监督,以及(d)我们提出的可编程梯度信息(PGI)。PGI主要由以下部分组成
由三个组件组成:(1)主分支:用于推理的架构,(2)辅助可逆分支:生成可靠的梯度以提供
主分支用于反向传输,(3)多级辅助信息:控制主分支学习可规划的多级语义信息。

GELAN模块

我们将可逆支路视为深度监督支路的扩展,然后设计辅助可逆支路,新网络架构——GELAN:

GELAN的架构:(a)CSPNet [64],(b) ELAN [65],(c)提议的GELAN。我们模仿CSPNet并扩展ELAN到可以支持任何计算块的 GELAN。

YOLOv9的网络配置

实验结果

       我们在基于 MS COCO 数据集的目标检测上验证了所提出的 GELAN 和 PGI。 结果表明,与基于深度卷积开发的最先进方法相比,GELAN 仅使用传统的卷积算子即可实现更好的参数利用率。 PGI 可用于从轻型到大型的各种模型。 它可以用来获取完整的信息,从而使从头开始训练的模型能够比使用大型数据集预训练的最先进的模型获得更好的结果。

图5.最先进的实时目标检测器的比较。参与比较的方法都使用 ImageNet 作为预训练权重,包括 RT DETR [43]、RTMDet [44] 和 PP-YOLOE [74] 等。使用从头开始训练方法的 YOLOv9明显超过其他方法的性能。

可视化

图6.PlainNet、ResNet、CSPNet、GELAN在不同时随机初始权重输出的特征图(可视化结果)
深处。100 层后,ResNet 开始产生足以混淆对象信息的前馈输出。我们提议的
GELAN仍然可以保留相当完整的信息,直到第150层,并且仍然有足够的判别力,直到第200层。

图7.GELAN的PAN特征图(可视化结果)和 YOLOv9 (GELAN + PGI) 经过一个时期的偏置预热。GELAN 最初有一些分歧,但在添加 PGI 的可逆分支,它更有能力聚焦在目标物体上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/704019.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

每日coding 7. 整数反转 69. x 的平方根

7. 整数反转 给你一个 32 位的有符号整数 x ,返回将 x 中的数字部分反转后的结果。 如果反转后整数超过 32 位的有符号整数的范围 [−231, 231 − 1] ,就返回 0。 假设环境不允许存储 64 位整数(有符号或无符号)。 示例 1&am…

HTTP/HTTPS协议

什么是HTTP协议 HTTP被称为超文本传输协议(里面不仅仅可以是字符串,还可以是图片,特殊字符等),这是一种应用非常广泛的应用层协议. HTTP协议诞生于1991年,现在是最主流使用的一种应用层协议.它从诞生到现在为止迭代了多个版本. 但目前最主流使用的还是HTTP1.1和HTTP2.0. HTTP协…

Java数据结构---初识集合框架

目录 一、什么是集合框架 二、集合框架的重要性 三、背后涉及的数据结构及算法 1.什么是数据结构 2.容器背后对应的数据结构 3.相关的Java知识 4.什么是算法 一、什么是集合框架 Java 集合框架 Java Collection Framework ,又被称为容器 container &#xff0…

Unity编辑器内工程文件重命名|Project视图文件名修改

Unity编辑器内文件重命名 前言大项内容一使用方法代码展示 总结 前言 本文代码可以一键更改Project视图的文件名字 在当前文件名的状态下增加一段字符区分文件。 大项内容一 功能是因为在给其他人导入项目资源时有重复的资源的时候,资源会产生覆盖的问题。所以直…

RabbitMQ——消息应答和持久化

文章目录 RabbitMQ——消息应答和持久化1、消息应答1.1、概念1.2、手动应答示例 2、持久化 RabbitMQ——消息应答和持久化 1、消息应答 1.1、概念 概念 消息应答机制是指消费者在消费消息后向 RabbitMQ 确认(acknowledge)已经成功处理了消息。 这个机…

家用办公主机需要多少钱?推荐主机选购攻略!!

1.头部部分 本文将长期保持更新,您可以保存并随时查看。 过去推荐的 主持人推荐 以下家庭办公主机均采用性能强劲的12/13代i5配置,可以完美应对日常办公、平面设计、编辑等使用场景。 主机价格在4K左右,自带显示器,并附有三到…

xss靶场实战(xss-labs-master靶场)

xss-labs-master靶场链接&#xff1a;https://pan.baidu.com/s/1X_uZLF3CWw2Cmt3UnZ1bTw?pwdgk9c 提取码&#xff1a;gk9c xss-labs level 1 修改 url 地址中的name<script>alert(1)</script>&#xff0c;便可以通关 level 2 在搜索框中输入的 JS 代码无法执行 …

leetcode704--数组元素查找--二分法查找算法

第一部分---数组的基础知识介绍&#xff1a; 1.数组的定义&#xff1a;数组是存放在连续内存空间上的相同数据类型的数据的集合&#xff1b; 2.数组可以通过下标索引的方式获取到下标对应的数据&#xff1b; 3.数组下标是从0开始的&#xff0c;数组的内存空间地址是连续的&a…

用户体验设计师如何在 2024抢占先机?

01. 严峻的经济形势和就业市场 我们生活在一个通货膨胀的时代。就从超市抓几个苹果、卷心菜、鸡蛋&#xff0c;看看价格吧&#xff01;我不得不多次检查收据&#xff0c;因为我简直不敢相信。外出就餐费用上涨了 10-20%&#xff0c;现在 Spotify 和 YouTube 要求收取更高的订阅…

【达梦数据库】undo_retention 测试

最近遇见如下问题 【问题背景】备库抽数报错回滚记录版本太旧&#xff0c;涉及表为日志表&#xff08;含有两个text列&#xff09;&#xff0c;主库undo_retention90 备库undo_retention3600&#xff0c;主库每分钟有这个表的写入&#xff08;insert update&#xff09;&#x…

【力扣hot100】刷题笔记Day13

前言 元宵节快乐 ~ 周六在图书馆快乐刷题&#xff01;继续二叉树&#x1f374; 543. 二叉树的直径 - 力扣&#xff08;LeetCode&#xff09; 递归后序 class Solution:def diameterOfBinaryTree(self, root: Optional[TreeNode]) -> int:self.res 0 # 记录最长路径# 递归…

使用python写一个修改execl表格的脚本

使用的前提记得安装python的环境。 import os import pandas as pddef listdir(path): #传入根目录file_list []for file in os.listdir(path):file_path os.path.join(path, file) #获取绝对路径if os.path.isdir(file_path): #如果还是文件夹&#xff0c;就继续迭代本函数…

GPT-4:开启人工智能新纪元的多功能引擎

随着人工智能技术的飞速发展&#xff0c;GPT-4&#xff08;Generative Pre-trained Transformer 4&#xff09;作为最新一代的语言模型&#xff0c;已经成为了推动科技创新、优化人机交互体验的关键力量。本文将深入探讨GPT-4的核心作用&#xff0c;以及它如何在各个领域中展现…

STM32通用定时器输入捕获

通用定时器输入捕获部分框图介绍 通用定时器输入捕获脉宽测量原理 要测量脉宽的高电平的时间&#xff1a;t2-t1&#xff08;脉宽下降沿时间点-脉宽上升沿时间点&#xff09; 假设&#xff1a;递增计数模式 ARR&#xff1a;自动重装载寄存器的值 CCRx1&#xff1a;t1时间点CCRx…

2024最新可用免费天气预报API接口

天气API接口数据, 数据字段最全&#xff0c;免费&#xff0c;稳定的实况天气预报接口 5分钟左右更新一次&#xff0c;支持全国3000多个市区县, 包含基本天气信息、24小时逐小时天气、气象预警列表、湿度、能见度、气压、降雨量、紫外线、风力风向风速、日出日落、空气质量、pm2…

细粒度目标检测问题剖析

问题剖析 相对于一般目标检测任务&#xff0c;细粒度目标更容易出现类内差异大、类间差异小等现象。 所谓细粒度目标识别&#xff0c;是指在目标检测的基础上&#xff0c;识别出目标的具体型号与类别&#xff0c;例如不只识别出飞机目标&#xff0c;还能识别出飞机型号。粗粒…

洛谷P1106题解

题目描述 键盘输入一个高精度的正整数 N&#xff08;不超过 250 位&#xff09;&#xff0c;去掉其中任意 k 个数字后剩下的数字按原左右次序将组成一个新的非负整数。编程对给定的 N 和 k&#xff0c;寻找一种方案使得剩下的数字组成的新数最小。 输入格式 输入两行正整数。…

Google炸场,推出开“放”可商用的大语言模型Gemma!超级轻量,个人电脑即可运行

与OpenAI的封闭式大型模型不同&#xff0c;谷歌、Meta等科技巨头正致力于开发开源模型&#xff0c;以期实现技术上的快速追赶。 介绍 2月21日&#xff0c;谷歌发布了其最新一代的开源AI模型——Gemma&#xff08;https://ai.google.dev/gemma&#xff09;&#xff0c;这是一个…

2024.2.29 模拟实现 RabbitMQ —— 项目展示

目录 项目介绍 核心功能 核心技术 演示直接交换机 演示扇出交换机 演示主题交换机 项目介绍 此处我们模拟 RabbitMQ 实现了一个消息队列服务器 核心功能 提供了 虚拟主机、交换机、队列、绑定、消息 概念的管理九大核心 API 创建队列、销毁队列、创建交换机、销毁交换机、…

【LeetCode】升级打怪之路 Day 06:哈希表的应用

今日题目&#xff1a; 349. 两个数组的交集 | LeetCode202. 快乐数 | LeetCode1. 两数之和 | LeetCode205. 同构字符串 | LeetCode599. 两个列表的最小索引总和 | LeetCode 目录 应用 1 -- 哈希集合LeetCode 349. 两个数组的交集 【easy】LeetCode 202. 快乐数 【小技巧】 应用…