论文er们,YOLO这口饭得趁热吃

不知道各位有没有看出来,从去年开始YOLO相关的论文就处于一个井喷式状态,SCI各区都能见到它的身影。

这是因为YOLO其实是个很好发论文的方向,需求量很大,热度高,并且好入门,能获取的资源也很多。写论文时一般只要换个数据集或应用场景,就能作为新模型发表了。

如果有同学想发表YOLO相关的论文,可以考虑从数据处理、模型改进、loss函数优化这三个方面入手,目前YOLO的创新一般都围绕这些,特别是模型改进这方面,比如引入注意力机制、使用多尺度特征融合等。

最新提出的Mamba YOLO就是个很好的例子,它其实就是YOLO的一种改进变体,在YOLO的基础上引入了SSM,以增强模型的性能。

为了方便有论文需求的同学,我这次整理了YOLOv1到v10系列原文,以及YOLO的改进变体,共23篇。这些变体涉及上述引入注意力机制等模型改进策略,还包括与mamba的最新结合,开源的代码已附。

论文原文+开源代码需要的同学看文末

引入注意力机制

YOLO-SLD: An Attention Mechanism-Improved YOLO for License Plate Detection

方法:本文提出了YOLO-SLD网络模型,通过引入注意力机制,提高了车牌检测的效率和准确性;同时使用AP和mAP作为评估指标,比较了YOLOv7模型在引入不同注意力机制后的性能提升;实验证明该算法在速度、准确性和实时性方面具有较好的性能;同时介绍了信息丰富神经元的概念以及SimAM注意力模块的核心组成部分。

创新点:

  • 首次在CCPD数据集上使用YOLOv7模型网络进行车牌检测,并对包括CBAM、CA、SA和SE在内的各种注意力机制进行了实验,这是一个新的方法。

  • 将A Simple, Parameter-Free Attention Module (SimAM)注意力机制与YOLOv7的Backbone和Head结合起来,通过替换和添加卷积层来增强特征提取能力。

  • 与现有的目标检测网络相比,YOLO-SLD在CCPD数据集上的性能更好,mAP达到0.5时为98.91%,比YOLOv7高0.47%。

使用多尺度特征融合

CRGF‑YOLO: An Optimized Multi‑Scale Feature Fusion Model Based on YOLOv5 for Detection of Steel Surface Defects

方法:论文提出的CRGF-YOLO模型是对YOLOv5的一个改进,它特别强调了多尺度特征融合的使用。该模型通过引入BottleneckCSP结构、深度可分离卷积和上下文变换模块等创新技术,实现了高效准确的缺陷检测,并在NEU-DET数据集上取得了82.2%的mAP,超过了其他先进方法的性能。

创新点:

  • 通过对YOLOv5模型进行优化,实现了在NEU-DET数据集上出色的检测结果。这种优化方法可以实现对钢表面缺陷的准确检测,并同时保证较高的检测速度。

  • 通过结构重参数化技术,可以在训练阶段构建多分支网络结构,并将结构参数转化为另一组参数,从而在推理阶段得到一个具有高性能和低复杂度的网络结构。这种技术可以在保持较低复杂度结构的同时,实现比多分支架构更好的性能。

引入新的网络结构

与mamba结合

Mamba YOLO: SSMs-Based YOLO For Object Detection

方法:论文提出了一种名为Mamba-YOLO的检测器模型,将SSM结构应用于目标检测领域。该模型通过ODSSBlock模块来建模频道特征,通过RGBlock结构来进一步解码,提高通道相关性。Mamba-YOLO结合了SSM和CNN的优势,通过有效捕捉全局依赖关系和利用局部卷积的优势来提高检测准确性和模型对复杂场景的理解能力,同时保持实时性能。

创新点:

  • 基于SSM的Mamba-YOLO建立了YOLO的新基准线,为基于SSM的更高效和更有效的检测器的未来发展打下了坚实基础。

  • ODSSBlock引入了LS Block和RG Block模块,LS Block通过提取输入特征图的局部空间信息来弥补SSM的局部建模能力,RG Block结合了门控聚合的思想和具有残差连接的有效卷积,有效捕捉局部依赖关系并增强模型的鲁棒性。这些模块的设计提高了检测能力和特征表示能力。

FER-YOLO-Mamba:Facial Expression Detection and Classification Based on Selective State Space

方法:本文提出了一种名为FER-YOLO-Mamba的FER模型,该模型将YOLO和Mamba的优势结合起来,实现了面部表情图像的高效识别和定位。FER-YOLO-Mamba模型采用了FER-YOLO-VSS双分支模块,结合了卷积层在局部特征提取中的优势和状态空间模型在揭示长距离依赖性方面的卓越能力。

创新点:

  • Mamba算法通过其独特的选择性扫描机制,专注于输入数据的关键区域,有效提取与面部表情相关的特征。该算法通过动态调整系统矩阵B和D来增强处理复杂时间动态的能力,从而更准确地捕捉表情的细微变化,提高检测和分类的准确性。

  • 该模块通过通道分割将输入分为两个子输入,分别在局部特征提取和揭示远距离依赖关系方面进行独立处理,最终将两个子输入的输出特征融合,实现更全面的目标识别。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“YOLO23”获取全部论文+开源代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/870935.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JWT (JSON Web Token) 立即失效

使一个 JWT (JSON Web Token) 立即失效可以通过多种方式实现,取决于具体的实现和系统需求。以下是几种常见的方法: 方法一:黑名单机制 适用场景: 需要在特定情况下立即使某个 JWT 失效。 可以接受额外的存储和查询开销。 实现方…

宾馆酒店电视信号高清改造-广电信号接入数字电视同轴高清传输系统应用

宾馆酒店电视信号高清改造-广电信号接入数字电视同轴高清传输系统应用 由北京海特伟业科技有限公司任洪卓发布于2024年7月12日 一、宾馆酒店广电信号接入数字电视同轴高清传输系统建设背景 在当今数字化快速发展的时代,宾馆酒店作为服务行业的重要组成部分&#x…

idea修改全局配置、idea中用aliyun的脚手架,解决配置文件中文乱码

idea修改全局配置 idea中用aliyun的脚手架,创建springBoot项目 解决配置文件中文乱码

解决fidder小黑怪倒出JMeter文件缺失域名、请求头

解决fidder小黑怪倒出JMeter文件缺失域名、请求头 1、目录结构: 2、代码 coding:utf-8 Software:PyCharm Time:2024/7/10 14:02 Author:Dr.zxyimport zipfile import os import xml.etree.ElementTree as ET import re#定义信息头 headers_to_extract [Host, Conn…

内网安全:权限维持的各种姿势

1.Linux权限维持 2.Windows权限维持 目录: 一.Linux权限维持: 1.webshell: 2.定时任务: 3.SUID后门: 4.SSH Key免密登录后门: 5.添加用户后门: 二.Windows权限维持 1.计划任务后门&…

在 Java 中:为什么不能在 static 环境中访问非 static 变量?

在 Java 中:为什么不能在 static 环境中访问非 static 变量? 1、静态(static)变量2、非静态(非static)变量3、为什么不能访问?4、如何访问?5、总结 💖The Begin&#x1f…

2024年用于在 Python 中构建 API 的 8 个开源框架

什么是API? API是一个软件解决方案,作为中介,使两个应用程序能够相互交互。以下一些特征让API变得更加有用和有价值: 遵守REST和HTTP等易于访问、广泛理解和开发人员友好的标准。API不仅仅是几行代码;这些是为移动开…

安装WindowsTerminal并设置默认以管理员身份运行启动终端

安装WindowsTerminal并设置默认以管理员身份运行启动终端 背景:Microsoft Store打不开,且WindowsTerminal没有默认以管理员身份运行。 下载msixbundle类型的安装包:https://github.com/microsoft/terminal/releases 使用管理员运行Windows …

[RK3308H_Linux] 关于8+2(8路模拟麦克风 + 2路es7243e回采)的调试心得

问题描述 RK3308H 使用8路个模拟麦克风录音,2路用es7243e做回采 解决方案: 首先先调8路模拟麦克风,根据原理图确定使用的是哪路I2S。 以下为dts配置,acodec的属性注释附上。 &acodec {status "okay";rockchip,m…

springBoot(若依)集成camunda

1、下图为项目结构 2、最外层 pom引入依赖 <properties><!--camunda 标明版本&#xff0c;注意要个自己的Spring 版本匹配&#xff0c;匹配关系自行查询官网--><camunda.version>7.18.0</camunda.version> </properties> 3、common模块引入依赖 …

retrofit实现原理

Retrofit 是一个用于 Java 和 Kotlin 的类型安全的 HTTP 客户端&#xff0c;它将 RESTful API 的抽象转换为 Java 接口&#xff0c;使得网络请求变得更加简洁和可读。Retrofit 的实现主要依赖于注解处理器和动态代理机制。下面结合源码分析 Retrofit 的实现原理&#xff1a; R…

靖江美食元宇宙

汉堡是一种流行于世界各地的快餐食品&#xff0c;它的主要成分通常包括一个或多个肉饼&#xff08;最常见的是牛肉饼&#xff09;&#xff0c;放在圆形的面包中间&#xff0c;周围可以添加各种配料和调味品&#xff0c;如生菜、番茄、洋葱、酸黄瓜、奶酪以及各种酱汁&#xff0…

Python 开发植物大战僵尸杂交版辅助【全网最详细_查找 + 代码编写一体化零基础也能学会】

目录 辅助最终展示效果 一、文章介绍 二、工具介绍 三、基址搜索 3.1、寻找阳光基址 3.2、寻找卡槽冷却基址 3.3、寻找僵尸刷新时间基址 3.4、寻找大阳光刷新时间基址 3.5、寻找植物编号基址 3.6、寻找场上僵尸数量基址 3.7、寻找僵尸 X 坐标基址 3.8、通过找到的僵…

编制,傻傻分不清?

目录 01.什么是聘用合同? 02.事业单位如何取得编制 03.如何快速判断岗位否有编制? 1.看公告直接告知 2.看是否有权威依据 3.看合同期限与试用期期限 4.看岗位表 5.咨询招考单位 04.事业单位改革备案制编制(员额制) 05.事业编制 与备案制(员额制)的区别? 1.二…

初学者必看的 3 个 Python 小项目

我们都知道&#xff0c;将知识点融入实际操作是提高编程学习效率的关键。尤其对于初学者来说&#xff0c;通过学习一些涉及核心编程概念的简单项目&#xff0c;不仅可以深化对编程语言的理解&#xff0c;还能快速提高解决问题的能力。 下面将探讨三个基础的 Python 项目&#…

Bilibili Android一二面凉经(2024)

BiliBili Android一二面凉经(2024) 笔者作为一名双非二本毕业7年老Android, 最近面试了不少公司, 目前已告一段落, 整理一下各家的面试问题, 打算陆续发布出来, 供有缘人参考。今天给大家带来的是《BiliBili Android一二面凉经(2024)》。 面试职位: 高级Android开发工程师&…

《昇思25天学习打卡营第1天|QuickStart》

说在前面 曾经接触过华为的910B服务级显卡&#xff0c;当时基于910B做了一些开发的工作&#xff0c;但是总感觉做的事情太低层&#xff0c;想要能自顶向下的了解下&#xff0c;因此开始了MindSpore的学习。另外也想给予提供的显卡&#xff0c;简单尝试下llm模型的训练&#xf…

GCN、GIN

# 使用TuDataset 中的PROTEINS数据集。 # 里边有1113个蛋白质图&#xff0c;区分是否为酶&#xff0c;即二分类问题。# 导包 from torch_geometric.datasets import TUDataset from torch_geometric.data import DataLoader import torch import torch.nn as nn import torch.…

Linux rpm和ssh损坏修复

背景介绍 我遇到的问题可能和你的不一样。但是如果遇到错误一样也可以按此方案尝试修复。 我是想在Linux上安装Oracle&#xff0c;因为必须在离线环境下安装。就在网上搜一篇文章linux离线安装oracle&#xff0c;然后安装教程走&#xff0c;进行到安装oracle依赖包的时候执行了…

数据库mysql-对数据库和表的DDL命令

文章目录 一、什么是DDL操作二、数据库编码集和数据库校验集三、使用步骤对数据库的增删查改1.创建数据库2.进入数据库3.显示数据库4.修改数据库mysqldump 5.删除数据库 对表的增删查改1.添加/创建表2.插入表内容3.查看表查看所有表查看表结构查看表内容 4.修改表修改表的名字修…