不知道各位有没有看出来,从去年开始YOLO相关的论文就处于一个井喷式状态,SCI各区都能见到它的身影。
这是因为YOLO其实是个很好发论文的方向,需求量很大,热度高,并且好入门,能获取的资源也很多。写论文时一般只要换个数据集或应用场景,就能作为新模型发表了。
如果有同学想发表YOLO相关的论文,可以考虑从数据处理、模型改进、loss函数优化这三个方面入手,目前YOLO的创新一般都围绕这些,特别是模型改进这方面,比如引入注意力机制、使用多尺度特征融合等。
最新提出的Mamba YOLO就是个很好的例子,它其实就是YOLO的一种改进变体,在YOLO的基础上引入了SSM,以增强模型的性能。
为了方便有论文需求的同学,我这次整理了YOLOv1到v10系列原文,以及YOLO的改进变体,共23篇。这些变体涉及上述引入注意力机制等模型改进策略,还包括与mamba的最新结合,开源的代码已附。
论文原文+开源代码需要的同学看文末
引入注意力机制
YOLO-SLD: An Attention Mechanism-Improved YOLO for License Plate Detection
方法:本文提出了YOLO-SLD网络模型,通过引入注意力机制,提高了车牌检测的效率和准确性;同时使用AP和mAP作为评估指标,比较了YOLOv7模型在引入不同注意力机制后的性能提升;实验证明该算法在速度、准确性和实时性方面具有较好的性能;同时介绍了信息丰富神经元的概念以及SimAM注意力模块的核心组成部分。
创新点:
-
首次在CCPD数据集上使用YOLOv7模型网络进行车牌检测,并对包括CBAM、CA、SA和SE在内的各种注意力机制进行了实验,这是一个新的方法。
-
将A Simple, Parameter-Free Attention Module (SimAM)注意力机制与YOLOv7的Backbone和Head结合起来,通过替换和添加卷积层来增强特征提取能力。
-
与现有的目标检测网络相比,YOLO-SLD在CCPD数据集上的性能更好,mAP达到0.5时为98.91%,比YOLOv7高0.47%。
使用多尺度特征融合
CRGF‑YOLO: An Optimized Multi‑Scale Feature Fusion Model Based on YOLOv5 for Detection of Steel Surface Defects
方法:论文提出的CRGF-YOLO模型是对YOLOv5的一个改进,它特别强调了多尺度特征融合的使用。该模型通过引入BottleneckCSP结构、深度可分离卷积和上下文变换模块等创新技术,实现了高效准确的缺陷检测,并在NEU-DET数据集上取得了82.2%的mAP,超过了其他先进方法的性能。
创新点:
-
通过对YOLOv5模型进行优化,实现了在NEU-DET数据集上出色的检测结果。这种优化方法可以实现对钢表面缺陷的准确检测,并同时保证较高的检测速度。
-
通过结构重参数化技术,可以在训练阶段构建多分支网络结构,并将结构参数转化为另一组参数,从而在推理阶段得到一个具有高性能和低复杂度的网络结构。这种技术可以在保持较低复杂度结构的同时,实现比多分支架构更好的性能。
引入新的网络结构
与mamba结合
Mamba YOLO: SSMs-Based YOLO For Object Detection
方法:论文提出了一种名为Mamba-YOLO的检测器模型,将SSM结构应用于目标检测领域。该模型通过ODSSBlock模块来建模频道特征,通过RGBlock结构来进一步解码,提高通道相关性。Mamba-YOLO结合了SSM和CNN的优势,通过有效捕捉全局依赖关系和利用局部卷积的优势来提高检测准确性和模型对复杂场景的理解能力,同时保持实时性能。
创新点:
-
基于SSM的Mamba-YOLO建立了YOLO的新基准线,为基于SSM的更高效和更有效的检测器的未来发展打下了坚实基础。
-
ODSSBlock引入了LS Block和RG Block模块,LS Block通过提取输入特征图的局部空间信息来弥补SSM的局部建模能力,RG Block结合了门控聚合的思想和具有残差连接的有效卷积,有效捕捉局部依赖关系并增强模型的鲁棒性。这些模块的设计提高了检测能力和特征表示能力。
FER-YOLO-Mamba:Facial Expression Detection and Classification Based on Selective State Space
方法:本文提出了一种名为FER-YOLO-Mamba的FER模型,该模型将YOLO和Mamba的优势结合起来,实现了面部表情图像的高效识别和定位。FER-YOLO-Mamba模型采用了FER-YOLO-VSS双分支模块,结合了卷积层在局部特征提取中的优势和状态空间模型在揭示长距离依赖性方面的卓越能力。
创新点:
-
Mamba算法通过其独特的选择性扫描机制,专注于输入数据的关键区域,有效提取与面部表情相关的特征。该算法通过动态调整系统矩阵B和D来增强处理复杂时间动态的能力,从而更准确地捕捉表情的细微变化,提高检测和分类的准确性。
-
该模块通过通道分割将输入分为两个子输入,分别在局部特征提取和揭示远距离依赖关系方面进行独立处理,最终将两个子输入的输出特征融合,实现更全面的目标识别。
关注下方《学姐带你玩AI》🚀🚀🚀
回复“YOLO23”获取全部论文+开源代码
码字不易,欢迎大家点赞评论收藏