yolov8涨点系列之HiLo注意力机制引入

文章目录

  • HiLo 注意力介绍
    • 原理
    • 特点
  • yolov8增加CBAM具体步骤
    • HiLo代码
      • (1)在__init.py+__conv.py文件的__all__内添加‘HiLo’
      • (2)conv.py文件复制粘贴HiLo代码
      • (3)修改task.py文件
    • yolov8.yaml文件增加HiLo注意力机制
      • yolov8.yaml
      • yolov8.yaml引入HiLo注意力机制
  • 将 HiLo 注意力引入 YOLOv8 的好处
    • 性能提升
    • 计算效率优化
    • 模型的可扩展性

  从网上所搜以及chatgpt生成的HiLo注意力代码真正运行时总是遇到问题原因在于少定义了缩放因子,本文给出正确完整的HiLo注意力代码并进行完整的yolov8代码运行引入介绍。

HiLo 注意力介绍

原理

  高频部分:自然图像中,高频信息往往捕捉对象的局部细节,如线条、形状等。HiLo 中的高频注意力(Hi-Fi)通过局部窗口自注意力机制来捕获这些细粒度的高频信息。例如使用较小的非重叠窗口(如 2x2 窗口),在每个窗口内计算自注意力,这样可以更高效地关注局部的细节特征,避免了在全局范围内计算自注意力的高昂计算成本,且对硬件更加友好。
  低频部分:低频信息主要编码图像的全局结构,如纹理、颜色等。低频注意力(Lo-Fi)首先对每个窗口应用平均池化操作以获得低频信号,将平均池化后的特征映射投影到键(Key)和值(Value),而查询(Query)仍然来自原始特征图。然后应用标准注意力机制来建模输入特征图中每个查询位置与每个窗口的平均池化低频键之间的关系。由于键和值的空间维度降低,低频注意力部分降低了计算复杂度。

特点

  高效性:通过将注意力头分为高频和低频两组,分别处理不同频率的信息,避免了传统的多头自注意力层对所有特征都采用相同的全局注意力计算方式,减少了不必要的计算量,提高了计算效率。
  灵活性:头部分配比例可以根据具体任务和数据集进行调整,以平衡高频和低频信息的关注度,适应不同的应用场景。
  可解释性:这种将注意力机制按照频率进行分解的方式,使得模型对图像信息的处理过程更加清晰可解释,有助于理解模型是如何关注不同频率的特征以及如何融合这些特征来进行预测的。

yolov8增加CBAM具体步骤

HiLo代码

(1)在__init.py+__conv.py文件的__all__内添加‘HiLo’

在这里插入图片描述
在这里插入图片描述

(2)conv.py文件复制粘贴HiLo代码

class HiLoAttention(nn.Module):def __init__(self, channel, reduction_ratio=1):super(HiLoAttention, self).__init__()# 初始化一些参数、权重等self.channel = channelself.reduction_ratio = reduction_ratio# 定义一些层,比如线性层、卷积层等,用于计算注意力权重self.avg_pool = nn.AdaptiveAvgPool2d(1)self.fc1 = nn.Linear(channel, channel // reduction_ratio)self.relu = nn.ReLU()self.fc2 = nn.Linear(channel // reduction_ratio, channel)self.sigmoid = nn.Sigmoid()def forward(self, x):b, c, h, w = x.size()# 计算全局平均池化avg_pooled = self.avg_pool(x).view(b, c)# 全连接层和激活函数计算注意力权重fc1_out = self.fc1(avg_pooled)fc1_out = self.relu(fc1_out)fc2_out = self.fc2(fc1_out)attention_weights = self.sigmoid(fc2_out).view(b, c, 1, 1)# 将注意力权重应用到输入特征图上return x * attention_weights

(3)修改task.py文件

  先引用刚导入的HiLo模块(本文直接将modules文件夹下的全部引入):
在这里插入图片描述
  再配置引用HiLo模块时的计算方法:
在这里插入图片描述

elif m is HiLoAttention:c1,c2=ch[f],args[0]if c2!=nc:c2=make_divisible(min(c2,max_channels)*width,8)args=[c1,*args[1:]]

yolov8.yaml文件增加HiLo注意力机制

yolov8.yaml

# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLOv8 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect# Parameters
nc: 80  # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call yolov8.yaml with scale 'n'# [depth, width, max_channels]n: [0.33, 0.25, 1024]  # YOLOv8n summary: 225 layers,  3157200 parameters,  3157184 gradients,   8.9 GFLOPss: [0.33, 0.50, 1024]  # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients,  28.8 GFLOPsm: [0.67, 0.75, 768]   # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients,  79.3 GFLOPsl: [1.00, 1.00, 512]   # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPsx: [1.00, 1.25, 512]   # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs# YOLOv8.0n backbone
backbone:# [from, repeats, module, args]- [-1, 1, Conv, [64, 3, 2]]  # 0-P1/2- [-1, 1, Conv, [128, 3, 2]]  # 1-P2/4- [-1, 3, C2f, [128, True]]- [-1, 1, Conv, [256, 3, 2]]  # 3-P3/8- [-1, 6, C2f, [256, True]]- [-1, 1, Conv, [512, 3, 2]]  # 5-P4/16- [-1, 6, C2f, [512, True]]- [-1, 1, Conv, [1024, 3, 2]]  # 7-P5/32- [-1, 3, C2f, [1024, True]]- [-1, 1, SPPF, [1024, 5]]  # 9# YOLOv8.0n head
head:- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [[-1, 6], 1, Concat, [1]]  # cat backbone P4- [-1, 3, C2f, [512]]  # 12- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [[-1, 4], 1, Concat, [1]]  # cat backbone P3- [-1, 3, C2f, [256]]  # 15 (P3/8-small)- [-1, 1, Conv, [256, 3, 2]]- [[-1, 12], 1, Concat, [1]]  # cat head P4- [-1, 3, C2f, [512]]  # 18 (P4/16-medium)- [-1, 1, Conv, [512, 3, 2]]- [[-1, 9], 1, Concat, [1]]  # cat head P5- [-1, 3, C2f, [1024]]  # 21 (P5/32-large)- [[15, 18, 21], 1, Detect, [nc]]  # Detect(P3, P4, P5)

yolov8.yaml引入HiLo注意力机制

# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLOv8 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect# Parameters
nc: 80  # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call yolov8.yaml with scale 'n'# [depth, width, max_channels]n: [0.33, 0.25, 1024]  # YOLOv8n summary: 225 layers,  3157200 parameters,  3157184 gradients,   8.9 GFLOPss: [0.33, 0.50, 1024]  # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients,  28.8 GFLOPsm: [0.67, 0.75, 768]   # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients,  79.3 GFLOPsl: [1.00, 1.00, 512]   # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPsx: [1.00, 1.25, 512]   # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs# YOLOv8.0n backbone
backbone:# [from, repeats, module, args]- [-1, 1, Conv, [64, 3, 2]]  # 0-P1/2- [-1, 1, Conv, [128, 3, 2]]  # 1-P2/4- [-1, 3, C2f, [128, True]]- [-1, 1, Conv, [256, 3, 2]]  # 3-P3/8- [-1, 6, C2f, [256, True]]- [-1, 1, Conv, [512, 3, 2]]  # 5-P4/16- [-1, 6, C2f, [512, True]]- [-1, 1, HiLoAttention, [512,1]]- [-1, 1, Conv, [1024, 3, 2]]  # 7-P5/32- [-1, 3, C2f, [1024, True]]- [-1, 1, SPPF, [1024, 5]]  # 9# YOLOv8.0n head
head:- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [[-1, 6], 1, Concat, [1]]  # cat backbone P4- [-1, 3, C2f, [512]]  # 12- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [[-1, 4], 1, Concat, [1]]  # cat backbone P3- [-1, 3, C2f, [256]]  # 15 (P3/8-small)- [-1, 1, GhostConv, [256, 3, 2]]- [[-1, 12], 1, Concat, [1]]  # cat head P4- [-1, 3, C2f, [512]]  # 18 (P4/16-medium)- [-1, 1, GhostConv, [512, 3, 2]]- [[-1, 9], 1, Concat, [1]]  # cat head P5- [-1, 3, C2f, [1024]]  # 21 (P5/32-large)- [[15, 18, 22], 1, Detect, [nc]]  # Detect(P3, P4, P5)

在这里插入图片描述

将 HiLo 注意力引入 YOLOv8 的好处

性能提升

  更准确的特征提取:YOLOv8 是一种目标检测算法,对于目标的特征提取至关重要。HiLo 注意力可以让模型更好地关注到图像中的高频局部细节信息,如目标的边缘、纹理等,以及低频的全局结构信息,如目标的整体形状、背景等。这样可以更全面、准确地提取目标的特征,提高检测的准确率,尤其是对于一些形状复杂、纹理丰富或者与背景相似的目标。
  增强模型的鲁棒性:在复杂的场景中,图像可能会受到光照、噪声、遮挡等因素的影响,导致目标的特征变得不明显或者难以提取。HiLo 注意力机制可以帮助模型更好地适应这些变化,通过关注不同频率的信息,减少噪声和干扰的影响,提高模型的鲁棒性。

计算效率优化

  降低计算成本:YOLOv8 在处理大规模图像数据时,计算量较大,对硬件资源的要求较高。引入 HiLo 注意力后,由于高频和低频部分的计算方式更加高效,可以减少不必要的计算,降低模型的计算成本,提高模型的运行速度,使其更适合在资源有限的设备上运行,如移动设备、嵌入式设备等。
  更好地利用硬件资源:HiLo 注意力机制的计算方式更符合硬件的计算特性,例如在 GPU 上可以更好地利用并行计算能力,提高计算效率,减少内存访问成本,从而进一步提高模型的性能。

模型的可扩展性

  易于与其他模块结合:HiLo 注意力可以很容易地与 YOLOv8 中的其他模块相结合,如特征融合模块、骨干网络等,形成一个更加复杂、高效的模型。这种可扩展性使得研究人员可以根据具体的需求和应用场景,灵活地调整模型的结构和参数,进一步提高模型的性能。
  方便进行模型的优化和改进:引入 HiLo 注意力后,模型的结构更加清晰,研究人员可以更方便地对模型进行分析和优化。例如,可以通过调整高频和低频部分的头部分配比例、窗口大小等参数,来寻找最优的模型结构,提高模型的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/58358.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ReactPress—基于React的免费开源博客CMS内容管理系统

ReactPress Github项目地址:https://github.com/fecommunity/reactpress 欢迎提出宝贵的建议,感谢Star。 ![ReactPress](https://i-blog.csdnimg.cn/direct/0720f155edaa4eadba796f4d96d394d7.png#pic_center ReactPress 是使用React开发的开源发布平台&…

金华迪加 现场大屏互动系统 mobile.do.php 任意文件上传漏洞复现

0x01 产品简介 金华迪加现场大屏互动系统是一种集成了先进技术和创意设计的互动展示解决方案,旨在通过大屏幕和多种交互方式,为观众提供沉浸式的互动体验。该系统广泛应用于各类活动、展览、会议等场合,能够显著提升现场氛围和参与者的体验感。 0x02 漏洞概述 金华迪加 现…

搭建支持国密GmSSL的Nginx环境

准备 1、服务器准备:本文搭建使用的服务器是CentOS 7.6 2、安装包准备:需要GmSSL、国密Nginx,可通过互联网下载或者从 https://download.csdn.net/download/m0_46665077/89936158 下载国密GmSSL安装包和国密Nginx安装包。 服务器安装依赖包…

直播系统搭建教程安装说明

需要安装的软件(宝塔【软件商店】中查找安装): 1.PHP7.0 ~ PHP7.3 需要安装的扩展:(宝塔【PHP管理】【安装扩展】中安装) *PDO PHP Extension * MBstring PHP Extension * CURL PHP Extension * Mylsqi PHP Extension * Redis PHP Extension * fileinfo PHP Extension …

有了这三个神器,就没有你找不到的资源

在这个信息丰富的时代,获取资源已成为日常生活的一部分。无论是技术文档、学习资料还是开源项目,快速准确地找到所需内容常常让人头疼。但今天,我将介绍三个强大的工具,帮助你轻松发现各种资源——从技术资料到影视音乐&#xff0…

Harbor的安装与使用

前言 通过 Harbor 项目地址 找到最新的 Release 版本 因为Harbor 是一个用于存储和分发 Docker 镜像的企业级 Registry 服务器。在使用的过程中,发现与containerd不能很好地兼容。所以我这边启用了原来的一套基于docker-cri 的K8S高可用服务(3台AlmaLi…

fastbootd模式刷android固件的方法

1. fastbootd追根溯源 Google在Android 10上正式引入了动态分区机制来提升OTA的可扩展性。动态分区使能后:andorid系统可以在开机阶段动态地进行分区创建、分区销毁、分区大小调整等操作,下游厂商只需要规划好super分区的总大小,其内部的各个…

Mid term Review

Partial Fractions 部分分式 有理函数拆分的结果是若干项简单分式的和,这些简单分式被称为部分分式。在积分有理函数,解有理方程,或者处理拉普拉斯变换时特别有用。 有理函数的定义和拆分要求 有理函数必须为真有理式(与真分数的判断条件相…

致茂Chroma61860回收式电网模拟电源

Chroma回收式电网模拟电源 Chroma61830 Chroma61845 Chroma61860 Chroma61800-100 功率规格 61830:30kVA 61845:45kVA 61860:60kVA 61800-100:105kVA 61800-100 (800VLN):105kVA 电压规格: 0~300V 0~40…

CSS基础知识六(浮动的高度塌陷问题及解决方案)

目录 1.浮动高度塌陷概念 2.下面是几种解决高度塌陷的几种方案: 解决方案一: 解决方案二: 解决方案三: 1.浮动高度塌陷概念 在CSS中,高度塌陷问题指的是父元素没有正确地根据其内部的浮动元素或绝对定位元素来计…

计算机网络:网络层 —— 边界网关协议 BGP

文章目录 路由选择协议动态路由协议边界网关协议 BGPBGP 的基本概念BGP-4 的四种报文 路由选择协议 因特网是全球最大的互联网,它所采取的路由选择协议具有以下三个主要特点: 自适应:因特网采用动态路由选择,能较好地适应网络状态…

风力发电并网系统的相关控制策略

风电作为一种可再生资源,具有低污染、储量大等优点。随着近年来**绿色发展战略的深入实施,我国风力发电技术取得重大进展。风力发电总装机容量机并网规模呈逐年增长趋势,为**工农业生产及居民生活提供了大量电力能源。然而,风力发…

uni-app跨域set-cookie

set-cookie的值是作为一个权限控制的 首先,无论什么接口都会返回一个set-cookie,但未登录时,set-cookie是没有任何权限的 其次,登录接口请求时会修改set-cookie,并且在后续其他接口发起请求时,会在请求头…

【RabbitMQ】03-交换机

1. 交换机 2. Fanout交换机 广播。生产者向exchange发消息 SpringBootTest public class SpringAmqpTest {Autowiredpublic RabbitTemplate rabbitTemplate;Testvoid testSimple() {String exchangName "hmall.fabout";rabbitTemplate.convertAndSend(exchangName…

基于python构造电影neo4j知识图谱

使用pandas构造neo4j电影知识谱图 实现效果 电影知识图谱构造过程 实现过程 import pandas as pd from tqdm import tqdmfrom config import graph, cnndef delete_all():graph.run("MATCH(n) DETACH DELETE(n)")# 创建带属性的节点 def createNode(node, row):try…

曲速磨-干法研磨机、超细研磨机、节能细磨

曲速磨在涂料粉体中的应用广泛,主要体现在提高涂料粉体的品质、生产效率以及适应特殊工艺需求等方面。 1.提高涂料粉体品质 细化颗粒:曲速磨通过研磨媒体(如锆珠)的高速运动,对涂料粉体进行强烈的碰撞、摩擦和剪切作用,从而有效地…

加锁失效,非锁之过,加之错也|京东零售供应链库存研发实践

本文导读 从事京东零售供应链库存业务,库存数量操作增减十分频繁,并且项目开发中会常常遇到各种并发情况,一旦库存数量操作有误,势必给前台销售产生损失影响,因此需要关注对库存数量并发操作下的一致性问题。 大部分…

FileLink如何帮助医疗行业实现安全且高效的跨网文件交换

在当今数字化时代,医疗行业在快速发展的同时,也面临着数据安全和信息流转效率的双重挑战。患者的健康记录、影像数据、检查报告等大量敏感信息需要在不同医院、诊所、实验室和保险公司之间高效、迅速地传递。然而,传统的邮件、传真和纸质文件…

Nginx:我自己的网站

一、Nginx的简介 Nginx是一款轻量的级的HTTP服务器,也是一款邮箱代理服务器,同时具备反向代理,通用TCP/UDP代理功能。 Nginx可以运行在x86、ARM等多种平台上,同时支持Linux、windows等主流的操作系统 二、Nginx的特点 1、支持高并…

qt QDropEvent详解

1、概述 QDropEvent是Qt框架中用于处理拖放释放事件的一个类。它允许开发者在用户界面中更好地管理和处理拖放操作,从而实现交互式和响应式的应用程序。QDropEvent类提供了处理拖放释放事件所需的方法和信号,使得开发者能够轻松地实现拖放功能&#xff…