文章目录
- HiLo 注意力介绍
- 原理
- 特点
- yolov8增加CBAM具体步骤
- HiLo代码
- (1)在__init.py+__conv.py文件的__all__内添加‘HiLo’
- (2)conv.py文件复制粘贴HiLo代码
- (3)修改task.py文件
- yolov8.yaml文件增加HiLo注意力机制
- yolov8.yaml
- yolov8.yaml引入HiLo注意力机制
- 将 HiLo 注意力引入 YOLOv8 的好处
- 性能提升
- 计算效率优化
- 模型的可扩展性
从网上所搜以及chatgpt生成的HiLo注意力代码真正运行时总是遇到问题原因在于少定义了缩放因子,本文给出正确完整的HiLo注意力代码并进行完整的yolov8代码运行引入介绍。
HiLo 注意力介绍
原理
高频部分:自然图像中,高频信息往往捕捉对象的局部细节,如线条、形状等。HiLo 中的高频注意力(Hi-Fi)通过局部窗口自注意力机制来捕获这些细粒度的高频信息。例如使用较小的非重叠窗口(如 2x2 窗口),在每个窗口内计算自注意力,这样可以更高效地关注局部的细节特征,避免了在全局范围内计算自注意力的高昂计算成本,且对硬件更加友好。
低频部分:低频信息主要编码图像的全局结构,如纹理、颜色等。低频注意力(Lo-Fi)首先对每个窗口应用平均池化操作以获得低频信号,将平均池化后的特征映射投影到键(Key)和值(Value),而查询(Query)仍然来自原始特征图。然后应用标准注意力机制来建模输入特征图中每个查询位置与每个窗口的平均池化低频键之间的关系。由于键和值的空间维度降低,低频注意力部分降低了计算复杂度。
特点
高效性:通过将注意力头分为高频和低频两组,分别处理不同频率的信息,避免了传统的多头自注意力层对所有特征都采用相同的全局注意力计算方式,减少了不必要的计算量,提高了计算效率。
灵活性:头部分配比例可以根据具体任务和数据集进行调整,以平衡高频和低频信息的关注度,适应不同的应用场景。
可解释性:这种将注意力机制按照频率进行分解的方式,使得模型对图像信息的处理过程更加清晰可解释,有助于理解模型是如何关注不同频率的特征以及如何融合这些特征来进行预测的。
yolov8增加CBAM具体步骤
HiLo代码
(1)在__init.py+__conv.py文件的__all__内添加‘HiLo’
(2)conv.py文件复制粘贴HiLo代码
class HiLoAttention(nn.Module):def __init__(self, channel, reduction_ratio=1):super(HiLoAttention, self).__init__()# 初始化一些参数、权重等self.channel = channelself.reduction_ratio = reduction_ratio# 定义一些层,比如线性层、卷积层等,用于计算注意力权重self.avg_pool = nn.AdaptiveAvgPool2d(1)self.fc1 = nn.Linear(channel, channel // reduction_ratio)self.relu = nn.ReLU()self.fc2 = nn.Linear(channel // reduction_ratio, channel)self.sigmoid = nn.Sigmoid()def forward(self, x):b, c, h, w = x.size()# 计算全局平均池化avg_pooled = self.avg_pool(x).view(b, c)# 全连接层和激活函数计算注意力权重fc1_out = self.fc1(avg_pooled)fc1_out = self.relu(fc1_out)fc2_out = self.fc2(fc1_out)attention_weights = self.sigmoid(fc2_out).view(b, c, 1, 1)# 将注意力权重应用到输入特征图上return x * attention_weights
(3)修改task.py文件
先引用刚导入的HiLo模块(本文直接将modules文件夹下的全部引入):
再配置引用HiLo模块时的计算方法:
在这里插入图片描述
elif m is HiLoAttention:c1,c2=ch[f],args[0]if c2!=nc:c2=make_divisible(min(c2,max_channels)*width,8)args=[c1,*args[1:]]
yolov8.yaml文件增加HiLo注意力机制
yolov8.yaml
# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLOv8 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call yolov8.yaml with scale 'n'# [depth, width, max_channels]n: [0.33, 0.25, 1024] # YOLOv8n summary: 225 layers, 3157200 parameters, 3157184 gradients, 8.9 GFLOPss: [0.33, 0.50, 1024] # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients, 28.8 GFLOPsm: [0.67, 0.75, 768] # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients, 79.3 GFLOPsl: [1.00, 1.00, 512] # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPsx: [1.00, 1.25, 512] # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs# YOLOv8.0n backbone
backbone:# [from, repeats, module, args]- [-1, 1, Conv, [64, 3, 2]] # 0-P1/2- [-1, 1, Conv, [128, 3, 2]] # 1-P2/4- [-1, 3, C2f, [128, True]]- [-1, 1, Conv, [256, 3, 2]] # 3-P3/8- [-1, 6, C2f, [256, True]]- [-1, 1, Conv, [512, 3, 2]] # 5-P4/16- [-1, 6, C2f, [512, True]]- [-1, 1, Conv, [1024, 3, 2]] # 7-P5/32- [-1, 3, C2f, [1024, True]]- [-1, 1, SPPF, [1024, 5]] # 9# YOLOv8.0n head
head:- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [[-1, 6], 1, Concat, [1]] # cat backbone P4- [-1, 3, C2f, [512]] # 12- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [[-1, 4], 1, Concat, [1]] # cat backbone P3- [-1, 3, C2f, [256]] # 15 (P3/8-small)- [-1, 1, Conv, [256, 3, 2]]- [[-1, 12], 1, Concat, [1]] # cat head P4- [-1, 3, C2f, [512]] # 18 (P4/16-medium)- [-1, 1, Conv, [512, 3, 2]]- [[-1, 9], 1, Concat, [1]] # cat head P5- [-1, 3, C2f, [1024]] # 21 (P5/32-large)- [[15, 18, 21], 1, Detect, [nc]] # Detect(P3, P4, P5)
yolov8.yaml引入HiLo注意力机制
# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLOv8 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call yolov8.yaml with scale 'n'# [depth, width, max_channels]n: [0.33, 0.25, 1024] # YOLOv8n summary: 225 layers, 3157200 parameters, 3157184 gradients, 8.9 GFLOPss: [0.33, 0.50, 1024] # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients, 28.8 GFLOPsm: [0.67, 0.75, 768] # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients, 79.3 GFLOPsl: [1.00, 1.00, 512] # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPsx: [1.00, 1.25, 512] # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs# YOLOv8.0n backbone
backbone:# [from, repeats, module, args]- [-1, 1, Conv, [64, 3, 2]] # 0-P1/2- [-1, 1, Conv, [128, 3, 2]] # 1-P2/4- [-1, 3, C2f, [128, True]]- [-1, 1, Conv, [256, 3, 2]] # 3-P3/8- [-1, 6, C2f, [256, True]]- [-1, 1, Conv, [512, 3, 2]] # 5-P4/16- [-1, 6, C2f, [512, True]]- [-1, 1, HiLoAttention, [512,1]]- [-1, 1, Conv, [1024, 3, 2]] # 7-P5/32- [-1, 3, C2f, [1024, True]]- [-1, 1, SPPF, [1024, 5]] # 9# YOLOv8.0n head
head:- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [[-1, 6], 1, Concat, [1]] # cat backbone P4- [-1, 3, C2f, [512]] # 12- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [[-1, 4], 1, Concat, [1]] # cat backbone P3- [-1, 3, C2f, [256]] # 15 (P3/8-small)- [-1, 1, GhostConv, [256, 3, 2]]- [[-1, 12], 1, Concat, [1]] # cat head P4- [-1, 3, C2f, [512]] # 18 (P4/16-medium)- [-1, 1, GhostConv, [512, 3, 2]]- [[-1, 9], 1, Concat, [1]] # cat head P5- [-1, 3, C2f, [1024]] # 21 (P5/32-large)- [[15, 18, 22], 1, Detect, [nc]] # Detect(P3, P4, P5)
将 HiLo 注意力引入 YOLOv8 的好处
性能提升
更准确的特征提取:YOLOv8 是一种目标检测算法,对于目标的特征提取至关重要。HiLo 注意力可以让模型更好地关注到图像中的高频局部细节信息,如目标的边缘、纹理等,以及低频的全局结构信息,如目标的整体形状、背景等。这样可以更全面、准确地提取目标的特征,提高检测的准确率,尤其是对于一些形状复杂、纹理丰富或者与背景相似的目标。
增强模型的鲁棒性:在复杂的场景中,图像可能会受到光照、噪声、遮挡等因素的影响,导致目标的特征变得不明显或者难以提取。HiLo 注意力机制可以帮助模型更好地适应这些变化,通过关注不同频率的信息,减少噪声和干扰的影响,提高模型的鲁棒性。
计算效率优化
降低计算成本:YOLOv8 在处理大规模图像数据时,计算量较大,对硬件资源的要求较高。引入 HiLo 注意力后,由于高频和低频部分的计算方式更加高效,可以减少不必要的计算,降低模型的计算成本,提高模型的运行速度,使其更适合在资源有限的设备上运行,如移动设备、嵌入式设备等。
更好地利用硬件资源:HiLo 注意力机制的计算方式更符合硬件的计算特性,例如在 GPU 上可以更好地利用并行计算能力,提高计算效率,减少内存访问成本,从而进一步提高模型的性能。
模型的可扩展性
易于与其他模块结合:HiLo 注意力可以很容易地与 YOLOv8 中的其他模块相结合,如特征融合模块、骨干网络等,形成一个更加复杂、高效的模型。这种可扩展性使得研究人员可以根据具体的需求和应用场景,灵活地调整模型的结构和参数,进一步提高模型的性能。
方便进行模型的优化和改进:引入 HiLo 注意力后,模型的结构更加清晰,研究人员可以更方便地对模型进行分析和优化。例如,可以通过调整高频和低频部分的头部分配比例、窗口大小等参数,来寻找最优的模型结构,提高模型的性能。